|
2024年のAI界のホットな話題といえば、動画生成モデルは絶対に外せません! 12月に入っても、国内外の動画モデルの更新ペースは衰えていません。SoraやKeling AIなどがその代表例です。 OpenAIは12月9日、動画製品「Sora」を正式にリリースした。ユーザーは最大1080pの解像度(最長20秒)で、任意のアスペクト比の動画を作成でき、テキスト、画像、動画の入力を受け付け、新しい動画を出力として生成することができる。 12月19日、Keling AIはベースモデルのさらなるアップグレードを発表し、動画生成用のKeling 1.6モデルをリリースしました。このモデルは、テキスト応答性、視覚的な美しさ、モーション忠実度を大幅に向上させ、より安定した鮮明な画像を実現しました。また、標準モードと高品質モードもサポートしています。特に、1.6モデルで生成された動画は、社内評価で1.5モデルと比較して総合的なパフォーマンスが195%向上していると評価されています。 ビデオモデルの競争が激化する中、ベンチマークランキングは特に重要になっています。 AGI-Eval は、数百の評価データセットを構築し、専門家レベルの人間による評価チームを採用して、Sora やその他の主要な国内ビデオ生成モデルの詳細な専門的評価を実施しました。 主な結論は次のとおりです。 結論1 国内上位3機種と比較すると、SORAは動画テキストの一貫性と動画品質において若干劣っています。しかし、全体的には国内機種が依然として優位な地位を維持しています。 結論2 Sora は、モーション品質の点では Kelvin 1.6 よりもわずかに優れたパフォーマンスを発揮します。つまり、生成されたビデオ映像は、モーション プロセス中に、より自然な被写体の一貫性とダイナミック レンジを示します。 結論3 ビデオとテキストの一貫性の点では、Sora はテキストの誤解や指示の不遵守などの問題を示しており、生成されたビデオ コンテンツがプロンプトの説明と一致しないことを意味します。 詳細なランキングリストは以下の通りです。評価項目には、動画とテキストの一貫性、動画品質(信憑性と合理性を含む)、モーション品質などが含まれており、評価結果がモデルの真のレベルを反映することを保証します。 注:上記のデータは説明のみを目的としています。具体的なスコアについては、AGI-Eval評価コミュニティプラットフォームの最新データを参照してください。 ランキングデータは正規化されており、元のスコアとは異なりますが、ランキングは同じままです。 AGI-Eval プラットフォーム リンク: https://agi-eval.cn/mvp/listS... 徹底評価・比較:Sora VS 国内動画生成モデル詳しい評価結果を見てみましょう。 全体的なビデオ生成に関して言えば、Sora はビデオ品質、創造の自由度、スタイルのサポートの点で優れており、特に動的なシーンでの顔の特徴のより詳細な表現において優れています。 例の比較[例1]: テキストの一貫性 プロンプト:地面にバスケットボール、パン、バックパックが落ちています。カメラは、疲れ果てたアスリートがそれらのアイテムに近づき、エネルギーを補給するために一つを拾い上げる様子を追っています。 プロンプト自体は非常に複雑で、複数のエンティティとキャラクターの状態が含まれており、モデルが正しい推論を行う必要があるため、より包括的な範囲の能力を評価する必要があります。 ソラ-1080P この次元は2点です。分析:生成されたエンティティのうち、バックパックが欠落しており、パンの表現が不十分で、エンティティの特徴が失われています。キャラクターの「拾う」という動作が一致しないため、正しく推定されたオブジェクトと一致するかどうかを判断できません。 ケリング 1.6 この次元のスコアは2.67です。分析:生成されたエンティティの中にパンが欠落しており、「拾う」という動作は傾向を示しているものの、実行が不十分です。また、正しく推論されたオブジェクトと一致するかどうかも判断できません。 ピックスバースV3 この次元の得点は3.5点です。分析:生成されたエンティティとキャラクターの「拾う」という行動はどちらも満たされており、拾うべきものがパンであるという正しい推論も達成されています。しかし、カメラの追従とキャラクターの「到着」という行動には一致していません。相対的に見ると、良好なパフォーマンスを示しています。 ミニマックスビデオ01 このディメンションは3点を獲得します。分析:生成されたエンティティにはパンが欠落しており、「拾う」アクションは要件を満たしていませんが、推論は正しく、拾う必要があるのはパンであることが理解されています。 プロンプト:高温で色が変わる魔法瓶の広告。黒い高温で色が変わる魔法瓶マグカップにお湯を注ぎ、徐々に白く変化していく様子。このマグカップの色が変わる機能を強調するのがポイントです。 課題の実体は比較的シンプルですが、水の流れ、熱、色のグラデーションといった細部を考察する傾向があります。細部の滑らかな変化は通常、非常に困難です。 ソラ-1080P この次元のスコアは2.67です。分析:プロンプト要件の重要なポイントが無視されており、色の変化プロセスが反映されていません。 ケリング 1.6 この項目は4点です。分析:色の変化プロセスは要件を完全に満たしていませんが、比較的良好です。 ピックスバースV3 この次元は3点です。分析:水を加えている様子が見られません。色の変化は確認できますが、徐々に白くなるという要件を満たしていません。 ミニマックスビデオ01 この項目の得点は2.67点です。分析:色の変化の過程が示されておらず、お湯であることが判別できません。 [例2]:アイテム生成の安定性(突然の出現や消失) ヒント:独創的なケーキの広告。ダイニングナイフでケーキを切り分けると、切り口からストロベリーソースが流れ出てきます。 このプロンプトは、モーションの詳細とエンティティ間の相互作用を調べることに重点を置いており、「切り口からイチゴジャムが噴出する」というシナリオではモデルの動作が異なります。 ソラ-1080P このディメンションスコア:2.5点。分析:動画の中でジャムが突然現れたり消えたりすることが何度もあり、ケーキに突然ひびが入ったりしており、安定性が低いことが分かります。 ケリング 1.6 このディメンションのスコア: 3.5 ポイント 分析: ナイフの動きによってケーキに切り込みが入ったことがわかり、ジャムの出現は唐突で不合理に思えます。 ピックスバースV3 この寸法は3.5点です。分析:ジャムとナイフの形は安定していますが、ケーキの切り口はやや急峻に見えます。 ミニマックスビデオ01 この寸法は3点です。分析:ナイフとケーキの形状は比較的安定しており、カットされた状態と一致していますが、大量のジャムが突然現れたのは不合理です。 [例3]:固体変形 プロンプト: エッフェル塔を目の前にパリを旅する少女のアニメーション ビデオを生成します。 ソラ-1080P この次元の得点は2.67点です。分析:背景の鳥の群れは明らかに歪んでおり、不自然に宙に浮いています。背景の歩行者は密集しており、歩く姿勢も明らかに不自然です。全体的な印象は非常に明白です。 ケリング 1.6 この項目は4点です。分析:主要な人物や建物の全体的な形状は良好ですが、背景の人物の一部が若干変形しているものの、全体的な鑑賞体験への影響は最小限です。 ピックスバースV3 この次元は3点です。分析:主人公の指が少し引っかかって変形しており、背景の建物も変形しているため、見た目に少し無理があります。 ミニマックスビデオ01 この次元の得点は3.5点です。分析:主人公の指が少し変形しており、左の背景キャラクターの顔も少し歪んでおり、見た目に少し無理があります。 プロンプト: 同僚たちがオフィスのドアの前で話をしています。 ソラ-1080P この寸法は2.5点です。分析:図形のクリッピングが顕著で、ドアも大きく変形しており、深刻な影響を与えています。 ケリング 1.6 この項目は3.5点です。分析:キャラクターの全体的なイメージは良好で、目立った変形はありません。ただし、一部のショットではキャラクターの手が変形しており、それが一定のインパクトを与えています。 ピックスバースV3 この項目は3点です。分析:指の変形は持続的で非常に重度であり、視覚効果に重大な影響を与えています。 ミニマックスビデオ01 この項目は3.5点です。分析:キャラクターの全体的なイメージは良好で、目立った変形はありません。ただし、一部のショットではキャラクターの手が変形しており、それが一定のインパクトを与えています。 [例4]: カメラテクニック プロンプト: ズームインとズームアウトのテクニックを組み合わせた独創的なビデオ。賑やかな街から上空、宇宙、そして宇宙の彼方へとショットを引き上げ、地球が別の宇宙から来た高次元の存在の手にあるガラス玉として現れる様子を映し出します。 ソラ-1080P この項目は3点です。分析:引き抜きショットは上手く撮れていますが、立ち上がりショットは出来が悪く、全体的に単調な映像になっています。 ケリング 1.6 この項目は4点です。分析:動画はズームイン・ズームアウトなどのカメラワークを効果的に表現しており、シーンの切り替えも比較的自然で、全体的にスムーズなパフォーマンスとなっています。 ピックスバースV3 この項目は3.5点です。分析:上方向へのカメラの動きはうまく表現されていますが、下方向へのカメラの動きは明確に示されていません。全体的に、動画のシーン遷移は比較的スムーズです。 ミニマックスビデオ01 この項目は3点です。分析:ズームアウトショットは上手くできていますが、ズームアップショットが下手で、動画全体の印象がやや唐突になっています。 どのように評価されましたか?AGI-Evalは、基本モデルに対して、主観的な人間による評価、モデルスコアリング(modeleval)、クラウドソーシングによる評価など、様々な評価手法とアプローチを採用しています。これらの手法は、モデルの能力が低下しているかどうか、あるいはスタイルやその他の要因が異なるバージョン間でランキング結果に影響を与えているかどうかを検証し、モデルの全体的な能力に関するフィードバックを提供します。 人間による評価評価手順:ビデオプロンプトが提示され、人間のレビュー担当者が、ビデオテキストの一貫性、ビデオ品質、モーション品質などの要素に基づいて、ビデオに1~5の絶対スコアを割り当て、ビデオ内のエラーにラベルを付けます。ビデオのラベル付けは複数回行われます。2人のレビュー担当者が同じスコアを付けた場合、結果はプロンプトと同じになります。2人のレビュー担当者が異なるスコアを付けた場合、ビデオは3回に分けてラベル付けされます。最終スコアは、3回のスコアの平均となります。 評価アプローチ: ビデオテキストの一貫性: オブジェクト、人物、シーン、スタイル、モーションの詳細など、関連するすべての要素の説明に完全に従っているかどうかを含め、ビデオがプロンプトの要件に従って生成されているかどうか。 ビデオ品質: 合理性: ビデオは、論理、構造、デザイン、動作の軌跡などの点で標準に準拠していますか。つまり、物理法則に準拠していますか。 信頼性: ビデオにはリアルな効果があり、AI の明らかな兆候はありません。 モーション品質: ビデオ内のモーションがスムーズで、連続的であり、ダイナミックな効果が豊富であるかどうか。 評価セットの紹介: 一貫性、動作品質、画質といった主要性能指標に基づき、500個の中英バイリンガルサンプルを含むブラックボックステストセットを構築しました。このテストセットは、動作生成から感情生成まで、様々な複雑なシナリオと機能、そして応用シナリオを網羅しています。また、生成された動画のリアリティと論理性を評価するために、物理学の常識と百科事典的な知識も組み込んでいます。 評価事例: タスクタイプ: 相互に影響を与える複数のエンティティの生成 問題文: 猫が寝ている飼い主を起こしました。模範解答: 評価分析:動画全体のスコア:3点、一貫性:4点、エンティティ生成は要件を満たしているが、「起床」動作が完全に表現されていない。動画品質:3点、人間の手足と猫の顔が動作中に歪んでいる。モーション品質:3点、動きは概ねスムーズだが、猫の足が最後に引っ込む動作が不自然で、機械的な印象を受ける。 タスクタイプ: エンティティとアクションの生成 ヒント: ダイバーたちはウォーミングアップ中です。(模範解答:) 評価分析:動画総合点:1点 一貫性:1点、必要なエンティティとアクションが完全に表現されていない。動画品質:1点、画面中央の主要被写体が歪んでおり、シーン下部にも歪みと不連続性が見られる。モーション品質:2点、下部にエンティティが突如現れ、モーションの連続性、ダイナミック効果、モーションの振幅がいずれも低い。 AGI-Eval評価プラットフォーム従来の評価方法ではモデルの真のレベルを完全に反映するには不十分であることから、AGI-Eval は人間と機械の共同評価モデルを革新的に提案し、高品質の評価コミュニティの構築を模索しています。 このモデルでは、参加者は最新の大規模モデルを使用してタスクを完了できるため、タスクの完了が向上し、より直感的な差別化の確立が容易になります。 予備的なユーザー実験に基づくと、このアプローチは推論プロセスのより簡潔で完全な説明を提供するだけでなく、ユーザーと大規模モデル間のインタラクティブなエクスペリエンスをさらに強化します。 今後、同様のプラットフォームの出現と発展に伴い、人間とコンピュータのコラボレーションは評価分野における重要な発展方向となるでしょう。 ヒューマンマシンコミュニティリンク: https://agi-eval.cn/llmArena/... AGI-Eval プラットフォームは、実際のデータ フィードバックと機能項目の内訳に基づいて、数万件のレコードからなる独自のプライベート データベースを構築し、正確性を確保するために複数の品質チェックを受けます。 ブラックボックスには 100% のプライベートデータが含まれており、評価データが「送信」されないようになっています。 データ構築からモデル評価まで、フルレベルの機能プロジェクトを実現します。第1レベルの機能は、指示コンプライアンス、インタラクション機能、認知機能(推論、知識、その他の認知機能を含む)をカバーし、自動評価と人間による評価を完璧に組み合わせています。 チャットモデルの場合、プラットフォームの公式ランキングは主観的および客観的な評価結果を組み合わせ、中国語と英語のバランスの取れた重み付けをしています。 客観評価はモデルスコアリングに基づいており、ある程度の自由度を持つ問題を95%以上の精度で処理できます。主観評価は3人による独立したアノテーションに基づいており、細分化された次元ラベルの結果を記録することで、モデルの問題を包括的に診断します。 Wensheng ビデオ評価に申し込みたい方は、AGI-Eval チームに直接お問い合わせください。 AGI-Evalチームの紹介 AGI-Evalは、上海交通大学、同済大学、華東師範大学、DataWhaleなどの大学や機関が共同で立ち上げた大規模モデル評価コミュニティです。その使命は、「評価を通じてAIが人類にとってより良いパートナーとなることを支援する」ことです。このプラットフォームは、公正で信頼性が高く、科学的かつ包括的な評価エコシステムの構築を目指しており、一般の人々が大規模モデルの評価、データ構築、そして魅力的な人間と機械の協働競技に参加できるよう促しています。参加者は大規模モデルを共同で操作し、複雑なタスクを完了し、評価ソリューションを共同で開発することができます。 AGI-Evalマルチモーダル評価は、あらゆるモダリティ(任意対任意)のモデルの評価に対応可能です(一部のリーダーボードはまだ公開されていません)。モデルメーカーの皆様は、協力と情報交換のための評価提案を歓迎いたします。 文生ビデオ評価の申請方法: 研究目的、研究計画、研究機関および申請者に関する情報、連絡先(電話番号またはWeChat)を以下のメールアドレス(mailto:[email protected])までお送りください。件名は「AGI-Eval Wensheng ビデオ評価申請」としてください。 |
AGI-Eval チーム: AI ビデオ生成モデルの年次比較 - Sora の野心的な目標は実現されましたが、国産モデルが依然としてリードしています。
関連するおすすめ記事
-
1日あたり13億ドルの利益を上げているNVIDIAの時価総額は一夜にして1兆ドルも消えた。
-
ユニツリーのヒューマノイドロボットが9万9000元から量産開始!360度ジャンプを披露し、その能力を披露。NVIDIAの科学者は「欲しい!」と絶賛している。
-
小米科技は販売した自動車1台につき6万元の損失を出しているが、粗利益率はテスラを上回り、同グループとしてこれまでで最高の財務報告を発表するのに貢献している。
-
産業デジタル化に「インテリジェンス」を注入:テンセントのグローバルな実践
-
Tencent は、3,890 億のパラメータを持つ最大のオープンソース MoE モデルをリリースしました。このモデルは商用利用が無料で、ベンチマークでは Llama 3.1 を上回っています。
-
たった1行のコードでトレーニングコストがさらに30%削減。AI大規模モデルの混合精度トレーニングがさらにアップグレード | オープンソース