|
ビデオ生成におけるモーション一貫性の課題に対処するために、Meta GenAI チームはVideoJAM と呼ばれる新しいフレームワークを提案しました。 VideoJAM は主流の DiT アプローチに基づいていますが、Sora などの純粋な DiT モデルと比較すると、動的効果が大幅に強化されています。 最もダイナミックで素早い、複雑な動きのダンスでさえ、特に 2 人が同期して踊っているため、信じられないほどリアルに見えます。 逆立ちなどの動作も簡単に習得できます。 さらに、追加データやスケーリングを必要とせずに、さまざまなサイズの DiT モデルにシームレスに統合できるため、モーション パフォーマンスが向上します。 一部のネットユーザーからは、一見本物と全く同じように見え、おそらく今年末には違いが分からなくなるだろうとのコメントも寄せられている。 運動効果はソラやGen3を上回るVideoJAM は、モーションシーンを処理する際に優れた視覚効果を実現するだけでなく、物理法則もより適切に反映します。 たとえば、ろうそくの火を吹き消すときの炎の揺らめき、そして燃えている白い煙さえ残さずに徐々に消えていく過程などです。 筆致が非常に精密で、筆致と紙の上の文字が同期している(何が書かれているのかは不明だが)。 スライムを握ったときの形の変化、内部の流動効果、手を離したときの粘着効果も表示されます。 3 つのボールを投げ合うアクロバティックなパフォーマンスでも、放物線の軌道を完璧に再現できます。 さらに、著者らは、4B および 30B DiT モデルで VideoJAM を使用して、テキスト/外観/モーションの一貫性、ビデオ品質、およびその他のメトリックを評価し、主流のビデオ生成モデルと比較しました。 その結果、4B および 30B スケールでは、元の DiT モデルと比較して、モーション品質がそれぞれ 78.3 および 88.1 から 93.7 および 92.4 に向上し、19.67% および 4.88% の向上を示しました。 さらに、VideoJAM を適用した後は、モーション品質が Gen3 や Sora などの他の比較モデルを上回りました。 それで、VideoJAM はそれをどうやって実現するのでしょうか? トレーニングに動作情報を導入するトレーニングおよび推論フェーズでは、VideoJAM は従来の DiT アーキテクチャに特定の補足を提供します。 具体的には、トレーニング フェーズで、VideoJAM は Joint Appearance-Motion Representationを採用します。 モデルに追加のモーション予測タスクを導入することで、モデルはビデオを生成しながら対応するモーションを予測する方法を学習します。 外観と動きの統合表現を実現するために、VideoJAM は既存のビデオ生成モデルに 2 つの重要な変更を加え、入力と出力に 2 つの線形投影レイヤーを追加しました。
このプロセスでは、動きはビデオ フレーム間のピクセルの変位であるオプティカルフローによって表現されます。 処理中に、VideoJAM はオプティカルフローを RGB 形式に変換し、ピクセルの動きの方向を色相に、強度を明るさまたは透明度にマッピングして、通常のビデオのようにモデルで処理できるようにします。 このアプローチにより、複雑なモーション エンコーダーの追加トレーニングが不要になり、高い互換性を誇り、既存のビデオ生成モデルに簡単に組み込むことができます。 推論フェーズでは、VideoJAM は内部ガイダンス メカニズムを採用して、生成されたビデオのモーションの一貫性をさらに強化します。 この仕組みは、外部条件に依存せず、各生成ステップにおいてモデル自体が予測した動きの情報を用いて生成プロセスを動的に調整し、生成されたビデオの動的な変化をリアルタイムで捉えることができます。 他の拡散モデルと同様に、ビデオ生成の初期入力はランダムノイズです。モデルはまずノイズを処理し、予備的なビデオフレームとそれに対応する動き予測を生成します。 生成プロセス中、モデルは現在のフレームの動き予測をガイド信号として使用し、次のタイムステップの生成方向を調整します。 このフィードバック メカニズムにより、モデルは生成したアクションが一貫しているかどうかを常に検査し、矛盾が見つかった場合は自動的に調整します。 具体的には、生成プロセスは 2 つの段階に分けられ、最初の段階では主に内部ブート プロセスが使用されます。
アブレーション実験により、著者らが使用したオプティカルフロー表現と内部ガイダンスメカニズムが、VideoJAM が高いモーション一貫性を実現するための鍵であることが示されました。 論文リンク: https://arxiv.org/abs/2502.02492 プロジェクトのホームページ: https://hila-chefer.github.io... |
Metaの新しいビデオ生成フレームワークは、逆立ちアクロバットを完璧に処理し、デュエットの完璧な同期も実現します。モーションの一貫性は約20%向上し、DiTモデルとのシームレスな統合も可能です。
関連するおすすめ記事
-
[Tritonチュートリアル] レイヤーの標準化
-
Microsoft のオープンソースで、非常に人気のある 1.58 ビット大規模モデル推論フレームワークです。量子化により、数千億のパラメータを持つモデルを 1 台の CPU で 1 秒あたり 5 ~ 7 トークンの速度で実行できます。
-
「Embodied Intelligence: A New Engine for Industrial Transformation」2024年テクノロジーイノベーターカンファレンスが成功裏に開催されました。
-
Baidu AI Cloud が大規模モデル展開の成果を披露: 5 つの初物!
-
論文募集のカウントダウン!CVPR 2025 ワークショップで「ベースモデル + X」の堅牢性の課題について議論します。
-
2024 OSCAR | 企業オープンソースガバナンス実装ガイドと「OSGMM2.0-2024 中国企業におけるオープンソースガバナンスの全体像」を徹底公開!