618ZXW

Metaの新しいビデオ生成フレームワークは、逆立ちアクロバットを完璧に処理し、デュエットの完璧な同期も実現します。モーションの一貫性は約20%向上し、DiTモデルとのシームレスな統合も可能です。

ビデオ生成におけるモーション一貫性の課題に対処するために、Meta GenAI チームはVideoJAM と呼ばれる新しいフレームワークを提案しました。

VideoJAM は主流の DiT アプローチに基づいていますが、Sora などの純粋な DiT モデルと比較すると、動的効果が大幅に強化されています。

最もダイナミックで素早い、複雑な動きのダンスでさえ、特に 2 人が同期して踊っているため、信じられないほどリアルに見えます。

逆立ちなどの動作も簡単に習得できます。

さらに、追加データやスケーリングを必要とせずに、さまざまなサイズの DiT モデルにシームレスに統合できるため、モーション パフォーマンスが向上します。

一部のネットユーザーからは、一見本物と全く同じように見え、おそらく今年末には違いが分からなくなるだろうとのコメントも寄せられている。

運動効果はソラやGen3を上回る

VideoJAM は、モーションシーンを処理する際に優れた視覚効果を実現するだけでなく、物理法則もより適切に反映します。

たとえば、ろうそくの火を吹き消すときの炎の揺らめき、そして燃えている白い煙さえ残さずに徐々に消えていく過程などです。

筆致が非常に精密で、筆致と紙の上の文字が同期している(何が書かれているのかは不明だが)。

スライムを握ったときの形の変化、内部の流動効果、手を離したときの粘着効果も表示されます。

3 つのボールを投げ合うアクロバティックなパフォーマンスでも、放物線の軌道を完璧に再現できます。

さらに、著者らは、4B および 30B DiT モデルで VideoJAM を使用して、テキスト/外観/モーションの一貫性、ビデオ品質、およびその他のメトリックを評価し、主流のビデオ生成モデルと比較しました。

その結果、4B および 30B スケールでは、元の DiT モデルと比較して、モーション品質がそれぞれ 78.3 および 88.1 から 93.7 および 92.4 に向上し、19.67% および 4.88% の向上を示しました。

さらに、VideoJAM を適用した後は、モーション品質が Gen3 や Sora などの他の比較モデルを上回りました。

それで、VideoJAM はそれをどうやって実現するのでしょうか?

トレーニングに動作情報を導入する

トレーニングおよび推論フェーズでは、VideoJAM は従来の DiT アーキテクチャに特定の補足を提供します。

具体的には、トレーニング フェーズで、VideoJAM は Joint Appearance-Motion Representationを採用します。

モデルに追加のモーション予測タスクを導入することで、モデルはビデオを生成しながら対応するモーションを予測する方法を学習します。

外観と動きの統合表現を実現するために、VideoJAM は既存のビデオ生成モデルに 2 つの重要な変更を加え、入力と出力に 2 つの線形投影レイヤーを追加しました。

  • 入力投影層は、外観特徴 (ビデオ フレームの表現) とモーション特徴を連結し、それらをモデルの隠し空間にマッピングして、静的な外観情報と動的なモーション情報を統合した結合潜在表現を形成します。
  • 出力投影層は、モデルの結合潜在表現から、ビデオの外観予測と動き予測をそれぞれデコードします。外観予測は最終的なビデオフレームの生成に使用され、動き予測はモデルの時間的一貫性の理解度を評価するために使用されます。

このプロセスでは、動きはビデオ フレーム間のピクセルの変位であるオプティカルフローによって表現されます。

処理中に、VideoJAM はオプティカルフローを RGB 形式に変換し、ピクセルの動きの方向を色相に、強度を明るさまたは透明度にマッピングして、通常のビデオのようにモデルで処理できるようにします。

このアプローチにより、複雑なモーション エンコーダーの追加トレーニングが不要になり、高い互換性を誇り、既存のビデオ生成モデルに簡単に組み込むことができます。

推論フェーズでは、VideoJAM は内部ガイダンス メカニズムを採用して、生成されたビデオのモーションの一貫性をさらに強化します。

この仕組みは、外部条件に依存せず、各生成ステップにおいてモデル自体が予測した動きの情報を用いて生成プロセスを動的に調整し、生成されたビデオの動的な変化をリアルタイムで捉えることができます。

他の拡散モデルと同様に、ビデオ生成の初期入力はランダムノイズです。モデルはまずノイズを処理し、予備的なビデオフレームとそれに対応する動き予測を生成します。

生成プロセス中、モデルは現在のフレームの動き予測をガイド信号として使用し、次のタイムステップの生成方向を調整します。

このフィードバック メカニズムにより、モデルは生成したアクションが一貫しているかどうかを常に検査し、矛盾が見つかった場合は自動的に調整します。

具体的には、生成プロセスは 2 つの段階に分けられ、最初の段階では主に内部ブート プロセスが使用されます。

  • 大まかな段階: 生成の初期段階 (ステップの最初の約 50%) では、全体的な方向やリズムなど、動きの全体的な一貫性に重点が置かれます。
  • 改良段階: 生成の後の段階では、身体の動きの微調整やオブジェクトの相互作用の物理的な妥当性など、詳細の最適化に重点が移ります。

アブレーション実験により、著者らが使用したオプティカルフロー表現と内部ガイダンスメカニズムが、VideoJAM が高いモーション一貫性を実現するための鍵であることが示されました。

論文リンク: https://arxiv.org/abs/2502.02492 プロジェクトのホームページ: https://hila-chefer.github.io...