Doubao チームはビデオ生成において画期的な進歩を達成しました。言語モデルを必要とせず、「視覚」のみに基づいて複雑なタスクを学習します。

豆宝大型模型チーム応募

既存のビデオ生成モデルのほとんどは、知識を学習するために言語またはラベルデータに依存しており、Sora のように純粋に視覚的な信号を学習することはほとんどありません。

しかし、言語は現実世界のすべての知識を捉えることはできません。例えば、折り紙や蝶ネクタイの結び方といった複雑な動作は、言語で明確に表現することが困難です。

では、モデルは言語モデルに依存せずに、純粋に視覚的な観点から知識を学習し、世界を理解し、推論および計画能力を習得できるのでしょうか?

現在、Doubao Big Modelチームは、北京交通大学および中国科学技術大学と協力して、 VideoWorldを提案しています。

これは、言語モデルに依存せずに理解と推論のタスクを統一的に実行できる汎用的なビデオ生成モデルです。VideoWorldは、潜在的ダイナミクスモデル（LDM）を利用してビデオフレーム間の視覚変化情報を効率的に圧縮し、知識学習の効率と効果を大幅に向上させます。

最終的に、VideoWorld は強化学習検索や報酬関数メカニズムに依存せずに、9×9 囲碁のプロ 5 段レベルを達成し、さまざまな環境でロボットタスクを実行できるようになりました。

動画リンク: https://mp.weixin.qq.com/s/C1..._CN

この作品はすでに業界内で注目を集めています。

著名な AI 専門家であり、技術レビュー Web サイト ReadMultiplex の創設者でもある Brian Roemmele 氏は、次のように考えています。

これはロボットの学習と推論における大きな進歩です。

論文の著者らは、現実世界のビデオの生成と一般化は依然として大きな課題を抱えているものの、ビデオ生成モデルは一般知識の学習方法として機能し、現実世界で考え行動するための人工脳として機能する可能性があると述べています。

プロジェクトのコードとモデルは現在オープンソースです。

「視覚」のみを使って複雑なタスクを学習する

李菲菲教授が9年前の講演で「幼い子どもたちは言語に頼らずに現実世界を理解できる」と述べたように、自然界ではゴリラなどの霊長類は、主に視覚的な観察を通して、採餌や社会的な交流といった重要なスキルを習得します。同様に、人間の乳幼児も言語に頼らずに周囲の状況を理解できます。

では、人工知能モデルは視覚的な入力だけで知識を学習できるのでしょうか?

答えを探るために、チームはビデオ囲碁ゲームとビデオロボットシミュレーションという 2 つの実験環境を構築しました。

研究者たちは、囲碁はモデルのルール学習、推論、そして計画能力を評価するための優れたツールだと考えています。さらに、囲碁の画像は、外観や質感といった複雑な詳細を、より高次の知識の評価から切り離すことができるため、これらの問題の探究に非常に適しています。一方、ロボット工学のタスクでは、モデルが制御ルールを理解し、タスクを計画する能力が評価されます。

このモデルは、大量のビデオデモンストレーションデータを含むオフラインデータセットを使用してトレーニングされ、過去の観察に基づいて将来のフレームを予測できるビデオジェネレーターが生まれました。

トレーニング後、モデルはタスク関連のマッピング関数を直接学習し、生成されたビデオフレームをタスク実行に必要なアクションに変換します。これにより、ビデオ生成モデルはアクションラベルに依存せずに特定のタスクを学習・実行できるようになります。

まず、VQ-VAEエンコーダ・デコーダと自己回帰トランスフォーマーで構成される単純な自己回帰モデルを用いてビデオジェネレータをインスタンス化します。エンコーダはビデオフレームを離散トークンに変換し、トランスフォーマーはトレーニング中にこれらのトークンを用いて次のトークンを予測します。

推論中、Transformer は次のフレームの個別のマーカーを生成し、それがデコーダーによってピクセル空間に戻されます。

前述のシンプルなフレームワークに基づいて、ビデオ生成モデルが基本的な囲碁のルール、移動戦略、およびロボットの操作機能を習得できることを観察しました。

しかし、研究チームは、下の図に示すように、ビデオシーケンスの知識マイニング効率はテキストよりも大幅に低いことも発見しました。

研究チームは、ビデオ内に大量の冗長情報が存在し、それがモデルの学習効率に影響を与えたためだと考えた。

例えば、チェスの駒の動きは状態シーケンス内のわずかな位置マーカーだけでエンコードできますが、ビデオの場合、ビジュアルエンコーダははるかに多くのマーカーを生成する必要があります。この違いは、モデルが複雑な知識を迅速に学習する能力を阻害します。

視覚的なバリエーションを圧縮すると、ビデオ学習がより効率的になります。

上記の観察に基づき、研究チームはVideoWorldを提案しました。これは、重要な意思決定や行動に関連する視覚的な変化を圧縮しながらも、豊富な視覚情報を保持することで、より効果的なビデオ学習を可能にします。

VideoWorld は、フレーム間の視覚的変化をコンパクトな潜在コードに圧縮し、知識マイニングにおけるモデルの効率を向上させる潜在ダイナミクスモデル (LDM) を導入しました。

例えば、囲碁における多段階の盤面変化やロボットの連続的な動作は、強い時間的相関を示します。これらの多段階の変化をコンパクトな埋め込みに圧縮することで、方策情報のコンパクト性が向上するだけでなく、将来計画のためのガイダンス情報も符号化されます。

LDM は MAGVITv2 スタイルのエンコーダー/デコーダー構造を採用していますが、各フレームの詳細を保持するために時間的なダウンサンプリングを排除しています。

次に、LDMは一連のアテンションモジュールとそれに対応する学習可能なベクトルを定義します。アテンションメカニズムを通じて、各ベクトルは最初のフレームから複数の後続フレームにわたる動的な変化情報を捕捉し、FSQを用いて量子化します。

最後に、デコーダーは最初のフレームの特徴マップとフレーム間の視覚的な変化を使用して、後続のフレームをエンコードして再構築します。

VideoWorld は、複数のベクトルを使用して最初のフレームから後続のフレームへの動的な変化を順次エンコードすることにより、視覚シーケンス内の短期および長期の依存関係を捉えることができるコンパクトで情報豊富な視覚表現を実現します。

LDMを導入することで、VideoWorldは強化学習における探索や報酬関数のメカニズムに頼ることなく、わずか3億パラメータで9路盤囲碁のプロ五段レベルを達成しました。また、ロボットタスクにおいて、VideoWorldは複数のタスクや環境にわたる汎化能力も実証しています。

R&D チームは、LDM がビデオ学習の効率を向上させる理由について次のように結論付けました。

LDM はトレーニングセットのデータパターンをモデル化します。

UMAPの可視化は、LDMがトレーニングセット内の一般的な動作パターンをモデル化し、短期および長期のデータパターンを潜在空間に効果的に圧縮していることを示しています。右の図は、ロボットアームのX/Y/Z軸に沿った動きに応じた潜在エンコーディングを可視化しており、同様にLDMが複数段階の動的依存関係をモデル化できることを示しています。

LDM は、テスト中にモデルが将来の計画を実行するのに役立ちます。

研究者らは、モデル推論におけるLDMの役割についても調査しました。以下のUMAP可視化に示すように、テストフェーズでは、モデルによって生成された潜在コードは時間ステップごとにグループ化され、モデルはより長期的な視点から囲碁の判断を下すことができます。

研究者たちはロボットのシナリオにおいても同様の現象を観察しています。下の図は、VideoWorldが様々なロボット操作タスクにおいて予測した潜在的エンコーディングを示しています。異なる時間ステップにおける潜在的エンコーディングはタスクの種類ごとにグループ化されており、特定のタスクにおける長期的な変化を段階的に捉えるモデルの能力を示しています。

LDM は因果相関コードを生成できます。

潜在的コーディングの影響をさらに調査するために、研究チームは介入実験を実施しました。つまり、異なる時間ステップでの潜在的コーディングをランダムなラベルに置き換え、それがモデルのパフォーマンスに与える影響を観察しました。

実験結果によると、介入は最初のコードに最も大きな影響を与えました。これは、コード間の因果関係によるものと考えられます。研究チームは、最初のコード、つまり次のタイムステップにおける最良の決定を変更すると、将来のすべての決定に影響を与えると考えています。

もう一つ

VideoWorld は Go やシミュレートされたロボット制御環境で優れたパフォーマンスを発揮しましたが、チームは、現実世界の環境でのその応用には、高品質のビデオ生成や複数環境の一般化などの課題が依然としてあることも認識しました。

今後、チームはこれらの課題を解決し、ビデオ生成モデルが現実世界で汎用的な知識学習者となるよう推進することに注力します。

Doubao 大型モデルチームについて:

2023年に設立されたByteDanceの豆宝（Doubao）大規模モデルチームは、業界最先端のAI大規模モデル技術の開発に専念し、世界クラスの研究チームとなり、科学と社会の発展に貢献することを目指しています。チームの研究分野は、ディープラーニング、強化学習、LLM、音声、ビジョン、AIインフラ、AIセーフティを網羅しています。

この研究の詳細については、次のリンクをご覧ください。

論文リンク: https://arxiv.org/abs/2501.09781 コードリンク: https://github.com/bytedance/... プロジェクトホームページ: https://maverickren.github.io...

618ZXW

Doubao チームはビデオ生成において画期的な進歩を達成しました。言語モデルを必要とせず、「視覚」のみに基づいて複雑なタスクを学習します。

豆宝大型模型チーム応募

「視覚」のみを使って複雑なタスクを学習する

視覚的なバリエーションを圧縮すると、ビデオ学習がより効率的になります。

もう一つ

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ