AI 搭載の「マトリックス」: AAA 品質のビジュアルとリアルタイムのインタラクションを備えた、限りなくリアルなビデオを生成します。

人類は映画「マトリックス」に描かれた光景に一歩近づいたようだ。

ちょうど今、映画と同じ名前を持つ初の AI ベースの世界シミュレーターである『マトリックス』がリリースされました。

無限に長く、忠実度の高い720p のリアルシーンビデオを生成でき、さらにリアルタイムでインタラクティブです。

早速、 14分間のパフォーマンスを見てみましょう。

この時間はデモの長さに過ぎません。マトリックスは砂漠、草原、水路、都市といった地形を最大1時間かけて移動できます。

この間、W（前進）、S（後進）、A（左）、D（右）ボタンを使用してリアルタイムで制御することもできます。

1秒あたり16フレーム、各フレームを制御可能です。

マトリックスプロジェクトは、アリババ、香港大学、ウォータールー大学、カナダの AI 研究機関である Vector Institute の著者からなる、すべて中国人のチームによって作成されました。

研究チームは、その効果と内容が映画「マトリックス」のセリフに似ていることから、この研究を「マトリックス」と名付けました。

これはあなたが知っている世界、20世紀後半の世界です。今では、マトリックスと呼ばれるニューラル・インタラクティブ・シミュレーション・システムの中にのみ存在します。
これはあなたが知っている世界、20世紀末の世界です。今は、私たちが「マトリックス」と呼ぶニューラル・インタラクティブ・シミュレーションの一部としてのみ存在しています。

これを見たネットユーザーはコメント欄に「すごい」「すごい」などの感嘆のコメントを殺到させた。

しかし、マトリックスは、無限の生成、リアルな効果、リアルタイムの制御性に加えて、別の機能も実現しました。

ゼロサンプルでは直接的な一般化が可能になります。

マトリックスのトレーニングデータは、主に 2 つの部分で構成されています。

まず、Forza Horizon や Cyberpunk 2077 などの AAA ゲームの教師ありデータを使用してトレーニングされ、次に、現実世界のシーン (東京の街路など) の大量の教師なしビデオが追加されます。

これまでの研究とは異なり、The Matrix は前述のデータ学習 (ゼロサンプル) なしで、さまざまな環境におけるオブジェクトの動作と相互作用を理解し、予測できます。

たとえば、以下のシナリオ「オフィス環境での BMW X3 の運転」は、ゲームデータにも現実世界のデータにもこれまで登場したことのない環境です。

たとえば、 「車は水中で泳いでいる」 ：

マトリックスは、一人称視点で世界を見ることもサポートしています。

現実世界の物体や人々も制御可能です。

実験結果によると、最近の主流のゲームシミュレーション生成モデルと比較すると、The Matrix は持続時間と効果の両方の点で優れたパフォーマンスを実現しました。

どうやってそれをやったんですか？

技術的な観点から見ると、『マトリックス』の中核は 3 つの主要モジュールで構成されています。

1 つ目は、インタラクティブモジュールです。

このモジュールは、ユーザー入力 (キーボード入力など) を理解し、それをビデオ生成に統合して、正確なフレームレベルの制御を可能にするために使用されます。

モデルのインタラクション性を高めるために、研究者らは事前トレーニング済みの Diffusion Transformer (DiT) モデルを調整し、インタラクションモジュールが既知のデータだけでなくラベルなしデータにも一般化できるようにしました。

2 番目に、Shift- Window Denoising Process Model (Swin-DPM) があります。

この新しい拡散モデルでは、スライディングタイムウィンドウを使用して長期的な依存関係を処理することで、無限に長いビデオを生成できます。

このモデルは、ビデオを連続的かつスムーズに生成できるため、長いシーケンスを生成する際に従来のモデルで発生するメモリのボトルネックを解決します。

最後に、ストリーム整合性モデル(SCM) があります。

リアルタイム生成を実現するために、The Matrix はストリーム整合性モデルと呼ばれる技術を統合しており、推論を 10 ～ 20 倍高速化し、最終的に 8 ～ 16 FPS のリアルタイム生成速度を実現します。

さらに、研究者らは、ゲーム内の状態データとビデオフレームを自動的にキャプチャし、ラベル付きのモーションフレームデータセットを生成するGameDataと呼ばれるプラットフォームを開発しました。

このデータセットは、実際のビデオデータを組み合わせたもので、モデルが特定のモーション制御を学習し、モデルの視覚品質とドメインの一般化能力を強化するのに役立ちます。

チーム紹介

先ほど述べたように、『マトリックス』の著者は全員中国系です。

プロジェクトリーダーは、Hongyang Zhang と Ruili Feng の 2 人です。

Hongyang Zhang は現在、ウォータールー大学の助教授として SafeAI Lab を率いており、主な研究分野には基礎モデルの研究が含まれます。

もう1人はアリババのRuili Feng氏です。

研究にご興味のある方は、下記のリンクをクリックして詳細をご覧ください。

参考リンク:
[1]https://thematrix1999.github.io/ [2]https://thematrix1999.github....\_matrix.pdf [3]https://x.com/hongyangzh/stat... [4]https://x.com/SmokeAwayyy/sta...

618ZXW

AI 搭載の「マトリックス」: AAA 品質のビジュアルとリアルタイムのインタラクションを備えた、限りなくリアルなビデオを生成します。

ゼロサンプルでは直接的な一般化が可能になります。

どうやってそれをやったんですか？

チーム紹介

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ