衝撃的！AIがリアルタイムでゲームを生成し、1秒あたり20フレームを出力。DeepMindの最新の普及モデルにおける画期的な成果が一夜にして話題に。

「ソラよりさらにすごい」AIがリアルタイムでゲームを生成できるようになった！

Google DeepMind は、初の完全 AI 駆動型リアルタイムゲームエンジンであるGameNGen を開発しました。

単一の Google TPU で、古典的なシューティングゲーム DOOM を1 秒あたり 20 フレームでシミュレートしました。

すべてのゲームビジュアルは、プレイヤーのアクションと複雑な環境との相互作用に基づいてリアルタイムで生成されます。

つまり、ドアの後ろにあるコンテンツは、そこを通過するまで存在しません。

品質は事前に保存されたコピーに匹敵し、本物と間違えられるほど優れており、人間の評価者でさえ見分けるのが難しいほどです。

すべての操作をスムーズに切り替えることができます。

GameNGen は、よく知られている拡散モデルに基づいています。

論文のタイトル自体がゲームエンジンを再定義しています。つまり、拡散モデルはリアルタイムゲームエンジンです。

この研究はネット上で大騒動を引き起こし、TwitterやRedditでの関連投稿は依然として非常に人気があり、投稿した人は誰でも瞬く間に話題になった。

多くの人が、これはまったく新しい技術的道筋を提供すると言っている。

これがどれほどクレイジーなことか、皆さんは気づいていないと思います。私はゲームエンジンへの生成AIの統合を専門とする開発者なので、自分が何を言っているのかはよく分かっています。
これは仮想的なものを構築するための基盤となります。将来的には、データを取得できるあらゆるビデオゲームに適用可能になり、さらには、まだ存在しないゲームのデータを生成して、新たなゲームを生み出すことも可能になるかもしれません。

著者のシュロミ・フラクターも次のように語っています。

これは私にとって個人的なマイルストーンであり、GPU 上で実行される明示的なレンダリングコードを手動で記述することから、同じく GPU 上で実行されるニューラルネットワークのトレーニングまで、完全なループのように感じます。

では、GameNGen は具体的にどのようにこれを達成したのでしょうか?

拡散モデルを用いたAI DOOMerの作成

GameNGen のトレーニングプロセスは、主に 2 つのフェーズに分かれています。

まず、強化学習エージェントにゲームをプレイするように訓練し、その過程でのすべての行動、スキル、観察を記録します。これらの記録が第2段階の訓練データセットとなります。

人間のゲーム行動に非常によく似たトレーニングデータを生成するために、研究者は、次のような一連の特定のゲーム条件に基づいてスコアを割り当てる、環境固有のシンプルな報酬関数を設計しました。

プレイヤーが攻撃され、敵が排除され、アイテムまたは武器が拾われ、体力が変化したり、弾薬が変化したり...

第 2 段階では、モデルは事前トレーニング済みのStable Diffusion v1.4に基づいて次のフレームを予測し、過去のフレームシーケンスとアクションを条件付き入力として取得し、いくつかの重要な変更を加えます。

具体的には、まずすべてのテキスト条件が削除され、アクションシーケンスに置き換えられました。各アクションは単一のトークンとしてエンコードされ、相互注意メカニズムを通じてモデルと相互作用しました。

過去の観測データ（つまり、以前のフレーム）は潜在空間にエンコードされ、チャネル次元の現在のノイズの多い潜在表現と結合されます。

自己回帰生成におけるエラー蓄積問題 (自己回帰ドリフトと呼ばれる) に対処するために、GameNGen はノイズ強化技術を導入しました。

トレーニング中、モデルは入力コンテキストフレームに様々なレベルのガウスノイズを追加し、これらのノイズレベルを追加入力として提供します。これにより、モデルは以前のサンプリングからエラーを学習し、修正することができます。これは、長時間シーケンスにわたって画像品質を維持するために不可欠です。

さらに、特にディテールとHUD（ヘッドアップディスプレイ）の画質を向上させるため、研究者らはStable Diffusionの事前学習済みオートエンコーダのデコーダ部分を微調整しました。このプロセスでは、対象フレームのピクセルに合わせて最適化されたMSE損失が用いられます。

GameNGenは推論フェーズにおいて、 DDIMサンプリング法と分類器を使用しないガイダンス手法を採用しましたが、これは過去に観測された状況にのみ適用されました。研究者らは、過去の行動状況にガイダンスを適用しても品質は向上しないことを発見しました。

注目すべきは、このモデルは DDIM サンプリングの 4 ステップのみを使用して高品質の結果を生成でき、生成速度が大幅に向上するということです。

GameNGen は TPU-v5 ハードウェア上で実行され、各ノイズ除去ステップとオートエンコーダーの評価には 10 ミリ秒かかります。

4 段階のサンプリングと単一のオートエンコーダ評価を使用することで、システムは1 秒あたり 20 フレームの生成速度を実現でき、これはリアルタイムのインタラクティブなゲーム体験を実現するのに十分です。

人間は現実と AI が生成したコンテンツを区別することが困難です。

実験では、人間の評価者は短期的な軌跡において、シミュレートされたシーンと実際のゲームシーンをほとんど区別することができませんでした。

研究者らは、知覚に基づく画像類似性測定法 LPIPS と、画像品質の測定に一般的に使用される測定基準 PSNR という 2 つの主な画像品質評価方法を使用しました。

教師強制設定では、モデルの単一フレーム予測品質PSNRは29.43、LPIPSは0.249です。PSNR値は、品質設定20～30における非可逆JPEG圧縮の値と同等です。

つまり、GameNGen は、圧縮によって細部が多少失われる可能性はあるものの、画像をシミュレートする際に、ある程度比較的高い画質を維持することができます。

ビデオ品質に関しては、16 フレーム (0.8 秒) と 32 フレーム (1.6 秒) のシミュレーションの FVD 値はそれぞれ 114.02 と 186.23 です。

人間による評価では、研究者らは 10 人の評価者にランダムに選んだ 130 個の短いクリップ (長さ 1.6 秒と 3.2 秒) を提供し、実際のゲームと並べてシミュレーションを提示しました。

1.6秒と3.2秒のクリップでは、人間が実際のゲームとシミュレーションを正しく区別できる確率はそれぞれ58％と60％に過ぎませんでした。

拡散に基づく最新のブレークスルー

多くの研究者は、結果に驚いただけでなく、この研究はそれほど単純なものではなく、拡散モデルに基づいた最近の画期的な進歩であるとも述べています。

アクション条件付き世界モデルが新たな一歩を踏み出しました！ニューラルネットワークシミュレーションは、特に物理シミュレーターのパフォーマンスが不十分な分野において、現実世界のインタラクティブデータを拡張する大きな可能性を秘めています。

しかし、幅広い賞賛のなか、一部のネットユーザーは、論文は素晴らしいが「ゲームエンジン」と呼ぶのは不適切だと指摘した。

できれば、「ゲームエンジン」ではなく「レンダリングエンジン」と言うようにしてください。
ゲームエンジンは、人々が何かを創造するためのツールであり、特にスーパーAIが統合された場合には、今後も存在し続けるでしょう。今日のゲームエンジンは時代遅れであることは明らかですが、私たちはすでに次世代のエンジンを構築しています。

一部の評論家はこれらのモデルが従来のゲームエンジンに取って代わるだろうと示唆しているが、他のネットユーザーは異なる見解を持っている。

a16z のゲームおよび 3D テクノロジー分野の投資家であり、元 Unity 従業員でもある人物が、次のように見解を述べています。

皮肉なことに、これらのモデルをトレーニングするには、従来のゲームエンジンからコントローラーのアクションと出力フレームをトレーニングデータとして入力する必要があります。
拡散モデルによって生成されるこれらのリアルタイムフレームは、最終的にはゲーム体験を変えるものになると信じていますが、プロの開発者は触覚制御と創造的な表現のために 3D シーングラフを必要としていると思います。
開発者は、より従来的な 3D 作成エンジンを使用してゲームの「グレーボックス」バージョンを作成し、その後、イメージ間のモデルをリアルタイムでアップスケールすることができます (NVIDIA の DLSS テクノロジに似ています)。
将来的には、消費者はテキストから直接ゲームや仮想世界を作成するという全く新しい方法を体験できるようになるでしょう。しかし、私の意見では、3Dシーンレンダリングは依然としてプロフェッショナルなワークフローにおいて重要な位置を占めるでしょう。

GameNGenの研究についてどう思われますか？ゲーム業界の未来にどのような変化をもたらすでしょうか？

プロジェクトホームページ: https://gamengen.github.io/ 論文リンク: https://arxiv.org/pdf/2408.14837

参考リンク: [1]https://www.reddit.com/r/sing...\_deepmind\_we\_present\_gamengen\_the\_first/ [2]https://x.com/\_akhaliq/status/1828631472632172911 [3]https://x.com/imxiaohu/status...

618ZXW

衝撃的！AIがリアルタイムでゲームを生成し、1秒あたり20フレームを出力。DeepMindの最新の普及モデルにおける画期的な成果が一夜にして話題に。

拡散モデルを用いたAI DOOMerの作成

人間は現実と AI が生成したコンテンツを区別することが困難です。

拡散に基づく最新のブレークスルー

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ