|
「ソラよりさらにすごい」AIがリアルタイムでゲームを生成できるようになった! Google DeepMind は、初の完全 AI 駆動型リアルタイム ゲーム エンジンであるGameNGen を開発しました。 単一の Google TPU で、古典的なシューティング ゲーム DOOM を1 秒あたり 20 フレームでシミュレートしました。 すべてのゲームビジュアルは、プレイヤーのアクションと複雑な環境との相互作用に基づいてリアルタイムで生成されます。 つまり、ドアの後ろにあるコンテンツは、そこを通過するまで存在しません。 品質は事前に保存されたコピーに匹敵し、本物と間違えられるほど優れており、人間の評価者でさえ見分けるのが難しいほどです。 すべての操作をスムーズに切り替えることができます。 GameNGen は、よく知られている拡散モデルに基づいています。 論文のタイトル自体がゲーム エンジンを再定義しています。つまり、拡散モデルはリアルタイム ゲーム エンジンです。 この研究はネット上で大騒動を引き起こし、TwitterやRedditでの関連投稿は依然として非常に人気があり、投稿した人は誰でも瞬く間に話題になった。 多くの人が、これはまったく新しい技術的道筋を提供すると言っている。
著者のシュロミ・フラクターも次のように語っています。 これは私にとって個人的なマイルストーンであり、GPU 上で実行される明示的なレンダリング コードを手動で記述することから、同じく GPU 上で実行されるニューラル ネットワークのトレーニングまで、完全なループのように感じます。 では、GameNGen は具体的にどのようにこれを達成したのでしょうか? 拡散モデルを用いたAI DOOMerの作成GameNGen のトレーニング プロセスは、主に 2 つのフェーズに分かれています。 まず、強化学習エージェントにゲームをプレイするように訓練し、その過程でのすべての行動、スキル、観察を記録します。これらの記録が第2段階の訓練データセットとなります。 人間のゲーム行動に非常によく似たトレーニング データを生成するために、研究者は、次のような一連の特定のゲーム条件に基づいてスコアを割り当てる、環境固有のシンプルな報酬関数を設計しました。 プレイヤーが攻撃され、敵が排除され、アイテムまたは武器が拾われ、体力が変化したり、弾薬が変化したり... 第 2 段階では、モデルは事前トレーニング済みのStable Diffusion v1.4に基づいて次のフレームを予測し、過去のフレーム シーケンスとアクションを条件付き入力として取得し、いくつかの重要な変更を加えます。 具体的には、まずすべてのテキスト条件が削除され、アクションシーケンスに置き換えられました。各アクションは単一のトークンとしてエンコードされ、相互注意メカニズムを通じてモデルと相互作用しました。 過去の観測データ(つまり、以前のフレーム)は潜在空間にエンコードされ、チャネル次元の現在のノイズの多い潜在表現と結合されます。 自己回帰生成におけるエラー蓄積問題 (自己回帰ドリフトと呼ばれる) に対処するために、GameNGen はノイズ強化技術を導入しました。 トレーニング中、モデルは入力コンテキストフレームに様々なレベルのガウスノイズを追加し、これらのノイズレベルを追加入力として提供します。これにより、モデルは以前のサンプリングからエラーを学習し、修正することができます。これは、長時間シーケンスにわたって画像品質を維持するために不可欠です。 さらに、特にディテールとHUD(ヘッドアップディスプレイ)の画質を向上させるため、研究者らはStable Diffusionの事前学習済みオートエンコーダのデコーダ部分を微調整しました。このプロセスでは、対象フレームのピクセルに合わせて最適化されたMSE損失が用いられます。 GameNGenは推論フェーズにおいて、 DDIMサンプリング法と分類器を使用しないガイダンス手法を採用しましたが、これは過去に観測された状況にのみ適用されました。研究者らは、過去の行動状況にガイダンスを適用しても品質は向上しないことを発見しました。 注目すべきは、このモデルは DDIM サンプリングの 4 ステップのみを使用して高品質の結果を生成でき、生成速度が大幅に向上するということです。 GameNGen は TPU-v5 ハードウェア上で実行され、各ノイズ除去ステップとオートエンコーダーの評価には 10 ミリ秒かかります。 4 段階のサンプリングと単一のオートエンコーダ評価を使用することで、システムは1 秒あたり 20 フレームの生成速度を実現でき、これはリアルタイムのインタラクティブなゲーム体験を実現するのに十分です。 人間は現実と AI が生成したコンテンツを区別することが困難です。実験では、人間の評価者は短期的な軌跡において、シミュレートされたシーンと実際のゲームシーンをほとんど区別することができませんでした。 研究者らは、知覚に基づく画像類似性測定法 LPIPS と、画像品質の測定に一般的に使用される測定基準 PSNR という 2 つの主な画像品質評価方法を使用しました。 教師強制設定では、モデルの単一フレーム予測品質PSNRは29.43、LPIPSは0.249です。PSNR値は、品質設定20~30における非可逆JPEG圧縮の値と同等です。 つまり、GameNGen は、圧縮によって細部が多少失われる可能性はあるものの、画像をシミュレートする際に、ある程度比較的高い画質を維持することができます。 ビデオ品質に関しては、16 フレーム (0.8 秒) と 32 フレーム (1.6 秒) のシミュレーションの FVD 値はそれぞれ 114.02 と 186.23 です。 人間による評価では、研究者らは 10 人の評価者にランダムに選んだ 130 個の短いクリップ (長さ 1.6 秒と 3.2 秒) を提供し、実際のゲームと並べてシミュレーションを提示しました。 1.6秒と3.2秒のクリップでは、人間が実際のゲームとシミュレーションを正しく区別できる確率はそれぞれ58%と60%に過ぎませんでした。 拡散に基づく最新のブレークスルー多くの研究者は、結果に驚いただけでなく、この研究はそれほど単純なものではなく、拡散モデルに基づいた最近の画期的な進歩であるとも述べています。 アクション条件付き世界モデルが新たな一歩を踏み出しました!ニューラルネットワークシミュレーションは、特に物理シミュレーターのパフォーマンスが不十分な分野において、現実世界のインタラクティブデータを拡張する大きな可能性を秘めています。 しかし、幅広い賞賛のなか、一部のネットユーザーは、論文は素晴らしいが「ゲームエンジン」と呼ぶのは不適切だと指摘した。
一部の評論家はこれらのモデルが従来のゲームエンジンに取って代わるだろうと示唆しているが、他のネットユーザーは異なる見解を持っている。 a16z のゲームおよび 3D テクノロジー分野の投資家であり、元 Unity 従業員でもある人物が、次のように見解を述べています。
GameNGenの研究についてどう思われますか?ゲーム業界の未来にどのような変化をもたらすでしょうか? プロジェクトホームページ: https://gamengen.github.io/ 論文リンク: https://arxiv.org/pdf/2408.14837 参考リンク: [1]https://www.reddit.com/r/sing...\_deepmind\_we\_present\_gamengen\_the\_first/ [2]https://x.com/\_akhaliq/status/1828631472632172911 [3]https://x.com/imxiaohu/status... |
衝撃的!AIがリアルタイムでゲームを生成し、1秒あたり20フレームを出力。DeepMindの最新の普及モデルにおける画期的な成果が一夜にして話題に。
関連するおすすめ記事
-
マルチモーダルDeepSeek-R1:ベンチマークでGPT-4oを上回り、モーダルペネトレーションによりテキスト推論能力を強化!北京大学と香港科技大学によって開発され、オープンソース化されました。
-
最も強力な OpenAI モデルである O1 がテストされました。大学レベルの数学と科学の問題を解くことができますが、IQ の低い人でも難しいと感じるでしょう。
-
中科恵玲が開発した新しいヒューマノイドロボットブランド「CASBOT」が立ち上げられました。
-
累計13万1600台納車!東風eπ007レンジエクステンダーバージョン。
-
2万個の合成データポイントは、大規模モデルの機能を劇的に向上させます。さらに、モデルの自己反復も可能にします。これは、上海AIラボによるデータ合成の新たなパラダイムです。
-
ChatGPT の新しい使い方が話題になっています。それは、あなたの実生活を一文で描写することです。専門家の Karpathy 氏はすでにこれを活用しています。