618ZXW

AIがワンクリックで「神話風」コンテンツを生成!テンセントがゲーム動画モデル「GameGen-O」をリリース。

何?!大規模モデルで「Black Myth: Wukong」のような AAA タイトルを生成できるようになるかも?!

西遊記が今まさに提供されており、BGM が流れていて、あの雰囲気が漂っています (doge)。

これは、テンセントが最近リリースした、オープンワールドのビデオゲームを生成するために特別に設計されたトランスフォーマー モデルであるGameGen-Oです。

簡単に言えば、このモデルはさまざまなゲームエンジン機能をシミュレートし、ゲームキャラクター、動的な環境、複雑なアクションなどを生成できます。

また、インタラクティブな制御もサポートしており、ユーザーはテキスト、操作信号、ビデオプロンプトを通じてゲームコンテンツを制御できます。

このニュースが発表された瞬間、Twitter上で話題となり、ネットユーザーたちが列をなして叫んだ。

ゲームスタジオAzra Gamesの共同創設者兼CTOは率直にこう述べた。

GameGen-O は、ゲームスタジオにとって ChatGPT の瞬間となるでしょう。

「ゲームスタジオがChatGPTの瞬間を告げる」

具体的には、このプロジェクトはテンセントが香港科技大学および中国科学技術大学と共同で開始しました。

AIモデルを用いてゲーム開発の一部を代替することが目標だと推測されています。例えば、現在発表されているように、キャラクター作成、ゲーム環境生成、モーション生成、イベント生成、そして様々なインタラクティブコントロールなどが含まれます。

一つずつプレビューしてみましょう〜

今、GameGen-O を使用すると、カウボーイ、宇宙飛行士、マジシャン、警備員など、あらゆる種類のキャラクターをワンクリックで直接生成できます。

資金不足によりロケ撮影が困難なため、プラン B があります。

クールな動きをチームメイトに見せつけましょう。さまざまな一人称視点のアニメーションを簡単に操作できます。

あらゆるゲームに不可欠な要素。津波、竜巻、火災など、プレイヤーに数億ポイントの難易度を時々与える (doge)。

同時に、GameGen-O はオープンドメイン生成もサポートしており、スタイル、環境、シーンに制限はありません。

最後に、左折、右折、夜明けに向かうなどのテキスト、操作信号、ビデオプロンプトを使用してインタラクションを実現できます...

ゲーム開発の費用がいかに高額か、皆さんご存知ですよね。GameGen-Oを使えば、一般のプレイヤーでもゲームを作れるようになりました。

ある AI アーキテクトは次のように主張しました。

GPT-4oでラベル付けされたデータ

このモデルを開発するために、チームは主に次の2 つのことを行ったと述べています。

  • 独自のデータセット OGameDataが構築され、データは GPT-4o を使用して注釈付けされました。
  • トレーニング プロセスは2 つのフェーズに分かれています。

具体的には、チームはまずデータセット構築パイプラインを提案しました。

チームは、ロールプレイング ゲーム、一人称視点のシューティング ゲーム、レース ゲーム、アクション パズル ゲームなど、数百のオープン ワールド ゲームから、数分から数時間の長さにわたる32,000 本のオリジナル ビデオをインターネットから収集しました。

これらのビデオはその後、人間の専門家によって識別およびフィルタリングされ、約15,000 本の使用可能なビデオが生成されました。

次のステップは、シーン検出テクノロジーを使用して選択したビデオをセグメントに分割し、美しさ、オプティカルフロー、および意味コンテンツに基づいてこれらのビデオセグメントを厳密に分類およびフィルタリングすることです。

次に、 GPT-4oを使用して、解像度 720p から 4k までの 4,000 時間を超える高品質のビデオ映像に細心の注意を払って注釈を付けました

インタラクティブな制御を実現するために、チームは注釈付きデータセットから最高品質のセグメントを選択し、分離されたラベル付けを実行しました。

このラベル付け設計は、フラグメント コンテンツの状態の変化を記述するために使用され、モデルのトレーニングに使用されるデータセットがより洗練され、インタラクティブなものになることを保証します。

人間の専門家がGPT-4oと協力するというこの形式に関して、一部のネットユーザーは次のようにコメントしています。

これは再帰的な自己改善の一形態です。(人間の専門家が注釈の正確性を確認し、フィードバックメカニズムを通じてGPT-4oの自己改善を支援しました。)

データの準備が完了したら、チームは基本的な事前トレーニングと指示の調整という 2 つのプロセスを通じて GameGen-O をトレーニングしました。

基本的なトレーニング フェーズでは、GameGen-O モデルは2+1D VAE (Magvit-v2 などの変分オートエンコーダー) を使用してビデオ クリップを圧縮します。

VAE をゲーム分野に適応させるために、チームは VAE デコーダーに分野固有の調整を加えました。

チームは、さまざまなフレーム レートと解像度を使用したハイブリッド トレーニング戦略を採用し、さまざまなフレーム レートと解像度にわたる一般化能力を強化しました。

さらに、モデルの全体的なアーキテクチャは、Latte および OpenSora V1.2 フレームワークの原則に従います。

マスクされた注意メカニズムを使用することで、GameGen-Oはテキストからビデオへの生成ビデオの続編という 2 つの機能を備えています。

チーム紹介には次のように書かれています。

このトレーニング方法を OGameData データセットと組み合わせることで、モデルはオープンドメインのビデオ ゲーム コンテンツを安定して高品質で生成できるようになり、その後のインタラクティブな制御機能の基盤が築かれます。

その後、事前トレーニング済みのモデルが修正され、トレーニング可能なInstructNetを使用して微調整されます。これにより、モデルはマルチモーダルな構造指示に基づいて後続のフレームを生成できるようになります。

InstructNet は主に、構造化テキスト、アクション信号、ビデオ キューなどのさまざまなマルチモーダル入力を受け入れるために使用されます。

InstructNet ブランチの調整中は、現在のコンテンツが条件として使用され、現在のフラグメント コンテンツと将来のフラグメント コンテンツ間のマッピング関係が確立されます。これは、マルチモーダル制御信号の下で実行されます。

その結果、推論中に、GameGen-O はユーザーが現在のフラグメントに基づいて次に生成されるフラグメントを継続的に生成および制御することを可能にします。

GameGen-O は公式 GitHub リポジトリを作成しましたが、まだコードをアップロードする時間がありません。

ご興味のある方はこのページをブックマークしてください!