GPT-4o は Black Myth をプレイできます。大規模な強化学習不要のソリューションを使用して、エリートモンスターに対して超人的な勝率を実現します。

AI は Black Myth をプレイし、最初のエリートモンスターガードを簡単に倒します。

方向感覚も良く、視点も優れています。

クラブの攻撃を避けるのは信じられないほどスムーズでした。

行商人や警備員が参加する試合でも、AI の勝率は人間を上回っています。

また、全面的に大規模モデルを使用し、強化学習は使用しません。

Alibaba の研究者は、新しい VARP (Visual Action Role-Playing) エージェントフレームワークを提案しました。

ゲームのスクリーンショットを直接入力として取り込み、ビジュアル言語モデルを通じて推論し、最終的にゲームを制御するための Python コードの形式でアクションを生成できます。

ゲーム「Black Myth: Wukong」を例にとると、AI はシンプルおよび中レベルの戦闘シナリオの 90% で勝利します。

GPT-4o と Claude 3.5 の両方がこれに挑戦してきます。

研究者たちは Black Myth: Wukong を研究プラットフォームとして使用し、合計 12 のミッションを定義しました。そのうち 75% は戦闘に関連するものでした。

彼らは、キーボードとマウスの操作、ゲームのスクリーンショットなどを含む、合計 1,000 件の有効なデータエントリを含む人間の操作データセットを構築しました。

各アクションは、アトミックコマンドの様々な組み合わせのシーケンスです。アトミックコマンドには、軽攻撃、回避、重攻撃、回復が含まれます。

そこで彼らは、VARP エージェントフレームワークを提案しました。

主に動作計画システムと人間誘導軌道システムから構成されます。

行動計画システムは、コンテキストライブラリ、行動ライブラリ、およびヒューマンガイダンスライブラリで構成されています。行動の推論と生成にはVLMを使用し、特定のタスクを分解するための補助モジュールと、自己最適化行動生成モジュールを導入しています。

ヒューマンガイド軌道システムは、人間の操作データを用いてインテリジェントエージェントのパフォーマンスを向上させます。困難なタスクでは、ヒューマンガイドライブラリにクエリを送信して類似のスクリーンショットや操作を取得し、新たなヒューマンガイドアクションを生成します。

VARP には、シナリオライブラリ、アクションライブラリ、マニュアルガイダンスライブラリの 3 つのライブラリも含まれています。

これらのライブラリには、エージェントの自己学習と人間のガイダンスに関する情報が保存されており、取得および更新が可能です。

アクションライブラリでは、「def new_func_a()」はアクション計画システムによって生成された新しいアクションを表し、「def new_func_h()」は人間誘導軌道システムによって生成されたアクションを表し、「def pre_func()」は定義済みのアクションを表します。

アクションのケーススタディと対応するゲームスクリーンショット。1行目と2行目のアクションは定義済みの関数です。3行目のアクションは、手動で誘導される軌道システムによって生成されます。

SOAG は、プレイヤーキャラクターと敵の間の各戦闘インタラクションの後に、4 行目と 5 行目に新しいアクションをまとめ、アクションライブラリに保存します。

使用されたフレームワークは、GPT-4o (バージョン 2024-0513)、Claude 3.5 Sonnet、および Gemini 1.5 Pro です。

人間と AI のパフォーマンス結果を比較すると、モンスター関連の部分における AI のパフォーマンスは人間のプレイヤーと同等レベルであることがわかります。

Guardian's Den では、Claude 3.5 Sonnet が負け、GPT-4o の勝率が最も高くなりました。

しかし、ゴーストに対しては AI でさえ無力であり、これは初心者プレイヤーにとってよくある頭痛の種です。

この研究では、VLMの推論速度には限界があり、すべてのフレームをリアルタイムで入力できないことも指摘されています。キーフレームを断続的にしか入力できないため、AIがボスの攻撃に関する重要な情報を見逃してしまうケースがあります。

さらに、ゲームには明確な道路案内がなく、目に見えない壁が多数存在するため、インテリジェントエージェントは人間の誘導なしには正しいルートを自力で見つけることができません。

上記の調査は Alibaba チームによるもので、著者は合計 5 名です。

関連するコードやデータセットは後日公開予定ですので、ご興味のある方はどうぞお楽しみに。

AIがゲームをプレイすることは目新しいことではありません。例えば、強化学習手法に基づくAIは、すでにStarCraft IIで人間のプロプレイヤーに勝利しています。

強化学習スキームでは、多くの場合、入力として大量のゲームセッションが必要になります。SenseTimeの以前のDI-star（教師あり学習+強化学習）トレーニングプログラムでは、「16万件のビデオ録画」と「1億回のゲームセッション」が使用されていました。

しかし、純粋に大規模なモデルがゲームをプレイできるというのは、まだかなり意外なことです。この研究では、データセットには1000個の有効なデータポイントが含まれていました。

論文の宛先:
https://arxiv.org/abs/2409.12889

プロジェクトアドレス:
https://varp-agent.github.io/