Li Feifei 氏と Wu Jiajun 氏のチームは、具体化されたインテリジェントな意思決定能力の評価ベンチマークを発表し、O1-Preview がトップにランクされました。

大規模モデルの具体化されたインテリジェントな意思決定機能は、最終的に体系的かつ普遍的な評価ベンチマークを持つようになりました。

Li Feifei 氏と Wu Jiajun 氏のチームによって新たに提案された評価フレームワークは、具体化されたインテリジェントな意思決定の 4 つの主要なサブ能力を包括的に調査します。

このベンチマークは、NeurIPS データおよびテストセット (D&B) コラムの口頭発表論文として選ばれており、PyPI にも組み込まれているため、わずか 1 行のコードで簡単にアクセスできます。

Embodied Agent Interface (EAI) と呼ばれるこのフレームワークは、さまざまなモジュールとベンチマーク環境を接続するための標準インターフェイスを提供します。

著者らはこのフレームワークを使用して 18 の主流モデルをテストし、100 ページを超える論文を作成しました。

テスト結果によると、 o1-preview は公開されている大規模モデルの中で総合的なパフォーマンスにおいて第 1 位にランクされています。

李菲菲自身もこの共同研究に非常に興奮していると述べました。

一部のネットユーザーは、この成果が大規模モデルにおける具体化されたインテリジェントな意思決定の未来を形作るものだとコメントした。

4つのサブ能力の総合評価

まず、EAI はターゲットを表現するための統一された方法を提供します。この方法は、さまざまな種類のターゲットと互換性があり、複雑な制約の記述をサポートします。

研究チームは、既存の具体化された意思決定タスクは、一貫性と普遍性に欠け、特定の領域に特有の目標を念頭に設計されていることが多いと考えています。

たとえば、BEHAVIOR と VirtualHome は、具現化されたエージェントのベンチマークとシミュレーション環境であり、複雑な環境でエージェントがタスクを完了する能力を研究するために使用されます。

ただし、両者にはいくつかの違いがあります。BEHAVIOR は状態ベースの目標を使用するのに対し、VirtualHome は時間拡張目標を使用します。

EAI は、線形時相論理(LTL) を導入することで、ターゲットの統一された表現を実現し、モジュール間の相互運用性を向上させ、同じタスクにおける異なるモデルのパフォーマンスの比較を容易にします。

具体的な評価プロセスでは、EAI はモジュール式の評価アプローチを採用し、評価指標をさらに細かいカテゴリに細分化しました。

これまでの研究では、通常、大規模なモデルを全体として評価しており、具体化された意思決定の個々のサブタスクにおけるパフォーマンスにはほとんど注意が払われていませんでした。

同時に、これらの既存のベンチマークは通常、タスクの最終的な成功率のみに焦点を当てており、モデルのエラーの種類や原因を詳しく調べることはほとんどありません。

大規模モデルの動作パターンと強み/弱みの分布をより深く理解するために、EAI は 4 つの主要な機能モジュールを提案し、一連のきめ細かな評価メトリックを設計しました。

モデル機能は 4 つの主要モジュールに分かれています。
明確な入出力インターフェースが定義されています。
モデルのパフォーマンスは、軌道の実行可能性、目標の満足度、論理的なマッチングなど、複数の観点から評価されます。
豊富な注釈 (ターゲット状態、関係、アクションなど) が導入され、自動エラー分析が可能になります。

具体的には、4 つの主要モジュールとその内容は次のとおりです。

目標の解釈: 自然言語で表現されたタスクの目標を形式化された LTL 目標式に変換します。
サブ目標の分解: タスク目標を一連のサブ目標に分解します。各サブ目標も LTL 式で表されます。
アクションのシーケンス: タスクの目的に基づいてアクションのシーケンスを生成し、環境内で実行してターゲット状態を実現します。
遷移モデリング: 各アクションまたはオペレータの前提条件と効果を生成し、環境遷移モデルを形成します。

さらに、EAI は、前述の BEHAVIOR と VirtualHome という、代表的でありながら非常に異なる 2 つの環境を選択しました。

単一環境の評価と比較して、EAI は大規模モデルのドメイン間一般化能力をより適切に検査することができ、その適用性や限界を完全に理解するのに役立ちます。

o1-previewが総合スコア1位に

研究チームは、EAI 標準を使用して、GPT、Claude、Gemini を含む 18 の主流モデルの意思決定能力を評価しました。

BEHAVIOR 環境と VirtualHome 環境の両方において、o1-preview は総合リーダーボードでトップのランクを達成しました。

BEHAVIOR環境では、o1-previewは74.9点を獲得し、2位のClaude 3.5 Sonnetを10点以上上回りました。これにClaude 3 OpusとGPT-4oが続き、どちらも約60点を獲得しました。

VirtualHome 環境では、o1-preview が依然としてリードしていますが、上位 3 つのスコアは比較的近いです。

一方、Gemini 1.5 Proは2位となりましたが、全体的には上位のモデルはBEHAVIOR環境のものと類似しています。

もちろん、個々の能力を比較すると、異なるモデルがそれぞれの強みを発揮します。

例えば、BEHAVIOR 環境では、総合評価で 2 位の Claude 3.5 Sonnet の方が、総合評価で 1 位の o1-preview よりも客観解釈能力が若干高いことがわかります。

VirtualHome環境では、総合スコアが比較的低かったMistral Largeが、アクションシーケンスプランニングで1位を獲得しました。

著者らはまた、各モデルの失敗について詳細な分析を実施し、中間状態を最終目標状態と誤認する、暗黙の物理的関係を十分に理解していない、重要な前提条件を無視しているなどの具体的な問題を発見した。

これらの調査結果により、研究者はモデルの長所と短所をより深く理解することができ、将来の研究にとって重要な参考資料となります。

プロジェクトのホームページ: https://embodied-agent-interf... 論文: https://arxiv.org/abs/2410.07166 コード: https://github.com/embodied-a... データセット: https://huggingface.co/datase...

618ZXW

Li Feifei 氏と Wu Jiajun 氏のチームは、具体化されたインテリジェントな意思決定能力の評価ベンチマークを発表し、O1-Preview がトップにランクされました。

4つのサブ能力の総合評価

o1-previewが総合スコア1位に

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ