|
大規模モデルの具体化されたインテリジェントな意思決定機能は、最終的に体系的かつ普遍的な評価ベンチマークを持つようになりました。 Li Feifei 氏と Wu Jiajun 氏のチームによって新たに提案された評価フレームワークは、具体化されたインテリジェントな意思決定の 4 つの主要なサブ能力を包括的に調査します。 このベンチマークは、NeurIPS データおよびテスト セット (D&B) コラムの口頭発表論文として選ばれており、PyPI にも組み込まれているため、わずか 1 行のコードで簡単にアクセスできます。 Embodied Agent Interface (EAI) と呼ばれるこのフレームワークは、さまざまなモジュールとベンチマーク環境を接続するための標準インターフェイスを提供します。 著者らはこのフレームワークを使用して 18 の主流モデルをテストし、100 ページを超える論文を作成しました。 テスト結果によると、 o1-preview は公開されている大規模モデルの中で総合的なパフォーマンスにおいて第 1 位にランクされています。 李菲菲自身もこの共同研究に非常に興奮していると述べました。 一部のネットユーザーは、この成果が大規模モデルにおける具体化されたインテリジェントな意思決定の未来を形作るものだとコメントした。 4つのサブ能力の総合評価まず、EAI はターゲットを表現するための統一された方法を提供します。この方法は、さまざまな種類のターゲットと互換性があり、複雑な制約の記述をサポートします。 研究チームは、既存の具体化された意思決定タスクは、一貫性と普遍性に欠け、特定の領域に特有の目標を念頭に設計されていることが多いと考えています。 たとえば、BEHAVIOR と VirtualHome は、具現化されたエージェントのベンチマークとシミュレーション環境であり、複雑な環境でエージェントがタスクを完了する能力を研究するために使用されます。 ただし、両者にはいくつかの違いがあります。BEHAVIOR は状態ベースの目標を使用するのに対し、VirtualHome は時間拡張目標を使用します。 EAI は、線形時相論理(LTL) を導入することで、ターゲットの統一された表現を実現し、モジュール間の相互運用性を向上させ、同じタスクにおける異なるモデルのパフォーマンスの比較を容易にします。 具体的な評価プロセスでは、EAI はモジュール式の評価アプローチを採用し、評価指標をさらに細かいカテゴリに細分化しました。 これまでの研究では、通常、大規模なモデルを全体として評価しており、具体化された意思決定の個々のサブタスクにおけるパフォーマンスにはほとんど注意が払われていませんでした。 同時に、これらの既存のベンチマークは通常、タスクの最終的な成功率のみに焦点を当てており、モデルのエラーの種類や原因を詳しく調べることはほとんどありません。 大規模モデルの動作パターンと強み/弱みの分布をより深く理解するために、EAI は 4 つの主要な機能モジュールを提案し、一連のきめ細かな評価メトリックを設計しました。
具体的には、4 つの主要モジュールとその内容は次のとおりです。
さらに、EAI は、前述の BEHAVIOR と VirtualHome という、代表的でありながら非常に異なる 2 つの環境を選択しました。 単一環境の評価と比較して、EAI は大規模モデルのドメイン間一般化能力をより適切に検査することができ、その適用性や限界を完全に理解するのに役立ちます。 o1-previewが総合スコア1位に研究チームは、EAI 標準を使用して、GPT、Claude、Gemini を含む 18 の主流モデルの意思決定能力を評価しました。 BEHAVIOR 環境と VirtualHome 環境の両方において、o1-preview は総合リーダーボードでトップのランクを達成しました。 BEHAVIOR環境では、o1-previewは74.9点を獲得し、2位のClaude 3.5 Sonnetを10点以上上回りました。これにClaude 3 OpusとGPT-4oが続き、どちらも約60点を獲得しました。 VirtualHome 環境では、o1-preview が依然としてリードしていますが、上位 3 つのスコアは比較的近いです。 一方、Gemini 1.5 Proは2位となりましたが、全体的には上位のモデルはBEHAVIOR環境のものと類似しています。 もちろん、個々の能力を比較すると、異なるモデルがそれぞれの強みを発揮します。 例えば、BEHAVIOR 環境では、総合評価で 2 位の Claude 3.5 Sonnet の方が、総合評価で 1 位の o1-preview よりも客観解釈能力が若干高いことがわかります。 VirtualHome環境では、総合スコアが比較的低かったMistral Largeが、アクションシーケンスプランニングで1位を獲得しました。 著者らはまた、各モデルの失敗について詳細な分析を実施し、中間状態を最終目標状態と誤認する、暗黙の物理的関係を十分に理解していない、重要な前提条件を無視しているなどの具体的な問題を発見した。 これらの調査結果により、研究者はモデルの長所と短所をより深く理解することができ、将来の研究にとって重要な参考資料となります。 プロジェクトのホームページ: https://embodied-agent-interf... 論文: https://arxiv.org/abs/2410.07166 コード: https://github.com/embodied-a... データセット: https://huggingface.co/datase... |
Li Feifei 氏と Wu Jiajun 氏のチームは、具体化されたインテリジェントな意思決定能力の評価ベンチマークを発表し、O1-Preview がトップにランクされました。
関連するおすすめ記事
-
CATL(Contemporary Amperex Technology Co., Limited)がスケートボード型のシャシーを発表し、プレパレートカー製造の新時代を切り開きました!Avitaに初めて搭載されたこのシャシーは、CEOの「CATLの標準構成なら、他社製の車は不要」という発言をめぐって物議を醸しています。
-
北京大学王軒研究所:マルチモーダル大規模モデルによる人間行動のより深い理解 | ECCV 2024
-
知乎は「AI推進クラブ」学術バーを主催し、李開復氏は中国の大規模モデリングの将来について楽観的な見方を示した。
-
OpenAIのインテリジェントエージェントに関する新たな手がかりが明らかになりました!ネットユーザーの皆様、新たなChatGPTの時代が到来です!
-
オンラインチュートリアル | YOLO シリーズは 10 年間で 11 回更新され、最新モデルは複数のオブジェクト検出タスクで最先端のパフォーマンスを実現しています。
-
o1/クロード、集団で失敗! テレンス・タオと60人以上の一流数学者が協力し、新たな数学のベンチマークを提案。