618ZXW

Appleの大規模モデリングにおける最新の成果:GPT-4oがユーザーの役割を演じ、シナリオにおける大規模モデルツールの使用法を検証。ネットユーザー:Siriも追いつくべきだ | オープンソース

Apple のチームは、大規模なモデル ツールを呼び出すための一連のベンチマークという新しいオープンソースの成果をリリースしました。

このベンチマークでは、シナリオベースの評価方法を革新的に採用しており、実際の環境でのモデルのパフォーマンスをより適切に反映できます。

さらに、対話の相互作用や状態の依存性など、従来の標準では対処されていなかった重要なシナリオも導入されています。

このベンチマークはToolSandboxと呼ばれ、Appleの基本モデルチームの責任者であるPang Ruoming氏も研究に参加した。

ToolSandbox は、既存のテスト標準におけるシナリオベースの評価の欠如に対処し、テスト条件と実際のアプリケーション間のギャップを縮小します。

さらに、インタラクションの面では、著者らは GPT-4o をユーザーとして機能させ、テスト対象のモデルと対話させることで、現実世界のシナリオをシミュレートしました。

たとえば、GPT-4o に、自分はもうアシスタントではなく、ユーザー B と会話しているユーザー A の役割を果たす必要があることを伝え、一連の具体的なリクエストを行います。

さらに、著者らはToolSandboxを用いていくつかの主流モデルをテストしました。全体的に、クローズドソースモデルはオープンソースモデルよりも高いスコアを獲得し、GPT-4oが最も優れた結果を示しました。

iOSアプリ開発者のニック・ドボス氏は、Appleの基準はシンプルで明確だと語った。

また、ChatGPT はすでに 3 つのツールで苦戦しており、Siri は携帯電話上の数十または数百のアプリを管理するためにツール呼び出し機能を改善する必要があるとも指摘しました。

つまり、ToolSandbox の研究は、Siri の将来の開発への道を開くことを目的としている可能性があるということです。

シナリオでモデルをテストする

前述したように、ToolSandbox はシナリオベースのインタラクティブなテスト アプローチを採用しています。

具体的には、ToolSandbox には、単一/複数のツール呼び出し、単一/複数のターンのダイアログ、状態の依存関係、標準化、情報不足の 7 つのタイプにわたる約 2,000 のシナリオが含まれています。

最初の2つは比較的理解しやすいです。ここでは、後者の3つのシナリオタイプについて説明します。

  • 状態の依存性: ツールの実行は特定のグローバル状態に依存しており、最初に他のツールによって変更する必要があります。
  • 標準化: 自然言語表現をツールに必要な標準形式に変換すること。このプロセスでは他のツールの支援が必要になる場合があります。
  • 情報不足: タスクを完了するために必要な主要なツールを意図的に省略して、モデルがタスクを完了できない状況を識別できるかどうかを調べます。

これらのシナリオでは、ToolSandbox はモデルの 3 つのメトリックに焦点を当てます。

  • 全体的なパフォーマンス、つまり、さまざまなシナリオにわたる事前設定された回答との平均類似度。
  • 堅牢性は、さまざまな方法でツールを変更および干渉し、それらの条件下でのモデルのパフォーマンスを観察することによって評価されました。
  • 効率、つまりタスクが完了する平均ラウンド数。

ツールに関しては、著者らは 34 個の構成可能な Python 関数をツールとして選択しましたが、これは現実のシナリオの複雑さに匹敵します。

ネイティブ Python ツールといくつかの RapidAPI ツールの両方が含まれており、検索、会話、ナビゲーション、天気、画像処理などの幅広い共通領域をカバーしています。

プロセスの観点から言えば、最初のステップはテストシナリオを準備することです。研究者は初期の世界状態を定義・保存し、同時にキャリブレーション済みのGPT-4oモデルを用いて初期ユーザーメッセージを生成します。

次に、対話型実行フェーズでは、システムはまずロール間の通信チャネルとしてメッセージ バスを初期化し、ユーザーの役割を果たすモデルとテスト対象のモデルを構成します。

対話ループが始まると、ユーザーをシミュレートするモデルが初期メッセージを送信します。テスト対象モデルはこのメッセージを受信し、次のアクション(ユーザーに直接返信するか、環境と対話するためのツールを呼び出すか)を決定します。

モデルがツールの呼び出しを選択した場合、必要なパラメータがJSON形式で提供されます。実行環境は呼び出しを解釈して実行し、ワールドステートを更新したり、潜在的な並列呼び出し条件を処理したりします。

実行結果がテスト対象モデルに返された後、テスト対象モデルは次のアクションを決定します。このプロセスは、ユーザーシミュレータがタスクが完了した(または完了できない)と判断するまで継続され、完了した時点で end_conversation ツールが呼び出され、会話が終了します。

システムは、インタラクション全体を通じてすべてのメッセージと状態の変化を記録し、完全な「対話軌跡」を形成してから評価フェーズに入ります。

評価では、事前定義された「マイルストーン」と「地雷原」を使用して、プロキシ モデルのパフォーマンスを測定します。

マイルストーンは、タスクを完了するための主要なイベントを定義し、時間の依存関係を反映する有向非巡回グラフを形成します。

システムは、マイルストーンの位相順序を維持しながら、軌跡内のイベントとマイルストーンの最適な一致を見つけます。

地雷原は禁止されたイベントを定義し、主に情報不足によりモデルが幻覚を経験しているかどうかを検出するために使用されます。

たとえば、下の画像は、「情報不足」シナリオにおける地雷原評価の例を示しています。

このタスクでは、現在のタイムスタンプが利用できなかったため、モデルはtimestamp_diffツールを呼び出すべきではありませんでした。しかし、モデルは現在のタイムスタンプを誤って推測し、ツールを呼び出してしまったため、このラウンドのスコアは0となりました。

最終的に、システムは平均マイルストーン マッチング スコアと地雷原ペナルティを掛け合わせた総合スコアを計算します。

さらに、システムはモデルの効率性を評価するための補助的な指標として、タスクを完了するために必要な平均ラウンド数も計算します。

複雑なインタラクションシナリオは依然として課題である

全体的に、ツール呼び出しの点では、クローズド ソース モデルの方がオープン ソース モデルよりもパフォーマンスが優れています

平均スコアが最も高かったのはGPT-4oの73.0で、70を超えた唯一のスコアであり、著者が設定した7つのシナリオのうち4つで最高スコアを達成しました。

さらに、GPT-4oは非常に堅牢です。著者らはツールの改良に8つの手法を用いましたが、GPT-4oはその中で最高の堅牢性スコアを達成しました。

これに僅差で続くのはClaude 3-Opusで、平均スコアは69.2です。これは、情報が不十分なシナリオにおいてGPT-4oを上回るパフォーマンスを発揮します。さらに、GPTとClaudeの他のバージョンもあります。

一方、GoogleのGeminiは1.5 Proで60.4点と、かろうじて合格点に留まり、GPT-3.5よりもさらに劣る結果となり、出遅れました。しかし、「情報不足」カテゴリでは良好な成績を残しました。

オープンソース モデルの中で最高の平均スコアはわずか 31.4 で、よく知られている Mistral-7B は 29.8 でしたが、情報不足のカテゴリでは 76.8 という最高のスコアを達成しました。

Gorilla や Command-R などの一部のオープンソース モデルでは、ツールの応答を処理できなかったり、ツールの呼び出しを 1 ラウンドしか完了できなかったりします。

さらに分析を進めると、オープンソース モデルはツールをいつ呼び出すかを特定するパフォーマンスが低く、問題をプレーン テキスト生成タスクとして扱う傾向があることが明らかになりました。

タスクの観点から見ると、大規模モデルは、単一/複数のツール呼び出しと単一ターンのユーザー要求では優れたパフォーマンスを発揮しますが、複数ターンのダイアログと状態依存のタスクではその利点は減少します

GPT、Claude、およびGeminiファミリー内では、マルチツール呼び出しおよびマルチターン対話タスクにおいて、より大きなモデルの方がより大きな利点を示します。ただし、状態依存タスクでは、より小さなモデル(GPT-3.5およびClaude-3-Sonnetなど)が、実際にはより大きなモデル(GPT-4およびClaude-3-Opus)よりも優れています

さらに、正規化はすべてのモデルにとって大きな課題であり、特に正規化のためのツールの使用が必要なシナリオでは、時間関連のパラメータの正規化も非常に困難です。

堅牢性に関する研究では、ツールの説明やパラメータ情報の変更に対するモデルの感度は大きく異なり、明らかなパターンは見つかっていないことが示されています。

効率の点では、強力なモデルの方が一般的に効率的ですが、Claude シリーズ モデルなどの例外もあり、これらは一般に GPT よりも効率的です。

要約すると、現実世界の複雑なインタラクティブなシナリオを扱う場合、大規模モデルはツールの使用に関して依然として多くの課題に直面しています。

著者について

ToolSandbox チームのメンバーは、機械学習、データサイエンス、基本的な大規模モデルなど、Apple の複数のチームから来ています。

第一著者は、清華大学を卒業し、在学中に朱俊教授の研究室で研究助手として働いていた中国の機械学習エンジニア、 Jiarui Lu氏です。

その後、ルー氏はカーネギーメロン大学で機械学習の修士号を取得し、卒業後の2020年にAppleに入社した。

呂氏を含む12人の著者のうち10人は中国人で、全員が名門大学出身である。

これには、基本大規模モデル チームの責任者であるRuoming Pang も含まれます。

さらに、Appleで8年間勤務したエンジニアリングディレクターのベルンハルト・アウマイヤー氏もこのプロジェクトに参加した。

論文リンク: https://arxiv.org/abs/2408.04682