顔面を平手打ちされました! GPT-4o は 8k ユニットの出力にも苦労しています。Chen Danqi 氏のチームの新しいベンチマークテストでは、すべてのモデルの出力が公称長を下回っていることが示されています。

QbitAI、Aofei TempleからのQi Yueレポート | WeChat公式アカウントQbitAI

多くの大型モデルは公式仕様で最大32K トークンを出力できると主張していますが、この数字は実際には誇張されているのでしょうか?

最近、Chen Danqi 氏のチームは、ロングコンテキストモデルが複雑な情報を処理して応答を生成する能力をテストするために特別に設計された、まったく新しいベンチマークツールLONGPROCを提案しました。

実験結果はやや意外なものでした。研究チームは、GPT-4oを含む最先端モデルが、一般的に用いられる長文文脈想起ベンチマークにおいて優れた性能を示したにもかかわらず、複雑な長文テキスト生成タスクにおいては依然として改善の余地が大きいことを発見しました。

具体的には、テストされたすべてのモデルはコンテキストウィンドウのサイズが 32K トークンを超えたと主張しましたが、オープンソースモデルは一般的に 2K トークンタスクでのパフォーマンスが低下し、GPT-4o などのクローズドソースモデルも 8K トークンタスクで大幅なパフォーマンスの低下を示しました。

たとえば、GPT-4o モデルが詳細な旅行計画を生成する場合、関連する時点と直接の飛行ルートが提供されていても、存在しない飛行情報がモデルの生成結果に表示され、これは一種の錯覚です。

いったい何が起こったのでしょうか?

新しいLONGPROCベンチマーク

長文脈言語モデルの現在のベンチマークは、主に長文脈想起タスクに焦点を当てています。これらのタスクでは、モデルは大量の無関係な情報を処理しながら短い応答を生成する必要があります。これらのタスクでは、散在する情報を統合して長い出力を生成するモデルの能力を適切に評価できません。

モデルの長いコンテキストを処理して応答を生成する能力をさらに正確にテストするために、Chen Danqi 氏のチームはまったく新しい LONGPROC ベンチマークテストを提案しました。

表 1 のさまざまなテストベンチマークの比較からわかるように、複雑なプロセス、モデル出力が 1K トークンを超えること、決定論的なソリューションを提供することなど、6 つの要件をすべて満たしているのは LONGPROC ベンチマークだけです。

新しいベンチマークにはタスクが含まれる

具体的には、LONGPROC には6 つの異なる生成タスクが含まれます。

1. HTMLからTSVへ：モデルはHTMLページから指定された情報を抽出し、表としてフォーマットする必要があります。複雑なHTML構造から関連するすべての情報を堅牢に抽出し、正しくフォーマットする必要があります。

たとえば、次の Web ページからすべての映画情報を抽出します。

2. 擬似コードからコード生成：モデルは擬似コードをC++コードに変換する必要があります。ソースコードとターゲットコード間の1対1の対応を維持し、変換の正確性を保証する必要があります。

3. パストラバーサル：このモデルは、仮想的な公共交通ネットワーク内において、ある都市から別の都市へのパスを見つける必要があります。パスの一意性と正確性は保証されなければなりません。

4. 心の理論追跡：このモデルでは、物語におけるオブジェクトの位置に関する心の認識の変化を追跡する必要があります。異なる時点におけるオブジェクトの位置と状態を正確に反映するには、長期的な推論が必要です。

たとえば、次のテキストに基づいて、「アリスはノートブックがどこにあると思いますか?」と推測します。

5. カウントダウンゲーム：モデルは4つの数字と基本的な算術演算を用いて、目標数値に到達する方法を見つけなければなりません。深さ優先探索が必要であり、探索プロセスの完全性と正確性を保証する必要があります。

たとえば、次の例では、モデルは入力数値に対して算術演算を実行して結果 29 を生成する必要があります。

6. 旅行計画：モデルは、様々な制約を満たす複数都市間の旅行計画を生成する必要があります。そのためには、複数の可能な旅程を検討し、すべての制約が満たされていることを確認する必要があります。

下の図に示すように、モデルはタスクで提供されたヨーロッパの旅程と直行便に基づいて最適な移動時間を計画する必要があります。

LONGPROC では、結果を出力するだけでなく、詳細なプログラム命令を実行しながら、構造化された長い形式の出力を生成するモデルも必要です。

表 2 からわかるように、左側のインスタンスの数 (N) と入力トークンと出力トークンの平均数 (#In/#Out) を比較することに加えて、チームは、表の右端の 3 つの列で情報を取得する方法、演繹的推論の有無、検索が実行されるかどうかという 3 つの側面からタスクを比較しています。

実験課題の設定

実験では、上記6つのタスクでそれぞれ異なるデータセットが使用されました。例えば、HTMLからTSVへの変換タスクではArboristデータセットから56のウェブサイトが使用され、擬似コード生成タスクではSPOCデータセットが使用され、パストラバーサルタスクでは仮想的な公共交通ネットワークが構築されました。

実験では通常、モデルが詳細なプログラムを実行して出力を生成する必要があります。

さらに、タスクの出力長に基づいて、データセットは500トークン、2Kトークン、8Kトークンの3つの難易度に分割されます。例えば、HTMLからTSVへの変換タスクでは、各ウェブサイトは重複しないサブサンプルに分割され、より多くのデータポイントが得られます。

実験には、一般的なクローズドソースモデル (GPT-4o、Claude 3.5、Gemini 1.5 など) とオープンソースモデル (ProLong、Llama-3、Mistral-v0.3、Phi-3、Qwen-2.5、Jamba など) を含む 17 のモデルが含まれていました。

実験結果と分析

まず、実験におけるモデルの全体的なパフォーマンスを見てみましょう。

結果は少々意外なものでした。すべてのモデルにおいて、長時間プロセス生成タスクにおいて著しいパフォーマンス低下が見られました。具体的な値は以下の表3をご覧ください。

GPT-4o のような最先端のモデルでさえ、8K トークンを出力するタスクで堅牢なパフォーマンスを維持するのは困難です。

さまざまなモデル間の違いをさらに詳しく分析してみましょう。

下の図 3 に示すように、GPT-4o などのトップのクローズドソースモデルは 0.5K タスクで最高のパフォーマンスを発揮しますが、8K タスクではパフォーマンスが大幅に低下します。

小規模のオープンソースモデルは一般的にパフォーマンスが低いですが、中規模のオープンソースモデル (Llama-3.1-70B-Instruct) は、難易度の低いタスクでは GPT-4o と同様のパフォーマンスを発揮します。

しかし、中規模モデルは一部の8Kタスクで非常に良好なパフォーマンスを発揮しました。例えば、Gemini-1.5-proはHTMLからTSVへの変換タスクでGPT-4oを上回り、Llama-3.1-70B-InstructとQwen2.5-72B-Instructは8KカウントダウンゲームでGPT-4oと大きな差はありませんでした。

しかし、全体的に見ると、オープンソースモデルのパフォーマンスは、クローズドソースモデルに比べてまだ劣っています。

さらに、モデルのパフォーマンスはタスクの種類にも関連しています。より長い推論時間を必要とするタスクでは、モデルのパフォーマンスは一般的により顕著に低下します。

図4に示すように、心の理論追跡、カウントダウンゲーム、旅行計画など、より複雑な情報の処理とより長い推論連鎖の実行を必要とするタスクでは、モデルのパフォーマンスはより顕著に低下します。GPT-4oやQwenなどのモデルでは、精度がさらに大幅に低下します。

チームメンバーは、17 個のモデルの機能を比較するだけでなく、パフォーマンスの優れたモデルの出力を人間の出力とも比較しました。

表 6 の結果からわかるように、現在のモデルは人間の能力と比べてまだ大きなギャップがあります。

人間はカウントダウンゲームと旅行計画タスクでそれぞれ 10 個と 9 個の問題を解きましたが、最高のモデルである GPT-4o はそれぞれ 7 個と 3 個の問題しか解きませんでした。

全体として、本論文で提案された LONGPROC ベンチマークは、長いプログラム生成タスクにおけるモデルのパフォーマンスを効果的に評価し、既存のベンチマークを補完します。

実験により、最も高度なモデルであっても、一貫性のある長いコンテンツセグメントを生成するには、まだ大幅に改善の余地があることが示されました。

特に、8k トークンの出力を必要とするタスクでは、大きなパラメータを持つ高度なモデルでもパフォーマンスが低下しますが、これは将来の LLM 研究にとって非常に有意義な方向性となる可能性があります。

第一著者は清華大学の卒業生である

この論文の第一著者は、清華大学ソフトウェア学院を卒業し学士号を取得し、その後テキサス大学オースティン校でコンピュータサイエンスの博士号を取得した Xi Yeです。

清華大学特別奨学金受賞者の高天宇氏もこの論文に参加した。

筆頭著者のXi Ye氏の個人ホームページによると、彼の研究は主に自然言語処理分野に焦点を当てており、特にLLMの解釈可能性の向上と推論能力の強化に重点を置いています。さらに、意味解析やプログラム合成に関する関連研究にも取り組んでいます。

彼は現在、プリンストン大学の言語・知能研究所（PLI）の博士研究員であり、2025年7月からアルバータ大学の助教授として着任する予定です。

追伸: 彼のウェブサイトでは現在、2025 年秋学期の博士課程/修士課程の学生を全額奨学金付きで募集しています。

参考リンク:
[1]https://arxiv.org/pdf/2501.05414 [2]https://xiye17.github.io/

618ZXW