618ZXW

清華大学、厦門大学などは「無制限のロングコンテキスト」技術を提案し、すべてのスコアが緑色で干し草の山から針を見つけることが可能になり、Llama、Qwen、MiniCPMのスコアが向上しました。

大規模モデルのメモリ制限が解消され、実質的に「無限に長い」コンテキストが可能になります。

この最新の成果は、清華大学、厦門大学などが共同で提案したLLMxMapReduce 長文テキストフレーム分割処理技術によるものです。

LLMxMapReduce テクノロジーは、長いコンテキストを複数のセグメントに分割し、モデルが複数のセグメントを並列に処理し、異なるセグメントから重要な情報を抽出して、それらを最終的な答えに集約できるようにします。

特に、研究チームは、セグメント間情報のより効率的な処理を実現するために、構造化された通信プロトコルとコンテキスト信頼度キャリブレーションメカニズムを提案しました。この技術は、大規模モデルのメモリ制限を打破し、コンテキスト長を安定的かつ無制限に拡張することを可能にします。

LLMxMapReduceテクノロジーは、長文テキストを扱う大規模モデルのパフォーマンスを向上させる強力なツールとして活用できます。大規模モデルの長文テキスト処理能力を全体的に向上させる効果があり、テキスト長が長くなっても安定したパフォーマンスを維持し、長文テキストのスコア低下を軽減できます。

たとえば、LLMxMapReduce フレームワークを組み合わせた Llama3-70B-Instruct x MapReduce モデルは、Kimi や GPT-4 などのよく知られたクローズド ソースおよびオープン ソース モデル、および Llama3-70B-Instruct に基づくその他の分割統治法 (LongAgent および Chain-of-Agents) よりも優れたパフォーマンスを発揮します。

さらに、LLMxMapReduce フレームワークは優れた汎用性を示し、Qwen2-72B および MiniCPM3 と組み合わせると優れた結果を達成しています。

無限長テキストのためのLLMxMapReduce技術原理

ビッグデータ分野において、MapReduceは水平方向にスケーラブルなデータ処理機能を備えた分散並列プログラミングフレームワークです。MapReduceに体現された「分割統治」の考え方に着想を得て、研究者たちはLLMxMapReduceと呼ばれる、分割統治戦略を採用した大規模モデル向けの長文テキスト処理フレームワークを設計しました。
LLMxMapReduceは、長いコンテキストを複数のフラグメントに分割することで、モデルが複数のフラグメントを並列処理し、異なるフラグメントから重要な情報を抽出し、それらを最終的な答えに集約することを可能にします。これにより、無限に長いテキストの処理が可能になります。この手法は、モデルの長いテキスト処理能力を向上させ、テキストが長くなるにつれてスコアの低下を抑えながら、安定したパフォーマンスを維持します。

最近、LongAgentやChain-of-Agentsといった、同様の分割統治型長文テキスト処理手法が登場しています。長文文書全体を一度に処理するモデルと比較すると、この種の分割統治型長文テキスト処理には長所と短所の両方があります。

その主な利点はスケーラビリティにあり、モデル自体のウィンドウ サイズによって制限されず、理論的には任意の長さの入力をサポートできます。

主な欠点は、長く完全な文書を複数のセグメントに分割すると、セグメント間の重要な情報が失われる可能性があることです。これにより、モデルは単一のセグメントに基づいて情報の流れを「中断」し、誤った結論を導き出します。チームの分析によると、セグメント化の影響を受ける情​​報は、以下の2つのカテゴリーに分類されます。

  • チャンク間の依存関係:複数のセグメントの情報は相互に依存しており、それらを組み合わせることでのみ完全な答えを得ることができます。例えば、あるイベントのタイムラインを要約するには、多くのセグメントから重要な情報を抽出し、完全なタイムラインを作成する必要があります。
  • チャンク間の矛盾:複数のセグメントからの情報が矛盾し、同じ質問に対して異なるセグメントを見ると異なる結論が導き出されることがあります。例えば、ある監督の最高傑作は何かと尋ねた場合、若い頃のセグメントを見ると、それが若い頃の最高傑作であるという結論に至りますが、晩年のセグメントを見ると、異なる結論に至ります。

これら 2 種類の問題に対処するために、LLMxMapReduce は次のソリューションを設計しました。

  • 構造化情報プロトコル(SIP):ユーザーの問題の各セグメントに対して、モデルは単なる中間的な回答ではなく、豊富な関連情報を含む構造を出力します。Reduceフェーズでは、モデルは各セグメントからの構造化情報を集約し、最終結果を得ます。MapフェーズとReduceフェーズの両方で構造化通信プロトコルを使用することで、セグメント間の依存関係をより適切に処理し、より包括的な回答を得ることを目指しています。
 { Extracted Information: XXX # 与问题相关的关键信息Rationale: XXX # 得出中间结果的推理过程Answer: XXX # 根据当前片段的中间结果Confidence Score: XXX # 模型对当前片段的结果的置信度,范围为1到5之间}
  • コンテキスト内信頼度キャリブレーション:Reduceフェーズでは、モデルは信頼度値を参照して各ステージからの情報を要約し、信頼度の高い結果に重み付けを行います。異なるセグメントを処理する際にモデルが一貫した信頼度評価基準を持つように、コンテキスト学習によってモデルに統一された信頼度評価基準が学習され、信頼度情報の精度と信頼性が向上します。これにより、Reduceフェーズにおけるセグメント間の競合への対応能力が向上します。

LLMxMapReduce メソッドのフローチャートを以下に示します。これは、 MapCollapse 、およびReduceの 3 つのステージに分かれています。

まず、長いテキストを複数の小さなセグメントに分割し、それらを並行して処理して効率を向上させる必要があります。

次に、マップ フェーズでは、各フラグメントが大規模なモデルを使用して分析され、上記の構造化通信プロトコルが適用され、抽出された情報が後続の処理のために構造化された形式に統合されます。

次に、Collapseフェーズでは、すべてのフラグメントの合計長がモデルの最大処理限界を超える場合、モデルは複数の構造を1つの構造に圧縮してコンテキスト長を短縮します。矛盾する情報を処理する場合、モデルは統合の信頼度を考慮します。

最後に、Reduceフェーズでは、モデルは圧縮された情報に基づいて最終的な答えを要約します。得られた答えの正確性を確保するために、信頼度の高い結果を優先します。

上記のワークフローを通じて、LLMxMapReduce は長いテキストをより効率的に処理し、セグメンテーションによる情報の損失や誤った結論を回避し、最終結果の精度を向上させることができます。

大規模モデルの長文スコアリングツール

LLMxMapReduce テクノロジーの有効性を検証するために、研究者は、業界をリードする長文テキスト ベンチマーク InfiniteBench (最長テキストが 2,000k トークンを超える包括的なベンチマーク) でさまざまなモデルを評価しました。

研究者たちは、3つの異なる基準で方法を比較しました。

クローズドソースモデル:

これにはGPT-4、Claude 2、Kimi-Chatが含まれます。GPT-4とClaude 2のスコアは元のInfiniteBenchデータに基づいていますが、Kimi-Chatのスコアは再測定されています。

オープンソースモデル:

これには、YaRN-Mistral、Yi-6B-200K、Yi-34B-200K、Qwen2-72B-Instructが含まれます。YaRN-Mistral、Yi-6B-200K、Yi-34B-200KのスコアはInfiniteBenchのオリジナルデータに基づいていますが、Qwen2-72B-Instructのスコアは自己測定によるものです。

その他の分割統治ベースの長いテキスト処理フレームワーク:

これにはLongAgentとChain-of-Agentsが含まれます。これら2つの分割統治フレームワークの違いは、セグメント間の情報をどのように処理するかにあります。

LongAgentは、セグメント間の競合を処理するためのリーダーエージェントを構築します。異なるチャンクが異なる答えを出す場合、リーダーエージェントは競合するセグメントの再読み取りを組織化し、最終的な答えを導き出します。

この反復的な読み取りメカニズムは大きな時間オーバーヘッドを引き起こし、LongAgentの通信内容は比較的単純であるため、リーダーエージェントの競合処理能力が制限されます。対照的に、LLMxMapReduceの構造化された通信プロトコルには、はるかに豊富な情報が含まれています。

Chain-of-Agents は、各チャンクを 1 つずつ順番に読み取ることで、テキスト全体を読み取ります。

競合情報は明示的に処理されないため、後続のチャンクによって履歴チャンク内の重要な情報が上書きされる可能性があります。一方、LLMxMapReduceは、キャリブレーションされた信頼度を利用することで、セグメント間の競合をより適切に処理します。

具体的な実験結果は次のとおりです。

ご覧のとおり、LLMxMapReduce フレームワークと組み合わせると、Llama3-70B-Instruct x MapReduce は、Llama3-70B-Instruct に基づくクローズド ソース モデルやオープン ソース モデル、その他の分割統治戦略 (LongAgent や Chain-of-Agents) よりも優れており、平均スコアは最高 68.66 です。

さらに、LLMxMapReduce フレームワークは優れた汎用性を示し、Qwen2-72B および MiniCPM3 と組み合わせると優れた結果を達成しています。

研究者らは、コンテキスト信頼度キャリブレーションと構造化通信プロトコルがフレームワークのパフォーマンスに与える影響を分析し、実験ではこれら2つのメカニズムを段階的に削除しました。実験結果によると、コンテキスト信頼度キャリブレーションメカニズムを削除すると、すべてのタスクでパフォーマンスが低下することが示されました。これら2つのメカニズムがなければ、パフォーマンスは大幅に低下するでしょう。これらの結果は、LLMxMapReduceフレームワークにおいてこれら2つのメカニズムが重要な役割を果たしていることを示しています。

100万のコンテキストから針を探す - すべて緑色

Needle-in-a-haystack(干し草の山の中の針)は、大規模モデルの分野で広く用いられているテストであり、大規模言語モデルが長文テキストを処理する際に特定の事実を識別する能力を評価するものです。LLMxMapReduceフレームワークの極めて長いテキスト処理におけるパフォーマンスを評価するため、研究者らはNeedle-in-a-haystackテストのテキスト長を128万トークンまで拡張しました。

テスト結果はすべて緑色を示しました。

実験結果では、LLMxMapReduce メソッドを使用する Llama3-70B-Instruct が最大 1280K トークンの長さのシーケンスを効果的に処理できることが示されており、フレームワークの超長シーケンスを処理する優れた能力が実証されています。

研究者らは、長文テキスト処理における様々な手法の応答速度を評価するため、それぞれ128Kトークンを含む20個のテストサンプルを用いて速度実験を実施しました。その結果、LLMxMapReduceはセグメント化された並列処理をより効果的に活用しているため、標準的な128Kモデルのデコードよりも高速であることが示されました。

さらに、構造化通信プロトコルとコンテキスト信頼性キャリブレーション メカニズムはフレームワークの並列推論に影響を与えないため、LLMxMapReduce は、同様の分割統治フレームワークである LongAgent や Chain-of-Agents と比べて速度面で大きな利点があります。

論文リンク: https://arxiv.org/pdf/2410.09342 Github リンク: https://github.com/thunlp/LLM... InfiniteBench: https://github.com/OpenBMB/In...