|
大規模モデルのメモリ制限が解消され、実質的に「無限に長い」コンテキストが可能になります。 この最新の成果は、清華大学、厦門大学などが共同で提案したLLMxMapReduce 長文テキストフレーム分割処理技術によるものです。 LLMxMapReduce テクノロジーは、長いコンテキストを複数のセグメントに分割し、モデルが複数のセグメントを並列に処理し、異なるセグメントから重要な情報を抽出して、それらを最終的な答えに集約できるようにします。 特に、研究チームは、セグメント間情報のより効率的な処理を実現するために、構造化された通信プロトコルとコンテキスト信頼度キャリブレーションメカニズムを提案しました。この技術は、大規模モデルのメモリ制限を打破し、コンテキスト長を安定的かつ無制限に拡張することを可能にします。 LLMxMapReduceテクノロジーは、長文テキストを扱う大規模モデルのパフォーマンスを向上させる強力なツールとして活用できます。大規模モデルの長文テキスト処理能力を全体的に向上させる効果があり、テキスト長が長くなっても安定したパフォーマンスを維持し、長文テキストのスコア低下を軽減できます。 たとえば、LLMxMapReduce フレームワークを組み合わせた Llama3-70B-Instruct x MapReduce モデルは、Kimi や GPT-4 などのよく知られたクローズド ソースおよびオープン ソース モデル、および Llama3-70B-Instruct に基づくその他の分割統治法 (LongAgent および Chain-of-Agents) よりも優れたパフォーマンスを発揮します。 さらに、LLMxMapReduce フレームワークは優れた汎用性を示し、Qwen2-72B および MiniCPM3 と組み合わせると優れた結果を達成しています。 無限長テキストのためのLLMxMapReduce技術原理ビッグデータ分野において、MapReduceは水平方向にスケーラブルなデータ処理機能を備えた分散並列プログラミングフレームワークです。MapReduceに体現された「分割統治」の考え方に着想を得て、研究者たちはLLMxMapReduceと呼ばれる、分割統治戦略を採用した大規模モデル向けの長文テキスト処理フレームワークを設計しました。 最近、LongAgentやChain-of-Agentsといった、同様の分割統治型長文テキスト処理手法が登場しています。長文文書全体を一度に処理するモデルと比較すると、この種の分割統治型長文テキスト処理には長所と短所の両方があります。 その主な利点はスケーラビリティにあり、モデル自体のウィンドウ サイズによって制限されず、理論的には任意の長さの入力をサポートできます。 主な欠点は、長く完全な文書を複数のセグメントに分割すると、セグメント間の重要な情報が失われる可能性があることです。これにより、モデルは単一のセグメントに基づいて情報の流れを「中断」し、誤った結論を導き出します。チームの分析によると、セグメント化の影響を受ける情報は、以下の2つのカテゴリーに分類されます。
これら 2 種類の問題に対処するために、LLMxMapReduce は次のソリューションを設計しました。
LLMxMapReduce メソッドのフローチャートを以下に示します。これは、 Map 、 Collapse 、およびReduceの 3 つのステージに分かれています。 まず、長いテキストを複数の小さなセグメントに分割し、それらを並行して処理して効率を向上させる必要があります。 次に、マップ フェーズでは、各フラグメントが大規模なモデルを使用して分析され、上記の構造化通信プロトコルが適用され、抽出された情報が後続の処理のために構造化された形式に統合されます。 次に、Collapseフェーズでは、すべてのフラグメントの合計長がモデルの最大処理限界を超える場合、モデルは複数の構造を1つの構造に圧縮してコンテキスト長を短縮します。矛盾する情報を処理する場合、モデルは統合の信頼度を考慮します。 最後に、Reduceフェーズでは、モデルは圧縮された情報に基づいて最終的な答えを要約します。得られた答えの正確性を確保するために、信頼度の高い結果を優先します。 上記のワークフローを通じて、LLMxMapReduce は長いテキストをより効率的に処理し、セグメンテーションによる情報の損失や誤った結論を回避し、最終結果の精度を向上させることができます。 大規模モデルの長文スコアリングツールLLMxMapReduce テクノロジーの有効性を検証するために、研究者は、業界をリードする長文テキスト ベンチマーク InfiniteBench (最長テキストが 2,000k トークンを超える包括的なベンチマーク) でさまざまなモデルを評価しました。 研究者たちは、3つの異なる基準で方法を比較しました。 クローズドソースモデル: これにはGPT-4、Claude 2、Kimi-Chatが含まれます。GPT-4とClaude 2のスコアは元のInfiniteBenchデータに基づいていますが、Kimi-Chatのスコアは再測定されています。 オープンソースモデル: これには、YaRN-Mistral、Yi-6B-200K、Yi-34B-200K、Qwen2-72B-Instructが含まれます。YaRN-Mistral、Yi-6B-200K、Yi-34B-200KのスコアはInfiniteBenchのオリジナルデータに基づいていますが、Qwen2-72B-Instructのスコアは自己測定によるものです。 その他の分割統治ベースの長いテキスト処理フレームワーク: これにはLongAgentとChain-of-Agentsが含まれます。これら2つの分割統治フレームワークの違いは、セグメント間の情報をどのように処理するかにあります。 LongAgentは、セグメント間の競合を処理するためのリーダーエージェントを構築します。異なるチャンクが異なる答えを出す場合、リーダーエージェントは競合するセグメントの再読み取りを組織化し、最終的な答えを導き出します。 この反復的な読み取りメカニズムは大きな時間オーバーヘッドを引き起こし、LongAgentの通信内容は比較的単純であるため、リーダーエージェントの競合処理能力が制限されます。対照的に、LLMxMapReduceの構造化された通信プロトコルには、はるかに豊富な情報が含まれています。 Chain-of-Agents は、各チャンクを 1 つずつ順番に読み取ることで、テキスト全体を読み取ります。 競合情報は明示的に処理されないため、後続のチャンクによって履歴チャンク内の重要な情報が上書きされる可能性があります。一方、LLMxMapReduceは、キャリブレーションされた信頼度を利用することで、セグメント間の競合をより適切に処理します。 具体的な実験結果は次のとおりです。 ご覧のとおり、LLMxMapReduce フレームワークと組み合わせると、Llama3-70B-Instruct x MapReduce は、Llama3-70B-Instruct に基づくクローズド ソース モデルやオープン ソース モデル、その他の分割統治戦略 (LongAgent や Chain-of-Agents) よりも優れており、平均スコアは最高 68.66 です。 さらに、LLMxMapReduce フレームワークは優れた汎用性を示し、Qwen2-72B および MiniCPM3 と組み合わせると優れた結果を達成しています。 研究者らは、コンテキスト信頼度キャリブレーションと構造化通信プロトコルがフレームワークのパフォーマンスに与える影響を分析し、実験ではこれら2つのメカニズムを段階的に削除しました。実験結果によると、コンテキスト信頼度キャリブレーションメカニズムを削除すると、すべてのタスクでパフォーマンスが低下することが示されました。これら2つのメカニズムがなければ、パフォーマンスは大幅に低下するでしょう。これらの結果は、LLMxMapReduceフレームワークにおいてこれら2つのメカニズムが重要な役割を果たしていることを示しています。 100万のコンテキストから針を探す - すべて緑色Needle-in-a-haystack(干し草の山の中の針)は、大規模モデルの分野で広く用いられているテストであり、大規模言語モデルが長文テキストを処理する際に特定の事実を識別する能力を評価するものです。LLMxMapReduceフレームワークの極めて長いテキスト処理におけるパフォーマンスを評価するため、研究者らはNeedle-in-a-haystackテストのテキスト長を128万トークンまで拡張しました。 テスト結果はすべて緑色を示しました。 実験結果では、LLMxMapReduce メソッドを使用する Llama3-70B-Instruct が最大 1280K トークンの長さのシーケンスを効果的に処理できることが示されており、フレームワークの超長シーケンスを処理する優れた能力が実証されています。 研究者らは、長文テキスト処理における様々な手法の応答速度を評価するため、それぞれ128Kトークンを含む20個のテストサンプルを用いて速度実験を実施しました。その結果、LLMxMapReduceはセグメント化された並列処理をより効果的に活用しているため、標準的な128Kモデルのデコードよりも高速であることが示されました。 さらに、構造化通信プロトコルとコンテキスト信頼性キャリブレーション メカニズムはフレームワークの並列推論に影響を与えないため、LLMxMapReduce は、同様の分割統治フレームワークである LongAgent や Chain-of-Agents と比べて速度面で大きな利点があります。 論文リンク: https://arxiv.org/pdf/2410.09342 Github リンク: https://github.com/thunlp/LLM... InfiniteBench: https://github.com/OpenBMB/In... |
清華大学、厦門大学などは「無制限のロングコンテキスト」技術を提案し、すべてのスコアが緑色で干し草の山から針を見つけることが可能になり、Llama、Qwen、MiniCPMのスコアが向上しました。
関連するおすすめ記事
-
QwQ-32B のレビューとユーザー ガイドが登場しました。
-
徹底分析 | 李菲菲:AGIとは何か分からない
-
3 つの大型モデルがチームを組んで O1 に挑戦しました。実際のテストでは、360 を超えるモデルが協力してプロンプト ワード プロジェクトを排除しました。
-
科学研究のためのAI検索が登場!Zhihuの直接的な回答が、正規の学術論文データベースと統合され、直接テストできるようになりました。
-
クロード3.7が生き返った!OpenAIモデルをこっそりと自分に置き換えたんだ。Capasi:これまでで一番面白いシーンだね!
-
1キロメートルあたり30セント、12万元から、長安バージョンのSong Proが発売中です!