618ZXW

どのモデルも合格しませんでした! 北京大学/先端技術通信研究所は、特に長いテキストの理解と生成を評価するための非常に難しいベンチマークを提案しています。

驚いたことに、長いテキストの理解という点では、大規模なモデルはどれもテストに合格しませんでした。

北京大学は、北京総合人工知能研究所と共同で、大規模言語モデル(LLM)の長期コンテキスト理解能力をテストおよび評価するために特別に設計された新しいベンチマークデータセット「LooGLE 」を提案しました。

このデータセットは、LLM の長いテキストを処理および取得する能力と、長距離テキスト依存関係をモデル化および理解する能力の両方を評価できます。

結果は驚くべきものでした。評価の結果、これらのモデルは、特に複数情報の検索、時間的な並べ替え、計算、推論といった複雑で長期依存性のあるタスクではパフォーマンスが低いことが明らかになりました。

たとえば、Claude3-200k、GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex などの商用モデルの平均精度はわずか 40% です。

そしてオープンソース モデルのパフォーマンスはさらに理想的とは言えません…

ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K の平均精度はわずか 10% です。

この論文はACL 2024に採択されました。

論文の共同筆頭著者は北京大学通信情報技術研究所の李佳琦氏と王孟蒙氏であり、責任著者は北京大学通信情報技術研究所研究員の鄭子龍氏と北京大学人工知能研究所助教授の張牧漢氏である。

LooGLEベンチマーク

LooGLE ベンチマーク テストの主な機能は次のとおりです。

まず、最近収集された約 800 の非常に長い文書が含まれており、平均で約 20,000 語 (既存の同様のデータセットの 2 倍の長さ) です。これらの文書から、さまざまなドメインとカテゴリからの 6,000 のタスク/問題が再生成され、LooGLE が構築されました。

現在、LLM による長いテキストの処理と記憶、およびテキストの長距離依存性をモデル化して理解する能力の両方を評価できるデータセットは存在しません。

LooGLE データセットは 7 つの主要なタスク カテゴリで構成され、LLM が短期および長期の依存コンテンツを理解する能力を評価するように設計されています。

チームは、理解と推論、計算、タイムラインの並べ替え、複数情報の検索、要約を含む5 種類の長期依存タスクを設計しました。

1,100件を超える高品質な長依存関係の質問と回答のペアが、長依存関係の要件を満たすよう、手作業によるアノテーションによって綿密に生成されました。これらの質問と回答のペアは厳密な相互検証を受け、大規模言語モデル(LLM)の長依存関係能力を正確に評価することができました。

LooGLE ベンチマーク データセットには 2022 年以降に公開されたテキストのみが含まれており、事前トレーニング段階でのデータ漏洩を最小限に抑え、タスクを完了するために記憶された事実や知識の蓄積に頼るのではなく、コンテキストから学習する大規模モデルの能力をテストします。

ベンチマークのテキストは、arXiv 論文、Wikipedia 記事、映画やテレビの脚本など、学術、歴史、スポーツ、政治、芸術、イベント、エンターテイメントなどの分野を網羅する、広く認知されているオープンソース ドキュメントから作成されています。

長文理解における長期質問応答タスク生成

この研究では、研究チームは約 100 人の注釈者を組織し、約 1,100 個の実際の長期依存関係のある質問と回答のペアを手動でコンパイルしました。これらのペアは、複数情報の検索、時間の並べ替え、計算、理解推論という 4 つの長期依存関係のあるタスクのカテゴリに分類されました。

マルチ情報検索:従来の短期検索タスクとは大きく異なり、このタスクでは特定の質問に答えるために、通常、テキスト全体から複数の手がかりや証拠を収集する必要があります。このタスクでは、長いテキスト全体に広く散在する関連する証拠や手がかりを検索・抽出し、それらを要約して最終的な答えに到達することが求められます。

計算:前のタスクと同様に、このタスクではまず、広範なテキストから複数の情報を取得し、数量、頻度、期間、特定の年などの関連する数値を抽出する必要があります。正確な答えを得るには、これらの数値も計算する必要があります。このプロセスは、長期的な文脈情報を抽出する高い能力に依存し、ある程度の数学的推論を必要とします。

時間順序の並べ替え:このタスクでは、「以下の出来事の時系列を並べ替えてください」という指示と、一連のイベント記述を含んだ大規模なモデルを入力します。目標は、これらのイベントを長いテキスト内での出現順序に従って時系列順に並べ替えることです。このタスクを成功させるには、文書の主要なストーリーラインを抽出して理解する必要があり、モデルが時間的認識を持つことが求められます。

理解推論:このタスクでは、モデルが長い文脈に散在する証拠を活用し、質問を深く理解し、答えを推論する必要があります。最も一般的な質問パターンは、因果関係、影響、貢献、態度、そして様々な出来事に関連する基本的な属性に関するものです。さらに、質問が証拠の重要性、意義、最も高い、あるいは最も重要な側面を中心に展開される場合、より広範な比較と評価が必要になります。このタスクの答えは、多くの場合、原文からは明らかではありません。通常、固有のつながりや依存関係をモデル化するために、複雑な分析プロセスを経て答えを導き出す多段階の推論が必要です。

実験分析

より包括的かつ汎用的なパフォーマンス評価を行うため、LooGLEは意味的類似性に基づくメトリクスを採用し、GPT4を判断基準として、人間による評価を評価尺度として用います。LooGLEでは、9つの最先端の長文LLM(OpenAIとAnthropicの商用モデル、複数の主流オープンソースベースモデルを微調整した長文モデル、外部メモリモジュールを用いた検索強化モデルを含む)の評価を実施し、以下の主要な知見が得られました。

  • ビジネス モデルはオープン ソース モデルよりも大幅に優れています。
  • LLM は、短い依存関係のタスク (短い質問への回答や空欄補充タスクなど) では優れたパフォーマンスを発揮しますが、より複雑な長い依存関係のタスクではパフォーマンスが低下します
  • CoT (Mind Chain) は、長いコンテキストの理解においてわずかな改善をもたらすだけです。
  • 検索ベースの技術は短い質問への回答において明らかな利点を示しますが、最適化された Transformer アーキテクチャまたは位置エンコーディングを通じてコン​​テキスト ウィンドウの長さを拡張する戦略は、長いコンテキストの理解において限定的な改善しか提供しません。

△LooGLEにおける各LLMの長文読解能力

△ LooGLE短距離質問応答におけるさまざまなモデルのパフォーマンス

△ LooGLE短距離質問応答におけるさまざまなモデルのパフォーマンス

△異なるコンテキストウィンドウが長距離質問応答パフォーマンスに与える影響

△ 4つの異なるタイプの長距離質問応答における異なるモデルのパフォーマンス

したがって、LooGLE は、長期コンテキスト LLM の体系的かつ包括的な評価スキームを提供するだけでなく、「真の長期コンテキスト理解」を実現するための強化モデルの将来的な開発のための洞察も提供します。

論文リンク: https://arxiv.org/abs/2311.04939 データリンク: https://huggingface.co/datase... コードリンク: https://github.com/bigai-nlco...