マルチモーダル長文ドキュメントの新たなベンチマークが登場！理解、推論、ローカリゼーションなど20以上のタスクを網羅し、GPT-4oは辛うじて合格しました。

LongDocURLチーム提供

GPT-4o のスコアはわずか 64.5で、他のすべてのモデルは失敗しました。

評価モデルのマルチモーダルな長文文書理解能力を評価するための包括的かつきめ細かな評価セットが登場しました。

LongDocURLと名付けられたこのツールは、長い文書の理解、数値推論、要素間の位置特定という 3 つの主なタスクを統合し、20 個のサブタスクを含みます。

画像キャプションを追加します（140文字以内）（オプション）

LongDocURL は、マルチモーダルで長いコンテキストのドキュメントに重点を置いており、平均 85.6 ページ、43,622.6 個のドキュメントタグを持つ 50 ～ 150 ページの英語のドキュメントを対象としています。

データの品質も非常に高く、21 人のフルタイムのアウトソーシング注釈者と 6 人の経験豊富な修士課程および博士課程の学生による監督を含む自動モデル検証と手動検証が行われています。

△図1 文書あたりの平均ページ数とテキストタグ数に関する新しいベンチマークと他のデータセットの比較

図 2. 新しいベンチマークと他の文書理解ベンチマークの比較。(U) 理解タスク、(R) 推論タスク、(L) 位置タスク。

この研究は、中国科学院オートメーション研究所の劉成林教授の研究グループと、Taotian Groupのアルゴリズム技術 - 未来生活研究所チームとの共同で完了しました。

画像キャプションを追加します（140文字以内）（オプション）

チームは、マルチモーダル入力やプレーンテキスト入力を含む 26 の構成で、国内外のソースからの主流のオープンソースおよびクローズドソースの大規模モデルを総合的に評価しました。

現在、GPT-4o は評価セットで 1 位にランクされていますが、精度は 64.5% で、かろうじて合格点に達したところです。

画像キャプションを追加します（140文字以内）（オプション）

より包括的かつ詳細な評価タスク分類基準

大規模ビジュアル言語モデル (LVLM) により、ドキュメント理解機能が大幅に向上し、複雑なドキュメント要素、より長いコンテキスト、より広範囲のタスクを処理できるようになります。

ただし、既存のドキュメント理解ベンチマークは、1 ページまたは数ページのドキュメントの処理に限定されており、ドキュメントレイアウト要素を見つけるモデルの能力に関する包括的な分析は提供されていません。

この研究チームは、既存の文書理解ベンチマークのいくつかの限界を指摘しています。

複雑な要素：多くのベンチマークは、段落、見出し、表、グラフなどのすべての要素を網羅しておらず、特定の部分のみに焦点を当てています。さらに、異なる要素間の関係性についてはほとんど議論されていません。
長いコンテキスト：MPDocVQAやDUDEといった、現在利用可能な複数ページ文書を対象とした質問応答ベンチマークは、20ページを超える文書を評価していません。MMLongBench-Docはより長い文書を収集しますが、有効なサンプルは約1,000件しか提供されておらず、質問の約30%のみが複数ページにまたがる情報を含んでいます。
より多様なタスク：既存の研究は、OCRや単純な質問応答タスクに重点を置いており、要素間のローカリゼーションといった他のドメイン能力の探求は軽視されています。これは、既存のベンチマークがモデルの進歩に遅れをとっており、文書理解の発展を阻害する可能性があることを示唆しています。

では、LongDocURL の何が新しく、何が難しいのでしょうか?

チームはまず、3 つの主要なタスクカテゴリを定義しました。

1)理解: キーワードを識別したり、表構造を解析したりして、文書から情報を抽出します。答えは文書内に直接見つかります。

2)数値推論：文書内の数値情報を、数え、計算し、比較し、要約するといった方法で処理します。抽出した情報に基づいてさらに推論することで、正しい答えを導き出すことができます。

3)要素間の位置特定: 研究チームは、異なるタイプの要素間の関係を分析するモデルの能力を評価するためのタスクを確立することが重要であると指摘しましたが、これまでの研究ではこの側面にはほとんど注意が払われていませんでした。

例えば、段落見出しのローカリゼーションタスクでは、モデルは関連する章を要約し、与えられた要約に一致するセクションを特定し、段落と章見出しの関係を判断する必要があります。このタスクでは、応答プロセス中に要素の種類（つまり、段落から見出し）を切り替える必要があります。

△図3. 3種類のタスク質問と回答のペアの模式図。

(上) ドキュメントサンプルのサムネイル。オレンジ色のボックスは回答証拠ページを示しています。(下) ドキュメントから生成されたデータサンプルと回答証拠ページの関連セクションのスクリーンショット。

チームは、さまざまなメインタスクのカテゴリと回答の証拠に基づいて、データセットをさらに 20 のサブタスクに分割しました。

まず、それぞれの質問と回答のペアは、理解、推論、そして位置特定という3つの主要なタスクに分類できます。次に、要素の種類に基づいて4種類の回答証拠が定義されます。

テキスト: 段落などのプレーンテキスト。
レイアウト: タイトル、ヘッダー、フッター、表名、図のタイトルなど、特定のレイアウトの意味を持つ一般化されたテキスト要素。
図: 図表と一般的な画像が含まれます。
テーブル。

さらに、各質問と回答のペアは、回答証拠のページ数に基づいて 1 ページまたは複数ページのカテゴリに分割でき、証拠要素タイプの数に基づいて単一要素または複数要素のカテゴリに分割できます。

△図4 タスク分類システム

内側のリング：主要な課題カテゴリー（理解、推論、場所）ごとに分割されます。中間のリング：解答の根拠となるページ数（単一ページ、複数ページ）と根拠となる要素の種類（要素全体）ごとに分割されます。外側のリング：根拠となる要素の種類（テキスト、表、グラフ、レイアウト）ごとに分割されます。

半自動データ構築プロセス

LongDocURL 評価データセットを効率的かつコスト効率よく構築するために、チームは 4 つのモジュールで構成される半自動プロセスを設計しました。

△図5 施工工程の概要

このプロセスは、(a) 抽出とフィルタリング、(b) QA 生成、(c) 自動検証、(d) 手動検証の 4 つのモジュールで構成されます。

まず、抽出とフィルターモジュールは、さまざまなドキュメントソースから豊富なレイアウトと適切な長さのドキュメントを選択し、Dokmand ツールを使用して「テキスト-タイプ-bbox」の 3 つのシンボルシーケンスを取得します。

次に、QA生成モジュールは、トリプルシンボルシーケンスと強力なモデル (GPT-4o など) に基づく複数ステップの反復プロンプトを通じて、証拠ソースを含む QA ペアを生成します。

最後に、自動検証モジュールと人間による検証モジュールによって、質問と回答のペアの品質が保証されます。

この半自動プロセスを通じて、チームは最終的に 2,325 の質問と回答のペアを生成し、33,000 ページを超える文書をカバーしました。

長文理解能力の総合評価

主な実験

△図6 正規化された精度スコア（0〜1）。

タスクは、理解（U）、推論（R）、位置（L）の3種類に分かれています。エビデンス要素は、プレーンテキスト（TXT）、レイアウト（LAY）、図表と画像（FIG）、表（TAB）の4種類に分かれています。エビデンスのページ数／要素は、シングルページ（SP）、マルチページ（MP）、クロスエレメント（CE）の3種類に分かれています。CTi：クロスヘッダー、CTa：クロステーブル、PTi：サブヘッダー、FTa：チャートテーブル。最高得点のモデルは緑色で強調表示されます。

LVLM に関して、チームは次のような結論に達しました。

（1）最高得点モデル：GPT-4oのみが64.5のスコアで合格しました。これは、LongDocURLが現在のモデルにとって大きな課題であることを示しています。

(2)オープンソースモデルとクローズドソースモデルの比較：クローズドソースモデルは、オープンソースモデルと比較して全体的に優れたパフォーマンスを示しました。オープンソースモデルの中では、Qwen2-VL（スコア30.6）とLLaVA-OneVision（スコア22.0と25.0）のみが20点以上を獲得し、パラメータ数が130億未満の他のモデルは20点未満でした。

テキスト入力と画像入力を使用したモデルのパフォーマンスを比較するために、チームは O1-preview と Qwen2.5 シリーズを追加しました。

実験結果によると、LLM の総合スコアは LVLM のスコアよりも大幅に低く、最高 LLM スコアは最高 LVLM スコアより約 30 ポイント遅れています。

チームの分析により、このギャップは主に、PyMuPDFを用いてプレーンテキストに解析する際に重要な文書構造情報が失われていることが原因であることが明らかになりました。データセットには表やグラフに関連する質問と回答のペアが多数含まれているため、この構造情報の損失はLLMによる重要な証拠の抽出を妨げていました。これらの結果は、LongDocURLがLVLMの文書構造解析能力を評価するためのベンチマークとして重要であることを浮き彫りにしています。

きめ細かな分析結果

チームは 3 つのクローズドソースおよびオープンソースモデルを選択し、ドキュメントソース、タスクカテゴリ、ドキュメント要素、および証拠ページに基づいて、実験結果のより詳細な分析を実施しました。

△図7 細粒度分析

タスクの種類:

(1) 独自のLVLMは推論タスクと定位タスクで同等の性能を示しましたが、画像からテキストへの変換は推論能力に大きな影響を与えました。例えば、テキスト入力に切り替えた際、GPT-4oの推論スコアは31.6ポイント低下し、定位スコアは22.4ポイント低下しました。

(2) 強力なモデルは推論と位置推定において優れたパフォーマンスを発揮する一方、弱いモデルは位置推定において低いパフォーマンスを発揮する。これは、位置推定タスクにおける訓練の焦点は、空間的・論理的関係ではなく、理解と推論能力にあることを示唆している。

ドキュメント要素:

このモデルはテキストベースの質問では最高得点、表ベースの質問では最低得点となり、文書構造解析における欠点が浮き彫りになりました。グラフィックとレイアウトに関する質問では、得点はほぼ同程度でした。要素間タスクの得点は、単一ページQAと複数ページQAの中間に位置し、全体的な評価と密接な相関関係を示しました。

単一ページと複数ページ:

単一ページQAの精度は複数ページQAよりも低い。これは、一部の質問に対する回答を複数ページから収集できるため、難易度が下がることを示唆している。しかしながら、GPT-4oやQwen-VL-Maxなどのモデルは複数ページQAでの精度が低く、これは複数ページQAにおけるローカリゼーションタスクのスコアが低いことと矛盾しており、全体的なパフォーマンスに影響を与えている。

入力方法のアブレーション実験

長い文書の質問への回答に最適な入力形式を探るために、チームは 2 つの画像入力パラダイムと 2 つのテキスト入力パラダイムでアブレーション実験を実施しました。

画像入力パラダイムには、（1）カットオフ（主な実験の構成）、および（2）マージ（元の文書の長さ（50〜150）からの文書画像を20〜30枚の新しい画像に結合する）が含まれます。

研究チームは、PyMuPDFの解析中に表構造情報が大幅に削減されたのに対し、Dokmindで解析したMarkdown形式の表テキストは高い構造的整合性を維持していることを観察しました。失われた構造情報がモデルのパフォーマンスに与える影響を評価するため、研究チームはDokmindで解析したテキスト入力とPyMuPDFで解析したテキスト入力の2種類の入力タイプで実験を行いました。

△図8 入力法を用いたアブレーション実験

テキスト入力と画像入力: 切り捨てパラダイムのスコアは、テキスト入力-pymupdf パラダイムのスコアよりも高いですが、テキスト入力-docmind パラダイムのスコアよりも低いため、この方法はテーブル構造情報を効果的に抽出できますが、さらに改善できる可能性があります。

切り捨て vs. マージ：マージ手法は複数の画像を連結することでより多くの文脈ラベルを保持しますが、切り捨て手法はコンテキストウィンドウを短縮することで事前情報を効果的に取得します。実験結果は、切り捨てがマージよりも優れた問題解決能力を生み出す可能性があることを示しており、将来のマルチモーダル検索拡張生成（RAG）システムの構築に向けた知見を提供します。

構造情報の影響：独自モデルの場合、Dokmindを使用するとPyMuPDFよりも少なくとも25ポイント優れたパフォーマンスが得られますが、オープンソースモデルの場合はその差は15ポイントです。テーブル構造情報が不足しているため、オープンソースモデルと独自モデルの両方においてパフォーマンスが著しく低下します。

ケーススタディ

（a）証拠の虚偽の情報源

△図9 例1

（b）証拠源の欠落

△図10 例2

例サンプル

理解

△図11 QAの理解例

推論

△図12 推論QAの例

位置特定

△図13 QAの配置例

論文リンク: https://arxiv.org/abs/2412.18424 プロジェクトのホームページ: https://longdocurl.github.io/ データセット: https://huggingface.co/dataset...

618ZXW

マルチモーダル長文ドキュメントの新たなベンチマークが登場！理解、推論、ローカリゼーションなど20以上のタスクを網羅し、GPT-4oは辛うじて合格しました。

より包括的かつ詳細な評価タスク分類基準

半自動データ構築プロセス

長文理解能力の総合評価

主な実験

きめ細かな分析結果

入力方法のアブレーション実験

ケーススタディ

例サンプル

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ