618ZXW

マルチモーダル大規模モデルの事実の正確性評価: O1 が最も強力ですが、モデルは一般に自信過剰であり、現代の建築/エンジニアリング/科学で最高のパフォーマンスを発揮します。

OpenAI o1 は依然として最も強力な視覚機能を備えています。モデルは一般に「自信過剰」です。

この結果は、事実の知識を重視した中国語初の視覚的質問回答ベンチマークである ChineseSimpleVQAから得られたものです。

このベンチマークテストには、人文科学から理工学まで、複数の分野を網羅する8つの主要トピックと56のサブトピックを網羅した2,200問の高品質な問題が含まれています。Taotian GroupのFuture Living Labチームによって開発されました。

報道によると、これは大規模な視覚モデルの事実の正確性を体系的に測定し、モデルの視覚認識能力と各分野の知識レベルを総合的に検出できる中国初の評価セットだという。

中国の SimpleQA と中国の SafetyQA の導入に続き、Taotian Group のアルゴリズム技術 Future Life Lab チームは、マルチモーダル大規模モデル向けの事実知識評価ベンチマークを再度提案しました。

最終的なデータセットは、1100 枚の画像と 2200 の質問と回答のペアで構成されています。

中国語の SimpleVQA は、視覚的な事実性を 2 つの部分に分離する厳密なデータ構築プロセスに貢献します。

  • 世界を観察する(すなわち、主題の特定)
  • 知識を発見する

この分離方法により、大規模なマルチモーダル モデルの知識の境界と実行メカニズムの分析が容易になります。

具体的には、中国語SimpleQAの構造は、主に自動質問回答ペア生成と品質管理の2つの段階に分かれています。

最初の段階では、QA が生成されます。

事実の知識に基づいた視覚的な質問と回答のペアを作成するために、研究者はウィキペディアの「今日の写真」セクションから、平均723語の長さの百科事典のテキストに対応する画像とテキストのペアを6,546組収集しました。

質問と回答のペアの構築には、主に次の 3 つのプロセスが含まれます。

  • オブジェクト認識問題: 画像内の主なオブジェクトを識別し、関連する質問をします。
  • 知識質問の生成: 識別されたオブジェクトの百科事典テキストに基づいて、より詳細な知識質問が提案されます。
  • 統合された質問応答: 視覚的な質問と知識ベースの質問を統合して、複雑な 2 ホップの質問を形成します。

質問と回答のペアを自動生成する場合、質問は画像情報のみに基づくこと、回答は一意かつ明示的であること、回答は事実の知識とその難易度に基づくことなどの要件に従う必要があります。

同時に、各画像の最初と最後の質問と回答のペアを最終評価セットとして保持する必要があります。

第二段階は品質管理です。

自動検証が含まれます。

研究チームは、生成された質問と回答のペアを検証し、基準を満たさない質問を再生成またはフィルタリングするための複数ラウンドの自動化方法を開発しました。

このプロセスを通じて、合計 5,009 枚の画像と 10,018 個の適格な質問と回答のペアが保持されました。

フィルタリングが困難です

ベンチマークの難易度と認識モデルの知識境界を高めるために、著者らは単純な問題を除外しました。

具体的には、GPT-4o (0806)、Claude 3.5 Sonnet、Gemini 1.5 Pro、Qwen-VL-Max の 4 つの強力なモデルすべてで質問に正しく回答できる場合、その質問は単純すぎると判断され、除外されます。

このステップでは、3,058 枚の画像と 6,116 の質問と回答のペアが保持されました。

手動検証。

データは 23 人の注釈者によって検証および書き換えられ、質問と回答のペアが基準を満たしていることを確認しました。また、6 人のエンジニアがデータをレビューおよび審査し、高品質を確保しました。

主な作業は、1) 基準を満たさない質問または回答の検証と書き直し、2) 不適切な画像や代表的でない画像の置き換え、3) 検索エンジンによる回答の正確性の検証です。基準を満たさない回答は削除されます。

このステップでは、手動による注釈と自動検証の間で完全に一致する質問と回答のペアのみが保持されます。

データの匿名化

データのセキュリティを確保するため、研究者らは最終的なデータセットを 6 人のセキュリティ監査人に提出し、包括的なレビューを受けました。各データは少なくとも 2 人の監査人によって相互チェックされ、レビューに合格したデータのみが保持されました。

上記の処理を経て、最終的に1100枚の画像と2200の質問と回答のペアが最終データセットとして選択されました。

o1-previewが最も優れたパフォーマンスを発揮した

ベンチマークが構築された後、チームは 13 個のクローズドソース モデルと 21 個のオープンソース モデルの包括的な評価と分析を実施し、それぞれ画像主題認識と知識拡張の問題におけるこれらのモデルのランキングを示しました。

最もパフォーマンスが良いモデルは o1-preview です

結果によると、o1-preview は問題の特定と知識の拡張において最も優れたパフォーマンスを示し、次いで Gemini-2.0-pro-flash、Gemini-1.5-pro の順でした。

中国語能力を重視したモデルの中で、最も目立つのがQwen-VLシリーズです。

さらに、研究チームは次の3つの現象を観察しました。

知識拡張は物体認識よりも困難です。知識拡張問題におけるモデルのパフォーマンスは、認識問題における精度と正の相関関係にあります。さらに、画像認識の精度は通常、画像認識よりも高くなります。これは、一部のモデルは物体を正しく識別できるものの、より深く拡張された知識を獲得する能力には限界があることを示唆しています。

モデルサイズの増加に伴い知識容量が増加:一般的に、同一シリーズ内でモデルサイズが大きいほど、パフォーマンスは向上します。例えば、Qwen2-VLシリーズでは、モデルサイズが2Bから72Bに増加した後、最終問題の正解率は29.0%から50.6%に向上しました。

幻覚の問題は依然として課題です。テストされたモデルのほとんどにおいて、エラー率(IN)が回答を試みない率(NA)を上回りました。これは、モデルが自信を持って誤った情報を提供する傾向が強いことを示しています。幻覚の問題は、マルチモーダル大規模モデルの分野において依然として重要な課題です。

一方、研究テストでは、 ChinesesimpleVQA は評価の堅牢性を備えており、異なる評価モデルを使用した場合でも、テスト対象モデルのランキングは安定していることが示されています (評価モデルとテスト対象モデルが同じ場合でも)。

以下は研究結果の抜粋です。

あなたはどのタイプの知識が得意ですか?

Chinese Simple VQA の問題では通常、より専門的な知識が必要となり、モデルの知識の深さもテストされます。

下の画像は、8 つのトピックにわたるトップ 10 ランキング モデルのパフォーマンスを示しています。

結果によると、これらのモデルは現代建築、工学技術、科学などのトピックでは優れたパフォーマンスを発揮しますが、他のトピックではわずかに劣っています。

もっと足りない能力は何でしょうか?

次の図は、各モデルでエラーが発生するタイミングを分析しています。

結果によると、o1-preview、Gemini-1.5-pro、Caude3.5-sonet2、Qwen-vl-max では、主なエラー発生(50% 以上を占める)は知識拡張段階で発生したことがわかりました。

しかし、他のモデルは画像認識の段階でパフォーマンスが低下し始めました。

私は自信過剰でしょうか?

理想的なキャリブレーション モデルの信頼度レベル (%) は、予測精度と正確に一致する必要があります。

この研究では、質問に答える際にモデルに信頼度レベル(0~100)を提示させることで、モデルの事実の正確性と信頼度レベルの関係を調査しました。

結果によると、o1-preview が最も優れたパフォーマンスを示しました。

しかし全体的には、ほとんどのモデルのパフォーマンスは理想的なアライメント ラインをはるかに下回っており、間違った回答をした場合でもモデルが自信過剰になる傾向があることが示されています。

機能の限界はありますか?

下の図の曲線は、推論の数が増加するにつれて、モデルの回答精度 (Best-of-N) がどのように変化するかを示しています。

ほとんどのモデルでは、1 ~ 30 回の試行の範囲内で、推論の回数に応じて精度が大幅に向上することがわかります。

ただし、推論の数が 30 を超えると、モデルのパフォーマンスは安定する傾向があります。

これは、モデルが継続的な探索を通じて正確な知識を継続的に見つけるのに苦労していることを示しており、モデルの知識能力の限界も表しています。

5つの主な特徴

Chinese SimpleVQA には 5 つの主な特徴があります。

まず、マルチホップ評価。

画像主題の認識と知識評価を含む視覚モデルの知識機能評価手順を分離します。

このマルチホップ評価戦略により、ユーザーは大規模ビジュアルモデル (LVLM) の機能の境界と実行メカニズムを詳細に分析できます。

2番目は多様性です。

評価セットには、「自然」、「科学」、「工学技術」、「人文科学と社会科学」、「生活、文化、芸術」など、8 つの知識カテゴリと 56 のサブトピックをカバーする 2,200 の高品質な質問と回答のペアが含まれています。

3つ目は、高品質です。

ChineseSimpleVQA には、自動検証、難易度スクリーニング、手動検証を含む厳格なビルド プロセスがあります。

合計 23 名のラベリング学生と 6 名のアルゴリズム学生が品質管理を担当し、6 名のセキュリティレビュー担当者がデータリスクレビューを担当しました。

4番目は、静的一貫性です。

ChineseSimpleVQA は永続的に利用可能です。すべての参照回答は時間の経過とともに変更されません。

5番目は、評価が簡単だということです。

すべての質問と回答は、迅速な評価のために短い形式になっています。

さらに、ChineseSimpleVQA は研究者の作業を支援するためにワンクリック評価スクリプトを提供します。

もう一つ

このプロジェクトの中心的な著者には、Gu Jihao、Wang Yingyao、Bu Pi が含まれます。

この研究チームは、Taotian Groupのアルゴリズム技術 - 未来生活研究室から構成されています。この研究室は、大規模モデルやマルチモーダルモデルなどのAI技術に焦点を当て、大規模モデルに関連する基本アルゴリズム、モデル機能、そして様々なAIネイティブアプリケーションの開発に取り組んでいます。

arXiv: https://arxiv.org/pdf/2502.11... https://arxiv.org/abs/2411.07140 https://arxiv.org/abs/2412.15265 プロジェクトホームページ: https://chinesesimplevqa.gith... GitHub: https://github.com/OpenStella...