618ZXW

短編動画の限界を打ち破る!MMBenchチームは、中編から長編動画向けのオープンQ&Aベンチマークを構築し、マルチモーダル大規模モデルの動画理解能力を総合的に評価しました。

GPT-4o の 4 月の発表イベントはビデオ理解への関心の高まりを巻き起こし、オープンソースのリーダーである Qwen2 もビデオ分野で容赦なく活動し、さまざまなビデオベンチマークでその実力を披露しました。

ただし、現在のほとんどの評価ベンチマークには、次のような欠点が残っています。

  • 短い動画に重点が置かれすぎていて、動画の長さや動画ショット数が不十分なため、モデルの長期的な時間的理解能力を評価することが困難になっています。
  • モデルの評価は比較的単純なタスクに限定されており、よりきめ細かい機能はほとんどのベンチマークではカバーされていません
  • 既存のベンチマークでは、単一のフレーム画像に基づいて高いスコアを取得できるため、問題は画像の時間的な順序とあまり関係がないことがわかります。
  • 自由形式の質問の評価では、依然として古い GPT-3.5 が使用されていますが、これは人間の好みに対して大きな偏りがあり、正確ではなく、モデルのパフォーマンスを過大評価する傾向があります。

これらの問題に効果的に対処できる対応するベンチマークはありますか?

最新の NeurIPS D&B 2024 では、浙江大学が上海人工知能実験室、上海交通大学、香港中文大学と共同で提案した MMBench-Video が、包括的なオープンビデオ理解ベンチマークを作成し、現在主流の MLLM 向けのオープンソースビデオ理解機能評価リストを構築しました。

高品質のデータセットをカバーする完全な機能チェーン

動画理解ベンチマークであるMMBench-Videoは、完全に手動のアノテーションを採用し、1回のアノテーションと2回の品質チェックを実施します。多種多様な高品質動画と包括的な質問応答機能を備えており、質問に正確に回答するためには、モデルが時間軸全体にわたって情報を抽出する必要があるため、モデルの時間理解能力をより適切に評価できます。

他のデータセットと比較して、MMBench-Video には次の主な機能があります。

動画の長さは幅広く、ショット数も様々で​​す。収集された動画の長さは30秒から6分までと幅広く、短すぎる動画は意味情報が単純になり、長すぎる動画は評価に多くのリソースを消費するという問題を回避しています。同時に、動画のショット数は概ねロングテールに分散しており、1本の動画には最大210ショットが含まれており、豊富なシーン情報とコンテキスト情報が含まれています。

包括的な能力テスト、知覚と推論の本格的な挑戦:モデルのビデオ理解能力は、主に知覚推論の2つの部分で構成されており、それぞれをさらに洗練させることができます。MMBenchに着想を得て、ビデオ理解に関わる特定の能力と組み合わせることで、研究者は26のきめ細かな能力を含む包括的な能力スペクトルを確立しました。それぞれのきめ細かな能力は、数十から数百の質問と回答のペアを用いて評価され、既存のタスクの集合ではありません。

このデータセットは、人文科学、スポーツ、科学・教育、食品、金融など16の主要分野を網羅し、豊富な種類の動画と多様な質疑応答形式を特徴としています。各分野の動画は5%以上を占めています。さらに、従来のVideoQAデータセットと比較して、質疑応答のペアの長さと意味の豊かさがさらに向上し、「何を」「いつ」といった単純な質問形式に限定されなくなりました。

優れた時間独立性と高品質なアノテーション:本研究では、ほとんどのVideoQAデータセットは、動画の1フレームから正確な回答を生成するのに十分な情報を取得できることが判明しました。これは、動画内のフレーム間の変化が小さい、動画のショット数が少ない、あるいは質問と回答のペアの品質が低いことが原因である可能性があります。研究者たちは、このような状況をデータセットの時間独立性が低いと呼んでいます。対照的に、MMBeck-Videoは、アノテーション時の詳細なルール制約と質問と回答のペアの二次検証により、時間独立性が大幅に低く、モデルの時間理解能力をより適切に評価できます。

主流のマルチモーダル大規模モデルのパフォーマンスレポート

複数のモデルのビデオ理解パフォーマンスをより包括的に評価するために、MMBench-Video は、11 の代表的なビデオ言語モデル、6 つのオープンソースの大規模グラフテキスト マルチモーダル モデル、および GPT-4o など 5 つのクローズド ソース モデルを選択し、包括的な実験分析を行いました。

すべてのモデルの中で、GPT-4o はビデオ理解において非常に優れたパフォーマンスを発揮し、Gemini-Pro-v1.5 も優れたモデルパフォーマンスを示しました。

驚くべきことに、既存のオープンソースのグラフテキスト・マルチモーダル大規模モデルは、MMBenc-Video上で動画・質問・回答のペアを用いて微調整された動画言語モデルよりも優れた性能を示しました。最優秀グラフテキストモデルであるVILA1.5は、最優秀動画モデルであるLLaVA-NeXT-Videoを、総合的な性能で約40%上回りました。

さらに調査を進めたところ、テキスト画像モデルがビデオ理解において優れたパフォーマンスを発揮する理由は、静的な視覚情報をより精緻に処理する能力が優れているためである可能性があることが明らかになりました。一方、ビデオ言語モデルは静止画像に対する認識と推論の性能が不十分であり、より複雑な時間的推論や動的なシーンを扱う際には苦戦を強いられます。

この差は、既存のビデオモデルの空間的および時間的理解、特に長時間のビデオコンテンツを扱う際の時間的推論能力に重大な欠陥があることを明らかにしており、これらの領域の改善は喫緊の課題です。さらに、テキストベースモデルが複数フレーム入力に対する推論においてパフォーマンスを向上させていることは、ビデオ理解領域へのさらなる拡張の可能性を示唆しています。一方、ビデオモデルがこのギャップを埋めるには、より広範なタスクにわたる学習強化が必要です。

ビデオの長さとショット数は、モデルのパフォーマンスに影響を与える重要な要素であると考えられます

実験結果によると、動画の長さが長くなるにつれて、GPT-4oはマルチフレーム入力で性能が低下するのに対し、InternVL-Chat-v1.5やVideo-LLaVAなどのオープンソースモデルは比較的安定した性能を維持しています。動画の長さと比較して、ショット数はモデル性能により大きな影響を与えます

動画ショット数が50を超えると、GPT-4oのパフォーマンスは元のスコアの75%に低下します。これは、ショットの頻繁な変更によりモデルが動画の内容を理解するのが困難になり、パフォーマンスが低下することを示しています。

さらに、MMBench-Video はインターフェースを通じてビデオの字幕情報も取得し、テキストを通じてオーディオ モダリティを導入しました。

導入後、このモデルのビデオ理解におけるパフォーマンスは大幅に向上しました。音声信号と映像信号を組み合わせることで、モデルは複雑な質問に正確に答えることができました。この実験結果は、キャプション情報の追加がモデルの文脈理解能力を大幅に向上させることを示しています。特に長時間のビデオタスクにおいては、音声モダリティの情報密度がモデルに多くの手がかりを提供し、より正確な回答を生成するのに役立ちます。ただし、音声情報はモデルのパフォーマンスを向上させる可能性がある一方で、幻覚的なコンテンツを生成するリスクも高める可能性があることに注意する必要があります。

審査モデルの選択に関しては、実験により、GPT-4 はより公平で安定した採点能力、操作に対する強い耐性を持ち、その採点が自身の回答に偏っていないため、人間の審査員との整合性が高いことが示されています。

対照的に、GPT-3.5は過剰にスコアリングする傾向があり、結果が歪む可能性があります。一方、Qwen2-72B-Instructなどのオープンソースの大規模言語モデルは、優れたスコアリングポテンシャルを示しており、人間の評価との優れた整合性を示し、効率的なモデル評価ツールとしての可能性を証明しています。

ワンクリック評価にはVLMEvalKitを使用する

MMBench-Video は、VLMEvalKit 内でのワンクリック評価をサポートするようになりました。

VLMEvalKitは、大規模視覚言語モデルの評価に特化したオープンソースツールキットです。様々なベンチマークを用いて大規模視覚言語モデルをワンクリックで評価できるため、面倒なデータ準備が不要になり、評価プロセスが簡素化されます。VLMEvalKitは、テキスト-画像マルチモーダルモデルやビデオマルチモーダルモデルの評価に適しており、単一ペアテキスト-画像入力、インターリーブテキスト-画像入力、ビデオ-テキスト入力をサポートしています。70以上のベンチマークを実装しており、画像キャプション作成、視覚的質問応答、画像キャプション生成など、様々なタスクをカバーしています。サポートされるモデルとベンチマークは継続的に更新されています。

一方で、既存のビデオマルチモーダルモデルの評価結果が断片的で再現が困難であることを認識し、チームはこれらのモデルの包括的なビデオ理解パフォーマンスベンチマークであるOpenVLMビデオリーダーボードも構築しました。OpenCompass VLMEvalKitチームは、最新の大規模マルチモーダルモデルと評価ベンチマークを継続的に更新し、主流でオープンかつ便利なオープンソースのマルチモーダル評価システムを構築していきます。

結論として、MMBench-Video は、ビデオ理解タスク用に設計された新しい長時間ビデオ、マルチカメラ ベンチマークであり、幅広いビデオ コンテンツときめ細かな機能評価をカバーしています。

このベンチマークには、YouTubeから収集された600本以上の長編動画が含まれており、ニュースやスポーツなど16の主要カテゴリを網羅しています。MMBeen-Videoは、従来の動画質疑応答ベンチマークとは異なり、長編動画と人間による高品質な注釈付き質疑応答ペアを導入することで、時間理解と複雑なタスク処理における既存ベンチマークの欠点を克服しています。

モデルの応答を評価する GPT-4 ベンチマークは、より高い評価精度と一貫性を示し、ビデオ理解の分野でモデルを改善するための強力なツールを提供します。

MMBench-Video のリリースにより、研究者や開発者に強力な評価ツールが提供され、オープンソース コミュニティがビデオ言語モデルをより深く理解し、最適化できるようになります。

論文リンク: https://arxiv.org/abs/2406.14515 Github リンク: https://github.com/open-compa... ホームページ: https://mmbench-video.github.io/ MMBench-Video リーダーボード: https://huggingface.co/spaces...\_video\_leaderboard