グラフィックカード1枚で映画1本分を理解できる、超長時間動画理解モデルが新たに開発されました！干し草の山から針を見つけるような95%近くの精度を実現し、コードがオープンソース化されました。

大規模なモデルを使用した 1 時間のビデオを理解するには、80 GB のグラフィックカードが 1 枚だけ必要です。

北京人工知能研究院（BAAI）は、上海交通大学、中国人民大学、北京大学、北京郵電大学など複数の大学と協力し、最新の成果である超長時間ビデオを理解するためのVideo-XLモデルを発表しました。

言語モデル (LLM) のネイティブ機能を活用して長いビジュアルシーケンスを圧縮し、短いビデオを理解する能力だけでなく、長いビデオを理解する際の優れた一般化能力も発揮します。

同様のパラメータサイズを持つモデルと比較すると、Video-XL は、いくつかの主流の長編ビデオ理解ベンチマークにわたって複数のタスクで 1 位にランクされています。

さらに、効率とパフォーマンスの良好なバランスを実現し、 2048 フレームの入力 (1 時間のビデオサンプル) を処理するのに必要なのは 80 GB のビデオメモリを搭載したグラフィックカードのみで、ビデオの「海の中の針」タスクでほぼ 95% の精度を実現します。

図 1: 単一の 80G グラフィックカード上のさまざまな長時間ビデオモデルでサポートされる最大フレームレートと、Video-MME でのパフォーマンス。

長編ビデオの理解は、マルチモーダル大規模モデルの中核機能の 1 つであり、汎用人工知能 (AGI) に向けた重要なステップであることを理解することが重要です。

しかし、既存のマルチモーダル大規模モデルは、10 分を超える超長時間のビデオを処理する際に、パフォーマンスの低下と効率の低下という二重の課題に直面しています。

Video-XL はこの目的のために作成され、すべてのモデルコードはオープンソース化されています。

今後は、映画の要約、動画の異常検出、広告配置の検出などのシナリオで幅広い応用価値を発揮し、強力な長時間動画理解アシスタントとなることが期待されます。

非常に長いビデオを扱う場合、パフォーマンスと効率のバランスを取るのは困難です。

MLLMを用いた長時間動画理解は、研究と応用において大きな可能性を秘めています。しかしながら、現在の動画理解モデルは比較的短い動画しか扱えず、10分を超える動画は扱えません。

最近、研究コミュニティではいくつかの長時間ビデオ理解モデルが登場していますが、これらの研究は主に次の問題を抱えています。

視覚トークンの圧縮による情報損失：言語モデルの固定ウィンドウ長を、長時間の動画から生成される大量の視覚トークンに適応させるため、多くの手法で視覚トークンを圧縮するメカニズムの設計が試みられてきました。例えば、LLaMA-VIDは主にトークン数を削減し、MovieChatとMALMMはフレーム情報を圧縮するためのメモリモジュールを設計しています。しかし、視覚情報を圧縮すると、必然的に情報損失とパフォーマンスの低下を招きます。

パフォーマンスと効率性のトレードオフ：関連研究 LongVA は言語モデルを微調整することでコンテキストウィンドウを拡大し、短い動画の理解能力を長い動画に一般化することに成功しました。LongVila は長い動画の学習オーバーヘッドを最適化し、効率的な長い動画学習のためのパラダイムを提案しています。しかし、これらの研究では、推論中の動画フレーム数の増加によって生じる計算オーバーヘッドは考慮されていません。

統一されたビジュアルコーディングメカニズムを確立する

モデル構造

△図2：Video-XLモデル構造図

図 2 に示すように、Video-XL の全体的なモデル構造は、主流の MLLM のモデル構造と似ており、視覚エンコーダー (CLIP)、視覚言語マッパー (2 層 MLP)、および言語モデル (Qwen-7B) で構成されています。

特別なのは、 Video-XL がさまざまな形式 (単一画像、複数画像、ビデオ) のマルチモーダルデータを処理するための統一されたビジュアルエンコーディングメカニズムを確立していることです。

複数画像および動画データの場合、各フレームは個別にCLIPに入力されます。単一画像の場合は、複数の画像ブロックに分割され、画像ブロックがCLIPに入力されてエンコードされます。したがって、Nフレームの動画またはN個の画像ブロックを含む画像は、N×M個のビジュアルトークンとして均一にタグ付けされます。

視覚的文脈潜在空間圧縮

従来の長時間ビデオモデルは視覚トークンを直接圧縮していましたが、Video-XLは言語モデルのコンテキストモデリング機能を利用して、長時間の視覚シーケンスをロスレス圧縮しようと試みています。視覚言語コネクタから出力される視覚信号シーケンスについては、以下のようになります。

ここで、nは視覚トークンの数です。Video-XLの目標は、Xをよりコンパクトな視覚表現C（|C| < |X|）に圧縮することです。視覚コンテキスト潜在空間圧縮の原理については、以下で詳しく説明します。

アクティベーションビーコンに着想を得て、Video-XLはVisual Summarization Tag (VST)と呼ばれる新しい特殊タグを導入しました。これはと表記されます。これに基づいて、視覚信号の隠れた特徴をLLM内のVSTのアクティベーション表現（各レイヤーのキーと値）に圧縮することができます。具体的には、視覚信号シーケンスXはまずサイズwのウィンドウに分割されます（デフォルトのウィンドウ長は1440です）。

次に、各ウィンドウについて、まず圧縮率が決定され、VSTトークンのセットがビジュアルトークンシーケンスに交互に挿入されます。このプロセスにおけるビジュアルトークン表現の変化は、次の式で表すことができます。

LLMは各ウィンドウを順次エンコードし、各自己注意モジュール内の追加の投影行列を用いてVSTの隠れ値を処理します。エンコード後、通常の視覚マーカーの活性化値は破棄されますが、VSTの活性化値は保持され、後続のウィンドウを処理する際に視覚信号プロキシとして蓄積されます。

モデルのトレーニング方法

Video-XLは、圧縮された視覚信号下で生成品質を最適化するように学習されます。次のトークンの予測は、以下の式を用いて計算されます。

ここで、θ は、言語モデル、ビジュアルエンコーダー、ビジュアル言語コネクタ、VST 射影行列、VST トークン埋め込みなど、モデルのすべての最適化パラメータを表します。モデルは、標準的な自己回帰損失を最小化するように学習されます。VST タグ（ラベルが -100 に設定されているもの）の損失は、圧縮にのみ使用されるため、学習中には計算されません。さらに、異なる圧縮粒度に柔軟に対応するため、学習中の各ウィンドウの圧縮率は {2, 4, 8, 12, 16} からランダムにサンプリングされます。推論時には、特定の効率要件に基づいて圧縮率を選択し、すべてのウィンドウに適用できます。

モデルトレーニングデータ

Video-XLは、事前学習フェーズでLaion-2Mデータセットを用いて視覚言語コネクタを最適化します。微調整フェーズでは、Video-XLは様々なマルチモーダルデータセットでMLLMの機能をフル活用します。単一画像データには、Bunnyから695,000枚の画像とSharegpt-4oから57,000枚の画像を使用しました。複数画像データには、MMDUから抽出された5,000個のデータポイントを使用しました。動画データには、NExT-QAから32,000個のサンプル、Sharegpt-4oから2,000個の動画サンプル、CinePileから10,000個のサンプル、GPT-4V動画キャプションアノテーション付きの11,000個のプライベートデータセットなど、様々な長さの動画サンプルが収集されました。

長時間動画の理解を深め、視覚圧縮メカニズムの可能性を解き放つため、本研究では、自動化された長時間動画データ生成ワークフローを開発し、高品質のデータセットであるVisual Cue Sequence Data (VICO) を作成します。このワークフローではまず、CinePileデータまたはYouTubeなどの動画プラットフォームから、映画、ドキュメンタリー、ゲーム、スポーツなどのオープンドメインコンテンツを網羅した長時間動画を取得します。各長時間動画は14秒のクリップに分割されます。各クリップについて、本研究ではVILA-1.5 40Bモデルを用いて詳細な説明を生成します。これらの説明には、アクションシーケンスと主要なイベントが含まれており、これらのキャプションに基づいて、ChatGPTを用いてキューを時系列にランク付けします。VICOデータセットは、モデルにキーフレームの取得と時間的変化の検出を要求することで、長時間動画の理解を強化します。

単一タスクでGPT-40を超える

（a）評価基準

Video-XLは、いくつかの主要なビデオ理解ベンチマークを使用しています。長時間ビデオ理解タスクでは、VNBench、LongVideoBench、MLVU、Video-MMEを評価し、短時間ビデオ理解タスクでは、MVBenchとNext-QAを評価します。

（II）評価結果

1. 長い動画を理解する:

△ 表2 VNBenchとLongVideoBenchにおけるVideo-XLのパフォーマンス

表1と表2に示すように、Video-XLはいくつかの主要な長編動画ベンチマークにおいて優れた性能を示しています。特に、VNBenchにおける精度は、現在の最高の長編動画モデルを約10%上回っています。

MLVU検証セットでは、わずか7つのパラメータを持つVideo-XLが、単一選択タスクにおいてGPT-4oモデルを上回るパフォーマンスを示しました。さらに、Video-MMEやLongVideoBenchなどのデータセットにおいても、Video-XLは同規模の長編動画理解モデルの中でトップの成績を収めました。

2. 非常に長い動画を理解する:

Video-XLは、「干し草の山の中の針」のようなビデオテストを実施し、極めて長いコンテキストの処理能力を評価しました。LLaVA-NexT-VideoとLongLLaVAはどちらも単純な位置推定アルゴリズムを採用していましたが、より多くのコンテキストが与えられた場合、重要な情報を理解するのに依然として苦労しました。

LongVAはLLMを微調整することでより長い入力に対応しますが、計算コストが高いため、80Gb/sのGPU1基で約400フレーム/秒の処理能力しか発揮できません。一方、Video-XLは、同じハードウェア条件下で、 16倍の圧縮率と2048フレーム/秒の入力で約95%の精度を達成しています。これは、Video-XLが精度と計算効率の最適なバランスを実現していることを示しています。

3. 短い動画を理解する:

Video-XLは主に長編動画向けに設計されていますが、短編動画の理解能力も備えています。MVBenchおよびNext-QAタスク評価において、Video-XLは現在の最先端（SOTA）モデルに匹敵する結果を達成しました。

（III）アブレーション実験

△ 表3 Video-XLのアブレーション実験

Video-XL は、表 3 に示すように、提案された視覚圧縮メカニズムと VICO データセットに対してアブレーション実験を実施しました。

1. 視覚的圧縮の有効性：

Video-XLは、Bunny 695kデータセットを用いて2つのモデルを学習しました。1つは圧縮なし、もう1つはランダムな圧縮率（{2, 8, 16}から選択）を適用したモデルです。圧縮モデルについては、ビデオベンチマークMLVUと画像ベンチマークMMEおよびMMBeenでのテスト中に、異なる圧縮率を適用しました。注目すべきは、圧縮率が16であっても、圧縮モデルは良好なパフォーマンスを示し、ベースラインモデルに迫り、あるいはそれを凌駕していることです。

2. VICOデータセットの妥当性:

Video-XLは、異なるデータセットを用いて4つのモデルをトレーニングしました。(a) Bunny 695kのみ、(b) Bunny 695kとNeXTQA 32kの組み合わせ、(c) Bunny 695kとCinePile 10kの組み合わせ、(d) Bunny 695kと5kの長尺動画キャプションの組み合わせ、(e) Bunny 695kとVICO 5kの組み合わせです。注目すべきは、5kのVICOデータセットのみを使用した場合でも、Video-XLはNeXTQA 32kでトレーニングしたモデルよりも優れたパフォーマンスを示したことです。さらに、メインイベント/アクションランキングタスクでは、モデルが長いシーケンスから重要なセグメントを抽出して理解するように促されたため、キャプション生成タスクよりも大幅な改善が見られました。

(iv) 可視化結果

図3は、長時間ビデオ理解タスクにおけるVideo-XLの視覚化結果を示しています。

現在、Video-XL モデルのコードはオープンソースであり、世界中のマルチモーダルビデオ理解研究コミュニティ内でのコラボレーションとテクノロジの共有を促進しています。

論文リンク: https://arxiv.org/abs/2409.14485 モデルリンク: https://huggingface.co/sy1998..._XL プロジェクトリンク: https://github.com/VectorSpac...

618ZXW