DAMOアカデミーがVideoLLaMA3をオープンソース化：わずか7Bのサイズで最先端のビデオ理解を実現

7Bサイズの最新鋭（SOTA）動画理解モデルが登場！

これは、DAMO アカデミーが制作した、画像を中心に構築された新世代のマルチモーダルビデオ言語モデルであるVideo LLaMA 3です。

一般的なビデオ理解、時間的推論、長時間ビデオ理解という 3 つのコア次元の評価において、VideoLLaMA 3 はほとんどのベースラインモデルを上回る優れた結果を達成しました。

さらに、エッジサイド処理に適した2Bサイズの Video LLaMA 3 は、画像理解においても非常に優れたパフォーマンスを発揮します。

文書/グラフ/シーンのテキスト理解、数学的推論、複数画像の理解、常識的な質問への回答など、複数の次元を網羅したベンチマークテストでは、InfoVQA におけるこれまでの最高パフォーマンスを上回り、MathVista の数学的推論タスクで大きな優位性を獲得しました。

VideoLLaMA 3 の画像中心の設計哲学は、モデルアーキテクチャとトレーニングプロセス全体に適用されます。

高品質な画像とテキストデータを活用して動画理解の強固な基盤を築き、わずか3Mの動画とテキストデータを使用することで、同数のパラメータを持つオープンソースモデルを総合的に凌駕する動画理解機能を実現します。

オンラインでプレイ可能

現在、VideoLLaMA 3 は HuggingFace で画像とビデオの理解のデモを提供しています。

たとえば、モナリザの絵を与えて、VideoLLaMA 3 に質問します。

この絵画が芸術界に与えた歴史的影響と重要性について議論してください。
この絵画が芸術界に与えた歴史的影響と重要性について議論してください。

VideoLLaMA 3 の回答は次のとおりです。

モナ・リザは世界で最も有名な絵画の一つであるだけでなく、美術史においても極めて重要な作品です。ルネサンス期に制作されたこの作品は、当時の人文主義と古典学問の復興を反映しています。色彩やトーンをぼかして滑らかな変化を生み出すなど、レオナルド・ダ・ヴィンチの革新的な技法は、この絵画に神秘的な雰囲気を醸し出しています。何世紀にもわたり、モナ・リザは人々を魅了する題材であり、数え切れないほどの解釈と分析を促してきました。西洋文化の象徴として、芸術的達成の頂点と、時代や文化を超えた観客にとっての視覚芸術の揺るぎない魅力を象徴しています。

動画理解デモを見てみましょう。私たちの質問は次のとおりです。

このビデオの何が珍しいのでしょうか?
このビデオの何が珍しいのでしょうか?

これに対して、VideoLLaMA 3 は次のように述べました。

このビデオが珍しいのは、典型的な野生動物であるクマが、テーブルで寿司を食べるなど、人間のような行動をしているところを映している点です。

VideoLLaMA 3 の回答は非常に簡潔かつ正確でした。

さらに、このデモはHuggingFaceで非常に簡単に使用できます。画像またはビデオをアップロードして質問するだけです。

どうやってそれをやったんですか？

VideoLLaMA 3 の鍵となるのは、画像中心のトレーニングパラダイムであることです。

このパラダイムには主に 4 つの重要な要素が含まれます。

ビジュアルエンコーダーの適応: ビジュアルエンコーダーが動的な解像度で画像を処理できるようにし、さまざまなシーンの画像でのパフォーマンスを向上させ、細かい視覚的詳細をキャプチャできるようにします。
視覚言語の調整: 豊富な画像とテキストデータによるマルチモーダル理解の基盤を築き、さまざまな種類のデータによる空間推論機能を強化し、モデルの言語機能を保持します。
マルチタスクの微調整: 画像テキストの質問と回答データとビデオのキャプションデータを使用してモデルを微調整し、自然言語の指示に従う能力と複数のモダリティを理解する能力を向上させて、ビデオ理解に備えます。
動画の微調整：モデルの動画理解と質問応答能力を強化します。トレーニングデータには、さまざまな動画、画像、テキストデータが含まれます。

フレームワーク設計の観点から見ると、主に 2 つの部分が含まれます。

1 つ目は、任意解像度のビジュアルトークン化 (AVT)です。

この方法は、絶対位置埋め込みの代わりに 2D-RoPE を使用することで従来の固定解像度の制限を打ち破り、ビジュアルエンコーダーがより多くの詳細を保持しながらさまざまな解像度の画像やビデオを処理できるようにします。

2 つ目は、 Differential Frame Pruner (DiffFP)です。

ビデオデータの冗長性の問題に対処するために、隣接するフレームピクセル空間間の 1 ノルム距離を比較することによって冗長なビデオマーカーが削減され、ビデオ処理の効率が向上し、計算要件が削減されます。

フレームワークに加えて、高品質のデータも VideoLLaMA 3 のパフォーマンスに重要な役割を果たします。

最初のステップは、高品質の画像再注釈データセット VL3Syn7M を構築することです。

VideoLLaMA 3 に高品質のトレーニングデータを提供するために、チームは 700 万個の画像とキャプションのペアを含む VL3Syn7M データセットを構築しました。

アスペクト比フィルタリング：画像のアスペクト比は、モデルによる特徴抽出に影響を与える可能性があります。極端なアスペクト比を持つ画像（横幅が広すぎる、縦長すぎるなど）は、モデルの処理に偏りが生じる可能性があります。フィルタリングにより、データセット内の画像のアスペクト比が標準的な範囲内に収まるようにすることで、後ほど正確な特徴抽出を行うための基盤が築かれます。
美的スコアフィルタリング：このステップでは、美的スコアリングモデルを用いて画像の視覚的品質を評価し、スコアの低い画像を破棄します。視覚効果や構図が劣悪な画像を削除し、ノイズ干渉を低減することで、モデルがより高品質な画像コンテンツと説明を学習できるようにすることで、高品質な説明を生成するモデル能力を向上させます。
粗いキャプションを用いたテキストと画像の類似度計算：まず、BLIP2モデルを用いて画像の初期キャプションを生成します。次に、CLIPモデルを用いてテキストと画像の類似度を計算し、類似度の低い画像を除外します。このプロセスにより、残りの画像コンテンツが説明と密接に関連していることが保証され、モデルによって学習された画像とテキストのペアはより解釈しやすく、より代表的なものになります。
視覚特徴クラスタリング：この手法では、CLIP視覚モデルを用いて画像から視覚特徴を抽出し、k近傍法（KNN）アルゴリズムを用いてクラスタリングを行います。クラスタリングでは、各クラスタの中心から一定数の画像が選択されます。これにより、データセットの多様性と意味カテゴリのバランスの取れた分布が確保され、モデルを様々な種類の視覚コンテンツに適用することで、汎化能力が向上します。
画像の再キャプション：フィルタリングおよびクラスタリングされた画像にラベルを付け直します。短いキャプションはInternVL2-8Bによって生成され、詳細なキャプションはInternVL2-26Bによって生成されます。モデルの多様な学習ニーズに対応するため、学習段階ごとに異なる種類のキャプションが使用されます。

2 番目のステップは、異なるトレーニングフェーズ間でのデータの混合です。

VideoLLaMA 3の様々なトレーニングフェーズを通して、データ融合戦略により、モデルは豊富な学習シナリオを利用できました。さらに、チームは統一されたデータ構成形式を採用することで、全てのトレーニングフェーズにおける一貫性を確保しました。

ビジョンエンコーダの適応：この段階では、モデルの多様なシーン理解と特徴抽出能力の向上を目指します。トレーニングデータには、シーン画像、文書認識画像、そして少数のシーンテキスト画像が統合されています。

シーン画像は、VL3-Syn7M-short などの幅広いソースから取得され、Object365 および SA-1B データセットの導入によりデータの多様性が増大しています。シーンテキスト画像は BLIP3-OCR から取得され、そのテキストコンテンツと簡単な再注釈がキャプションとして使用されています。ドキュメント画像は pdfa-eng-wds および idl-wds から選択され、ドキュメントのテキストコンテンツが読み取り順に画像キャプションとして使用されています。

ビジョンと言語の調整: この段階では、シーン画像、シーンテキスト画像、ドキュメント、グラフ、細分化されたデータ、大量の高品質のプレーンテキストデータなど、高品質のデータを使用してモデルを微調整します。

シーン画像は複数のデータセットから統合され、再注釈が付けられます。シーンのテキスト画像にはさまざまな中国語と英語のデータセットが含まれ、LAION データセットの画像はフィルター処理されて Laion-OCR データセットが形成されます。このデータセットのキャプションには、テキストの内容とテキストの位置の境界ボックス注釈が含まれています。

一般的なデータセットに加えて、ドキュメントイメージには手書きの複雑なドキュメントデータセットも含まれます。チャートデータは、量は少ないものの、Chart-to-Text データセットから取得されます。きめ細かいデータには、領域キャプションデータと境界キャプションデータが含まれており、モデルによる画像の詳細の理解が強化されます。

マルチタスクの微調整: 複数のタスクをカバーするためにデータが混在し、データに従って指示を微調整します。

画像データは、一般、文書、グラフ/グラフィック、OCR、ローカリゼーション、複数画像の6種類に分類され、それぞれが視覚理解の特定の側面に焦点を当てています。また、大量のプレーンテキストデータも含まれており、視覚入力とテキスト入力の両方を含む指示に従うタスクを処理するモデルの能力を強化しています。

ビデオデータは、一般的に使用されている高品質のビデオキャプションデータセット、少量の質問と回答データ、VideoLLaMA2 の内部データおよび内部時間位置データと組み合わされ、モデルのビデオ理解機能を強化します。

ビデオ中心の微調整: この段階では、モデルのビデオ理解機能の向上、複数のオープンソースデータセットからの注釈付きビデオデータの収集、特定の側面に関する高密度のキャプションと質問と回答のペアの合成によるデータ規模の拡大に重点が置かれます。

さらに、ストリーミングビデオの理解と時間的な位置決め機能が導入され、一定量の純粋な画像と純粋なテキストデータを使用して、モデルの壊滅的な忘却問題が軽減されます。

論文とデモのリンクは以下にあります。ご興味のある方はぜひご覧ください。

論文リンク: https://arxiv.org/abs/2501.13106

GitHub プロジェクトアドレス: https://github.com/DAMO-NLP-S...

画像理解デモ: https://huggingface.co/spaces...

ビデオチュートリアルデモ: https://huggingface.co/spaces...

HuggingFace ウェブサイト: https://huggingface.co/collec...

618ZXW

DAMOアカデミーがVideoLLaMA3をオープンソース化：わずか7Bのサイズで最先端のビデオ理解を実現 | オンラインでプレイ可能

オンラインでプレイ可能

どうやってそれをやったんですか？

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ