|
7Bサイズの最新鋭(SOTA)動画理解モデルが登場! これは、DAMO アカデミーが制作した、画像を中心に構築された新世代のマルチモーダル ビデオ言語モデルであるVideo LLaMA 3です。 一般的なビデオ理解、時間的推論、長時間ビデオ理解という 3 つのコア次元の評価において、VideoLLaMA 3 はほとんどのベースライン モデルを上回る優れた結果を達成しました。 さらに、エッジサイド処理に適した2Bサイズの Video LLaMA 3 は、画像理解においても非常に優れたパフォーマンスを発揮します。 文書/グラフ/シーンのテキスト理解、数学的推論、複数画像の理解、常識的な質問への回答など、複数の次元を網羅したベンチマークテストでは、InfoVQA におけるこれまでの最高パフォーマンスを上回り、MathVista の数学的推論タスクで大きな優位性を獲得しました。 VideoLLaMA 3 の画像中心の設計哲学は、モデル アーキテクチャとトレーニング プロセス全体に適用されます。 高品質な画像とテキストデータを活用して動画理解の強固な基盤を築き、わずか3Mの動画とテキストデータを使用することで、同数のパラメータを持つオープンソースモデルを総合的に凌駕する動画理解機能を実現します。 オンラインでプレイ可能現在、VideoLLaMA 3 は HuggingFace で画像とビデオの理解のデモを提供しています。 たとえば、モナリザの絵を与えて、VideoLLaMA 3 に質問します。 この絵画が芸術界に与えた歴史的影響と重要性について議論してください。 VideoLLaMA 3 の回答は次のとおりです。 モナ・リザは世界で最も有名な絵画の一つであるだけでなく、美術史においても極めて重要な作品です。ルネサンス期に制作されたこの作品は、当時の人文主義と古典学問の復興を反映しています。色彩やトーンをぼかして滑らかな変化を生み出すなど、レオナルド・ダ・ヴィンチの革新的な技法は、この絵画に神秘的な雰囲気を醸し出しています。何世紀にもわたり、モナ・リザは人々を魅了する題材であり、数え切れないほどの解釈と分析を促してきました。西洋文化の象徴として、芸術的達成の頂点と、時代や文化を超えた観客にとっての視覚芸術の揺るぎない魅力を象徴しています。 動画理解デモを見てみましょう。私たちの質問は次のとおりです。 このビデオの何が珍しいのでしょうか? これに対して、VideoLLaMA 3 は次のように述べました。 このビデオが珍しいのは、典型的な野生動物であるクマが、テーブルで寿司を食べるなど、人間のような行動をしているところを映している点です。 VideoLLaMA 3 の回答は非常に簡潔かつ正確でした。 さらに、このデモはHuggingFaceで非常に簡単に使用できます。画像またはビデオをアップロードして質問するだけです。 どうやってそれをやったんですか?VideoLLaMA 3 の鍵となるのは、画像中心のトレーニング パラダイムであることです。 このパラダイムには主に 4 つの重要な要素が含まれます。
フレームワーク設計の観点から見ると、主に 2 つの部分が含まれます。 1 つ目は、任意解像度のビジュアル トークン化 (AVT)です。 この方法は、絶対位置埋め込みの代わりに 2D-RoPE を使用することで従来の固定解像度の制限を打ち破り、ビジュアル エンコーダーがより多くの詳細を保持しながらさまざまな解像度の画像やビデオを処理できるようにします。 2 つ目は、 Differential Frame Pruner (DiffFP)です。 ビデオ データの冗長性の問題に対処するために、隣接するフレーム ピクセル空間間の 1 ノルム距離を比較することによって冗長なビデオ マーカーが削減され、ビデオ処理の効率が向上し、計算要件が削減されます。 フレームワークに加えて、高品質のデータも VideoLLaMA 3 のパフォーマンスに重要な役割を果たします。 最初のステップは、高品質の画像再注釈データセット VL3Syn7M を構築することです。 VideoLLaMA 3 に高品質のトレーニング データを提供するために、チームは 700 万個の画像とキャプションのペアを含む VL3Syn7M データセットを構築しました。
2 番目のステップは、異なるトレーニング フェーズ間でのデータの混合です。 VideoLLaMA 3の様々なトレーニングフェーズを通して、データ融合戦略により、モデルは豊富な学習シナリオを利用できました。さらに、チームは統一されたデータ構成形式を採用することで、全てのトレーニングフェーズにおける一貫性を確保しました。
シーン画像は、VL3-Syn7M-short などの幅広いソースから取得され、Object365 および SA-1B データセットの導入によりデータの多様性が増大しています。シーン テキスト画像は BLIP3-OCR から取得され、そのテキスト コンテンツと簡単な再注釈がキャプションとして使用されています。ドキュメント画像は pdfa-eng-wds および idl-wds から選択され、ドキュメントのテキスト コンテンツが読み取り順に画像キャプションとして使用されています。 ビジョンと言語の調整: この段階では、シーン画像、シーンテキスト画像、ドキュメント、グラフ、細分化されたデータ、大量の高品質のプレーンテキスト データなど、高品質のデータを使用してモデルを微調整します。 シーン画像は複数のデータセットから統合され、再注釈が付けられます。シーンのテキスト画像にはさまざまな中国語と英語のデータセットが含まれ、LAION データセットの画像はフィルター処理されて Laion-OCR データセットが形成されます。このデータセットのキャプションには、テキストの内容とテキストの位置の境界ボックス注釈が含まれています。 一般的なデータセットに加えて、ドキュメント イメージには手書きの複雑なドキュメント データセットも含まれます。チャート データは、量は少ないものの、Chart-to-Text データセットから取得されます。きめ細かいデータには、領域キャプション データと境界キャプション データが含まれており、モデルによる画像の詳細の理解が強化されます。 マルチタスクの微調整: 複数のタスクをカバーするためにデータが混在し、データに従って指示を微調整します。 画像データは、一般、文書、グラフ/グラフィック、OCR、ローカリゼーション、複数画像の6種類に分類され、それぞれが視覚理解の特定の側面に焦点を当てています。また、大量のプレーンテキストデータも含まれており、視覚入力とテキスト入力の両方を含む指示に従うタスクを処理するモデルの能力を強化しています。 ビデオデータは、一般的に使用されている高品質のビデオキャプションデータセット、少量の質問と回答データ、VideoLLaMA2 の内部データおよび内部時間位置データと組み合わされ、モデルのビデオ理解機能を強化します。 ビデオ中心の微調整: この段階では、モデルのビデオ理解機能の向上、複数のオープンソース データセットからの注釈付きビデオ データの収集、特定の側面に関する高密度のキャプションと質問と回答のペアの合成によるデータ規模の拡大に重点が置かれます。 さらに、ストリーミング ビデオの理解と時間的な位置決め機能が導入され、一定量の純粋な画像と純粋なテキスト データを使用して、モデルの壊滅的な忘却問題が軽減されます。 論文とデモのリンクは以下にあります。ご興味のある方はぜひご覧ください。 論文リンク: https://arxiv.org/abs/2501.13106 GitHub プロジェクト アドレス: https://github.com/DAMO-NLP-S... 画像理解デモ: https://huggingface.co/spaces... ビデオチュートリアルデモ: https://huggingface.co/spaces... HuggingFace ウェブサイト: https://huggingface.co/collec... |