|
VideoRoPEチームの提出 量子ビット | WeChat公式アカウント QbitAI Llama で使用される RoPE (回転位置埋め込み) はビデオ領域に拡張され、長いビデオの理解と検索がより強力になりました。 復旦大学、上海 AI ラボなどが VideoRoPE を提案し、RoPE をビデオに効果的に適用するために必要な 4 つの重要な特性を特定しました。 VideoRoPE は、長いビデオの検索、ビデオの理解、ビデオの錯覚など、さまざまなダウンストリーム タスクにわたって、一貫して以前の RoPE バリアントよりも優れたパフォーマンスを発揮します。 3次元構造を用いた時空間関係の保存 RoPE は、相対的な位置情報の依存性を自己注意に統合し、トランスフォーマー アーキテクチャのパフォーマンスを向上できる位置エンコーディング方式です。 RoPE とその変種は、長いコンテキスト処理機能を備えているため広く採用されていますが、1 次元の RoPE を複雑な時空間構造を持つビデオ領域に拡張することは、依然として未解決の課題です。 分析の一環として、本研究では、V-NIAH タスクに周期的な外乱項を追加する難しい V-NIAH-D (Visual Needle in a Haystack with Disturbance) タスクを導入しています。 V-NIAH-D課題は、適切な時間的次元割り当てを欠く従来のRoPEバリアントが、妨害刺激によって容易に誤誘導されることを実証した。この分析に基づき、著者らは時空間関係を保持するように設計された3次元構造を持つVideoRoPEを提案した。 VideoRoPE の機能には、定期的な衝突を軽減するための低周波時間割り当て、空間対称性を維持するための対角レイアウト、時間的インデックスと空間インデックスを切り離すための調整可能な時間間隔が含まれます。 左の図: 周波数割り当ての重要性を説明するために、VIAH (a) に基づいて、類似した画像を干渉として挿入する、より困難な V-NIAH-D タスク (b) を提案しています。 右の図: M-RoPE と比較すると、VideoRoPE は検索においてより堅牢であり、妨害要因による干渉の影響を受けにくくなります。 上の画像は、M-RoPE の時間次元がローカル情報に制限され、対角線のレイアウトになっていることを示しています。 下の画像は、VideoRoPE が検索に時間ディメンションを効果的に活用する方法を示しています。 M-RoPEは対象画像の位置特定には効果的ですが、多肢選択問題ではパフォーマンスが低下します。これは、主に時間的特徴ではなく垂直位置のエンコーディングに基づいて画像の位置特定を行うためです。その結果、時間的次元では長距離の依存関係を捉えることができず、局所的な情報に重点が置かれてしまいます。一方、空間的次元では長距離の意味情報を捉えるため、M-RoPEは周波数割り当て設計においてパフォーマンスが低下します。(VideoRoPE設計) 著者らは、時間的モデリングを優先し、振動を低減し、低周波時間割り当て(LTA)によって堅牢性を確保するビデオ位置埋め込み戦略であるVideoRoPEを提案する。VideoRoPEは、空間的対称性を維持するために対角線レイアウト(DL)を採用し、時間間隔を制御するために調整可能時間間隔(ATS)を導入する。VideoRoPEは時空間情報を効果的にモデル化し、堅牢なビデオ位置表現を実現する。 1. 低頻度時間割り当て(LTA): ヘッド次元が128で、64個の回転角度θnが複数の次元に分散されたRoPEベースのLLMを考えてみましょう。各図では、青い平行平面がcos(θnt)の3次元表現を表しています。 (a) M-RoPEでは、時間依存性は最初の16個の高周波回転角度でモデル化されるため、位置情報の振動や歪みが生じます。低次元における短い間隔と振動の周期性により、離れた位置でもハッシュ衝突(赤い平面で示す)と同様に類似した情報を持つ可能性があり、干渉を引き起こし、モデルを誤導する可能性があります。 (b) 対照的に、VideoRoPEは最後の16回転角度までの時間依存性をモデル化し、結果としてより広い単調区間を実現します。時間モデリングは振動の影響を受けなくなり、干渉項による誤解を招く影響を大幅に抑制します。2. 対角線レイアウト(DL): オリジナルの1D RoPE (Su et al., 2024) には空間モデリングが含まれていませんでした。M-RoPE (Wang et al., 2024b) は3D構造を採用しながらも、異なるフレーム間で視覚タグインデックスに差異が生じました。 対照的に、VideoRoPEは、元のRoPEの一貫したインデックス増加パターンを維持しながら、空間モデリングを導入することでバランスを実現しています。その利点としては、1) 視覚マーカーの相対位置を維持し、テキストマーカーがコーナーに近づきすぎないようにすること、2) 元のRoPEエンコード形式を維持しながら、隣接フレーム間の空間位置情報の増分がテキストマーカーの増分と一致することなどが挙げられます。 3. 調整可能な時間間隔(ATS) 時間インデックスをスケーリングするために、著者らはスケーリング係数δを導入し、視覚タグとテキストタグ間の時間情報を整合させました。τをタグインデックスとすると、開始テキスト(0 ≤ τ)は… 終了テキスト(Ts+Tv≤τ) ここで、w と h はそれぞれフレーム内の視覚ブロックの水平インデックスと垂直インデックスを表します。 隣接するテキストマーカーの位置情報の埋め込みは、バニラRoPE(上段)、対応する視覚マーカーは隣接フレームに埋め込まれるM-RoPE(中段)、そして時間軸を後から配置し、水平方向と垂直方向をずらした配置を採用した設計のVideoRoPE(下段)で採用されています。これは他のRoPEバリアントよりも優れています。 長時間のビデオ検索タスク: 著者らは、VideoRoPEとその他のRoPEバリアントのV-NIAHおよびV-NIAH-Dにおけるパフォーマンスを実証しました。V-NIAH-DはV-NIAHよりも難易度が高いです。Vanilla RoPEとTAD-RoPEは視覚トレーニングコンテキスト外である程度の外挿能力を示しますが、限界を超えると失敗します。対照的に、VideoRoPEとM-RoPEはテストコンテキスト内で優れたパフォーマンスを発揮し、VideoRoPEはM-RoPEを一貫して上回り、より強力な堅牢性を示しています。 長いビデオ理解タスク: 表に示すように、著者らは3つの長時間動画理解ベンチマークにおいて、VideoRoPEを既存のRoPEバリアント(Vanilla RoPE、TAD-RoPE、M-RoPE)と比較しました。VideoRoPEはこれらのベンチマークにおいて全てのベースライン手法を上回り、その堅牢性と適応性を実証しました。LongVideoBench、MLVU、Video-MMEでは、64kコンテキスト長においてVideoRoPEはM-RoPEをそれぞれ2.91、4.46、1.66ポイント上回り、長距離依存性の捕捉と高度な動画タスク処理における優れた能力を示しました。 ビデオイリュージョンミッション: VideoHallucerベンチマークにおいて、著者らのVideoRoPEは既存のRoPE手法を大幅に上回る性能を示しました。特に時間錯覚タスクにおいて、VideoRoPEは29.5%の改善を達成し、時間依存性の捕捉能力の向上と、動的なビデオシーケンスの処理への適合性を示しました。空間的には、VideoRoPEは物体関係錯覚タスクにおいて18.0%の改善を達成し、複雑な空間的相互作用を識別する能力を際立たせています。これらの結果は、VideoRoPEのビデオ錯覚問題に対する堅牢性と、実用化への可能性を強調しています。 要約 本論文では、効果的な位置符号化のための4つの重要な基準、すなわち2D/3D構造、周波数割り当て、空間対称性、そして時間的インデックススケーリングを特定しています。著者らはV-NIAH-D課題を用いて、従来のRoPEバリアントが適切な時間割り当ての欠如により干渉の影響を受けやすいことを実証しています。 そこで、時空間の一貫性を維持するための3D構造、振動を低減するための低周波時間割り当て、空間対称性を実現するための対角線レイアウト、そして調整可能な時間間隔を導入したVideoRoPEが提案されました。VideoRoPEは、長時間動画検索、動画理解、動画錯覚タスクにおいて、他のRoPEバリアントよりも優れた性能を発揮します。 論文: https://arxiv.org/pdf/2502.05173 プロジェクトページ: https://wiselnn570.github.io/... コード: https://github.com/Wiselnn570... |
Llama が使用する RoPE にビデオ バージョンが追加され、長いビデオを理解して検索するための優れたパートナーになりました。
関連するおすすめ記事
-
上海AIラボからO1のLlamaバージョンが公開されました。強化学習コードはオープンソースで、AlphaGo Zeroパラダイムに基づいています。
-
AppleのAIバックグラウンドプロンプトが明らかに。エンジニアが警告:妄想はやめよう!事実を捏造しないで!
-
Datawhaleと若者のための学術バー
-
AWS は自動車パートナーと協力し、ソフトウェア定義車両の変革を推進します。
-
「なぜ最も強力なオープンソース CPU は中国製なのか?」シリコンバレーの著名なインフルエンサーがこの考えさせられる質問を投げかけ、50 万人のオンライン視聴者の注目を集めました。
-
マスク氏、一夜にして1兆ドルを稼ぎ出す!テスラは第3四半期に大成功を収める:46万台を納車、新型モデルYが上海で生産ラインから出荷されたと報道。