2時間の映画を4秒で視聴！Alibabaが汎用マルチモーダル大規模モデル「mPLUG-Owl3」をリリース

アリババチームの新たな成果：2時間の映画を4秒で視聴 - 公式発表。

複数画像や長時間動画の理解に特化した汎用マルチモーダル大型モデル「mPLUG-Owl3」を発売しました。

具体的には、LLaVA-Next-InterleaveをベースにしたmPLUG-Owl3は、モデルのFirst Token Latencyを6倍短縮し、単一のA100でモデル化できる画像数を8倍の400枚にまで増加させました。実際のテストでは、2時間の映画を4秒で視聴できます。

つまり、モデルの推論効率が大幅に向上したことになります。

さらに、モデルの精度が犠牲になることはありません。

mPLUG-Owl3 は、多数のベンチマークにわたって、単一画像、複数画像、ビデオ領域を含むマルチモーダル大規模モデルを伴うさまざまなシナリオ全体で最先端 (SOTA)のパフォーマンスも達成しました。

この論文の著者は、マルチモーダル大規模モデル基盤の開発に深く関わり、これまでに以下の提案を行っているAlibaba の mPLUG チームのメンバーです。

高効率マルチモーダルベース mPLUGシリーズ
モジュラーマルチモーダル大規模言語モデルベースmPLUG-Owlシリーズ
文書理解ベース mPLUG-DocOwl シリーズ

新しく発売されたmPLUG-Owl3がもたらす最先端技術を見てみましょう。

ゲームプレイのロック解除

チームは、mPLUG-Owl3 のいくつかの一般的な使用方法を実演しました。

マルチモーダル検索の強化

一般的に、モデルが学習していない知識は、検索システムを通じて補完するのが一般的です。そのためには、モデルが入力されたマルチモーダルな知識を正確に理解し、それを用いて質問に答える必要があります。

以下の例では、mPLUG-Owl3は取得した知識に基づいて正しい応答を提供するだけでなく、判断に使用した知識とその詳細な理由も示しています。これは、開発およびデバッグ中の下流の研究開発担当者にとって非常に使いやすいものです。

検索セクション: 以下は、意思決定に役立つマルチモーダルナレッジの結果です。

質問：上記の4枚の犬の写真を観察して、写真5の犬を分類できますか？その理由を説明してください。

答え：4枚の犬の写真を観察した結果、写真5の犬はアイリッシュ・テリアに分類できます。写真1の犬はアイリッシュ・テリアと分類されており、写真5の犬は写真1の犬と似た身体的特徴を持っています…

複数画像推論

このような状況は人生でよく起こります。

多くのユーザーは、単一の画像について会話するだけではなく、複数の資料を持っている可能性があり、モデルが異なる資料内のコンテンツ間の関係を正しく理解する必要があります。

以下の例では、mPLUG-Owl3 は 2 つの画像で見た内容に基づいて言語モデルの常識知識をアクティブ化し、2 つの画像について推論を行うことができます。

質問：左側の動物は右側の環境で生き残ることができますか？答えと説明をお願いします。

回答（正解は緑色で強調表示されています）：要点は、環境が寒すぎるため生存できないということです。

別の例では、mPLUG-Owl3 は 2 つの画像のスタイル上の違いを検出しただけでなく、2 つの画像内の人物はスタイルが異なっていても、実際には同一人物であることを認識しました。

最初の質問: 写真にはどのような芸術スタイルが描かれていますか? また、それらはどのように違いますか?

回答: 1 つ目はピクセルアート、2 つ目は漫画スタイルです... (理由を記入してください)

2つ目の質問：両方の絵画に登場しているのは誰ですか？彼らの特徴は何ですか？

答え：どちらの絵画にもカウボーイハットをかぶった男性が登場しますが、その描かれ方はそれぞれ異なります。

長い動画の理解

非常に長いビデオの視聴は、現在のほとんどのモデルではエンドツーエンドで完了できないタスクであり、エージェントフレームワークに基づいている場合は、応答速度を保証することが困難です。

mPLUG-Owl3 は、2 時間の映画を再生し、 4 秒以内にユーザーの質問に回答し始めることができます。

ユーザーが映画の始まり、中間、終わりについてどんなに詳細な質問をしても、mPLUG-Owl3 はそれらに流暢に答えることができます。

どうやってそれをやったんですか？

従来のモデルとは異なり、mPLUG-Owl3では、言語モデルのテキストシーケンスに視覚シーケンスを事前に添付する必要がありません。

つまり、入力が何であっても (数十枚の画像でも、何時間ものビデオでも)、言語モデルのシーケンス容量を占有することはなく、長いビジュアルシーケンスによって発生する膨大な計算オーバーヘッドと GPU メモリの使用を回避できます。

視覚情報はどのように言語モデルに統合されるのかと疑問に思う人もいるかもしれません。

これを実現するために、チームは、テキストのみをモデル化できる既存の Transformer Block を、画像とテキストの機能の相互作用とテキストのモデル化の両方を実行できる新しいモジュールに拡張する軽量の Hyper Attention モジュールを提案しました。

mPLUG-Owl3 は、言語モデル全体に 4 つのTransformer Blocks をスパースに拡張することで、非常に低コストで LLM をマルチモーダル LLM にアップグレードできます。

視覚エンコーダから視覚的特徴が抽出された後、その次元は単純な線形マッピングを通じて言語モデルの次元に揃えられます。

その後、視覚的特徴はこれら4つのTransformerブロック内のテキストとのみ相互作用します。視覚的トークンは圧縮されないため、きめ細かな情報を保持できます。

Hyper Attention がどのように設計されているかを見てみましょう。

Hyper Attentionは、言語モデルが視覚的特徴を認識できるように、 Cross-Attention演算を導入します。視覚的特徴をキーと値として、言語モデルの隠れ状態をクエリとして用いて視覚的特徴を抽出します。

近年、Flamingo や IDEFICS など、他の研究でもマルチモーダル融合に Cross-Attention を使用することが検討されていますが、これらの研究では良好なパフォーマンスは達成されていません。

mPLUG-Owl3 の技術レポートでは、チームはこれを Flamingo の設計と比較し、Hyper Attention の主要な技術的側面をさらに説明しました。

まず、Hyper Attention は Cross-Attention と Self-Attention のカスケード設計を使用せず、Self-Attention ブロック内に埋め込まれます。

その利点は、導入される追加パラメータの数が大幅に削減され、モデルのトレーニングが容易になり、トレーニングと推論の効率がさらに向上することです。

第二に、Hyper Attentionは言語モデルのLayerNormを共有することを選択します。LayerNormが出力する分布は、Attention層が既に学習して安定化させた分布であるためです。この層の共有は、新たに導入されたCross-Attentionの安定した学習にとって非常に重要です。

実際、Hyper Attention は、Cross-Attention と Self-Attention の並列戦略を採用しており、共有クエリを使用して視覚的な特徴と対話し、Adaptive Gate を通じて両方の特徴を融合します。

これにより、クエリは独自のセマンティクスに基づいて関連する視覚的特徴を選択的に選択できるようになります。

研究チームは、モデルがマルチモーダル入力をより良く理解するためには、元のコンテキスト内での画像とテキストの相対的な位置が重要であることを発見しました。

この特性をモデル化するために、研究者らは、視覚キーの位置情報をモデル化するマルチモーダルインターリーブ回転位置符号化 (MI-Rope) を導入しました。

具体的には、元のテキスト内の各画像の位置情報を事前に記録し、この位置を用いて対応するロープ埋め込みを計算しました。同じ画像のすべてのパッチは、この埋め込みを共有することになります。

さらに、彼らは Cross-Attention に注目マスクも導入しました。これは、元のコンテキストで画像の前のテキストが、後続の画像に対応する特徴を見ることを防ぐものです。

要約すると、Hyper Attention のこれらの設計機能により、mPLUG-Owl3 の効率性がさらに向上すると同時に、最高レベルのマルチモーダル機能も確保されます。

実験結果

幅広いデータセットでの実験を通じて、mPLUG-Owl3 は、ほとんどの単一グラフマルチモーダルベンチマークで最先端 (SOTA) のパフォーマンスを達成し、多くのベンチマークでモデルサイズの大きいモデルよりも優れたパフォーマンスを発揮します。

一方、マルチイメージテストでは、mPLUG-Owl3 は、マルチイメージシナリオに特化して最適化された LLAVA-Next-Interleave や Mantis よりも優れたパフォーマンスを発揮しました。

さらに、長い動画に対するモデルの理解度を具体的に評価する LongVideoBench (52.1 ポイント) リーダーボードで、既存のモデルを上回りました。

研究チームは、長い視覚シーケンスを評価するための興味深い方法も提案した。

ご存知の通り、実際のヒューマンコンピュータインタラクションのシナリオでは、すべての画像がユーザーの疑問に答えるわけではありません。歴史的文脈には、疑問とは無関係なマルチモーダルコンテンツが溢れており、この現象はシーケンスが長くなるほど顕著になります。

長い視覚シーケンス入力に対するモデルの堅牢性を評価するために、MMBench-dev に基づく新しい評価データセットを構築しました。

各MMBEnch評価サンプルに無関係な画像を導入し、その順序をシャッフルした上で、元の画像に基づいて質問することで、モデルが一貫して正しく回答できるかどうかをテストします。（同じ質問に対して、選択肢の順序と誤答画像が異なる4つのサンプルが作成されます。4つすべてに正しく回答した場合にのみ、正解としてカウントされます。）

実験は入力画像の数に基づいて複数のレベルに分割されました。

Qwen-VLやmPLUG-Owl2など、複数のグラフでトレーニングされていないモデルはすぐに行き詰まることがわかります。

複数の画像でトレーニングされた LLAVA-Next-Interleave と Mantis は、最初は mPLUG-Owl3 と同様の減衰曲線を維持していましたが、画像数が50程度に達すると、これらのモデルは正しく回答できなくなりました。

mPLUG-Owl3 は400 枚の画像後でも40% の精度を維持しました。

しかし、公平を期すために言うと、mPLUG-Owl3は既存モデルを凌駕するものの、その精度は優れているとは言えません。この評価方法は、長いシーケンスにおける全てのモデルの耐干渉能力を明らかにしたと言えるでしょう。この点は今後さらに改善していく必要があります。

詳細については、論文とコードを参照してください。

618ZXW

2時間の映画を4秒で視聴！Alibabaが汎用マルチモーダル大規模モデル「mPLUG-Owl3」をリリース | オープンソース

ゲームプレイのロック解除

マルチモーダル検索の強化

複数画像推論

長い動画の理解

どうやってそれをやったんですか？

実験結果

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ