618ZXW

Llamaは拡散マルチモーダル学習を模倣し、スコアを30%向上させます!注意分布を共有するだけで済みます。

今回はパラメータや計算能力ではなく、「学際的な学習」についてです。

Stable Diffusion を教師にして、大規模なマルチモーダル モデル (Llama-3.2 など) に「図を解釈する」方法を教えましょう。

パフォーマンスが30%向上しました。

中国研究者がDeepMindチームと共同で行った最近の研究「ラベンダー:拡散指示チューニング」では、シンプルな「注意調整」によって、わずか1日のトレーニングと通常のデータ量の2.5%で、Llama-3.2などのモデルのマルチモーダル質問応答タスクのパフォーマンスを30%向上できることが実証されています。さらに、「特化」を防ぐことさえ可能で、分布外医療タスクのパフォーマンスを68%向上させます。

さらに、コード、モデル、トレーニング データはすべてオープン ソースになります。

詳しく見てみましょう。

安定拡散のクロスアテンションメカニズムを模倣する

現在の問題は次のとおりです。

なぜ従来のマルチモーダル・ラージ・モデル(VLM)ビジョンコースは必ず失敗するのでしょうか?データ不足、過剰適合、詳細の不正確さ…まるで直前の詰め込み授業で失敗した学生のようです。

これに応えて、チームは新たな解決策を提案しました。

「画像生成のクラス代表」である Stable Diffusion が、その「トップクラスの生徒のノート」である注意分布を直接共有します。

詳しく言うと、その学際的な教育は次の 3 つのステップに分けられます。

ステップ 1: マスターから学習します。VLM (Llama-3.2 など) は、軽量のアライメント ネットワーク (Aligner) を通じてクロス アテンション メカニズムを模倣することで、Stable Diffusion から「画像を読み取る」方法を学習します。

ステップ 2: 効率的なトレーニング: データのダンプや GPU の過負荷を発生させることなく、わずか 130,000 サンプル (通常のデータ量の 2.5%) と 8 個の GPU を使用して 1 日でトレーニングします。

ステップ3:パフォーマンスの不均一性を回避する秘訣。LoRAテクノロジーを導入して「負荷を軽減」し、元のモデルの機能を維持しながら弱点に焦点を当てます。

それでは具体的な効果を見てみましょう。

論文で発表された結果から判断すると、Lavender による調整後の Llama-3.2 のパフォーマンスは、16 の視覚言語タスクで大幅に向上しています。

予算が限られた小型モデルトラックでは、最先端技術(SOTA)を50%上回ります。

超大型モデルキットの世界では、ラベンダーの Llama-3.2-11B は、驚くべきことに、これらの「ジャガーノート」SOTA モデルに匹敵する性能を持っています。

これらの競合他社は一般にその 10 倍以上の規模であることを知っておくことが重要です。

さらに驚くべきことに、Lavender は医療データを「更新」すらしていないにもかかわらず、WorldMedQA の「シラバス外試験」で Llama-3.2-11B のスコアが 68% も急上昇するという直接的な原因となったのです。

具体的なスコアについてはチャートを参照してください (バーはすでにマークされています)。

コード、モデル、トレーニング データはすべてオープン ソースです。

要約すると、新しい研究の主な技術的なハイライトは次のとおりです。

1. 注意の調整:安定拡散の「専用レッスンプラン」

従来のVLMの注意メカニズムは「乱視患者」のようなものですが、Stable Diffusionの注意分布は「高解像度顕微鏡」のようなものです。Lavenderは、MSE損失関数を通じてVLMにStable Diffusionの「焦点合わせ技術」を学習させ、視覚理解の精度を直接向上させます。

2. データが足りませんか?知識の蒸留を活用してそれを補いましょう。

膨大なラベル付きデータを必要とせず、画像生成モデルから直接視覚的知識を抽出できるため、まさに「少数ショット学習の驚異」と言えるでしょう。論文チームは冗談めかしてこう表現しています。「これはAI界における『一流教師による個別指導』と言えるでしょう」

3. 過学習防止バフ:LoRA + 注意制約

低ランク適応(LoRA)によってコアパラメータを固定することで、モデルは暗記を回避します。実験では、Lavenderは分布外タスクに対する堅牢性において従来のSFT手法よりも優れていることが示され、特定の領域における限界を克服する能力を実証しました。

さらに、特定のアプリケーション シナリオの観点から見ると、Lavender の視覚理解能力は桁外れです。

表のタイトルでも、グラフ内の小さなデータ ポイントでも、Lavender は重要な情報を一目で特定し、話題から逸れることを防ぎます。また、複雑なグラフィックやサイズと位置の関係についても、Lavender は視覚的な誤解を回避し、簡単に処理できます。

実験では、ラベンダーは医療病変を正確に特定し、複数の言語で質問に答えることができ、スペイン語での質問にも対応できることが示されています。

現在、チームは論文を発表しただけでなく、コード、モデル、トレーニング データもオープンソース化しています。

  • トレーニング データ: Stable Diffusion によってラベル付けされた高品質のアラインメント サンプル。
  • 事前トレーニング済みモデル: Llama-3.2 や MiniCPMv2.5 などのアーキテクチャに基づいた Lavender 適応バージョン。
  • パラメータ調整ガイド: 初心者から上級者まで「注意調整」の実践ハンドブック。

上記の研究に関して、チームリーダーは次のように述べています。

効率的で軽量なモデル最適化には、無意識にパラメータを積み重ねるよりも明るい未来があることを証明したいと考えています。