618ZXW

DeepSeek-R1の秘密:移行を容易にする、元のデータのわずか0.3%で済む | Qiu Xipengチーム制作

DeepSeek-R1 の背後にある主要なメカニズムであるMulti-Head Latent Attention (MLA) メカニズムを、他のモデルに簡単に移植できるようになりました。

さらに、必要なのは元のデータの 0.3% ~ 0.6% だけです。

この研究は、復旦大学、華東師範大学、上海AIラボなどが共同で提案したものです。復旦大学の邱希鵬教授(モス大規模モデルプロジェクトの責任者)も著者に名を連ねています。

彼らは、MHA (マルチヘッドアテンション) に基づく大規模言語モデル (LLM) を MLA アーキテクチャにうまく変換できるようにする、データ効率の高い微調整手法であるMHA2MLA を提案しました。

Llama2-7B を例にとると、MHA2MLA は推論コストを削減 (KV キャッシュ サイズを 92.19% 削減など) しながら、パフォーマンスの低下を小さな範囲に抑えることができます (LongBench パフォーマンスの低下はわずか 0.5% に抑えるなど)。

何が起こったのかを知るために読み続けましょう。

DeepSeekの核となる秘密をマスターする

マルチヘッド アテンション (MHA) は、Transformer アーキテクチャのコア コンポーネントであり、モデルが入力のさまざまな部分に同時に焦点を当て、各アテンション ヘッドが入力シーケンスからさまざまな機能を独立して学習できるようにします。

ただし、シーケンスの長さが長くなると、キー値 (KV) キャッシュのサイズも直線的に増加し、モデルに大きなメモリ負担がかかります。

高い計算コストと KV キャッシュに関する MHA の制限に対処するために、DeepSeek は Multi-Head Latent Attention (MLA) メカニズムを導入することで画期的な進歩を遂げました。

簡単に言えば、MLA の最大の革新は次のとおりです。

低ランクジョイント圧縮キーバリュー技術を利用することで、推論中の KV キャッシュが削減され、パフォーマンスを維持しながらメモリ使用量を大幅に削減できます。

この技術は、DeepSeek-V3 や DeepSeek-R1 などの人気モデルの鍵とも考えられています。

現在、他の LLM の推論コストをさらに削減するために、研究者は MHA を使用したモデルを MLA アーキテクチャに迅速に適応できる手法、 MHA2MLA を開発しました。

このデータの微調整方法は、次の 2 つの主要な部分で構成されます。

  • Partial-RoPE は、注目度スコアへの貢献度が低いクエリとキーの次元から回転位置埋め込み (RoPE) を削除します。
  • 低ランク近似では、事前にトレーニングされたキーと値のパラメータに基づいて、結合特異値分解 (SVD) 近似が導入されます。

まず1つ目から始めましょう。Transformerアーキテクチャでは、RoPE(回転位置埋め込み)が回転演算を通じてクエリベクトルQとキーベクトルKに位置情報を組み込み、モデルがシーケンスの位置関係を捉えるのを支援します。

しかし、研究では、注意スコアを計算する際に、RoPE のすべての側面が結果に等しく寄与するわけではないことが判明しました。

言い換えれば、注目度スコアへの影響が小さい次元から RoPE を削除しても、理論的にはモデルのコンテキスト理解能力に大きな影響を与えません。

これに基づいて、研究者は感度メトリックを使用して、どの側面が RoPE にあまり寄与していないかを判断しました。

具体的には、各次元について、RoPEが変化した際の注目度スコアの変化度を計算します。変化度が一定の閾値を下回る次元は、注目度スコアへの寄与が低いと判断され、以降の計算では、これらの次元にはRoPEが適用されなくなります。

最終的な実験では、部分 RoPE 戦略により、モデルのパフォーマンスに大きな影響を与えずに計算コストが削減されることが証明されました。

低ランク近似戦略について話しましょう。

この方法は、事前にトレーニングされたキーと値のパラメータに基づいており、結合特異値分解 (SVD) 近似を導入します。

SVD は、キー値行列に対して SVD を実行して低ランク行列で元の行列を近似し、パラメータの数を減らす行列分解手法です。

実際には、研究者はまず、事前学習済みモデルからキーと値のパラメータ行列を抽出し、これらの行列に対して結合SVD分解を実行します。次に、モデルの性能と圧縮要件に基づいて低ランク近似行列を構築し、これらの低ランク近似行列を後続の計算で元のキーと値の行列と置き換えます。

最終結果は、このアプローチにより、モデル推論中の計算負荷とメモリ消費が効果的に削減されたことを示しています。

パフォーマンスはほとんど変わりませんが、Llama2 KV キャッシュは 90% 以上削減されます。

実験結果により、MHA2MLA 法の有効性も検証されました。

モデルのパフォーマンスを維持または向上させながら、推論コストを大幅に削減できます。

研究者らは、MHA または GQA で事前トレーニングされたさまざまなサイズの LLM (135M-7B) を選択し、コントロール グループを設定しました。

1つのグループは、従来のMHAに基づくオリジナルモデルで構成され、同じタスクとデータセットにおけるMHA2MLA法の性能を直接比較するために使用されました。もう1つのグループは、Grouped Query Attention(GQA)を使用したモデルで構成されています。MHAの変種であるGQAは、計算コストをある程度最適化します。MHA2MLAと比較することで、MHA2MLAの利点をより明確に示せます。

常識的な推論能力を評価する 6 つのベンチマーク テストで、次のことが判明しました。

オリジナルのLLMの性能と比較すると、4つのベースモデルのパフォーマンスの変化は最小限です。135Mモデルのパフォーマンスは0.25%低下しましたが、360M、1B7、7Bモデルはそれぞれ0.03%、0.03%、0.37%のパフォーマンス向上を示しました(または同等)。

これは、データの微調整が元のモデルのパフォーマンスに大きな影響を与えず、MHA2MLA がアーキテクチャ転送を効果的に実現でき、微調整データには事前トレーニング済みデータの 0.3% ~ 0.6% のみが必要であることを示しています

さらに、大規模なモデルでは MLA アーキテクチャへの移行時にパフォーマンスの低下が少なくなり、このアプローチは大規模なモデルでより効果的であることが示されました。

さらに、LongBench に基づく長いテキスト生成機能の評価では、圧縮率と精度のバランスの点で、MHA2MLA はトレーニング後の量子化方法よりも優れています。

dkv=16の場合、MHA2MLAは87.5%の圧縮率を達成し、精度の低下はわずか3%です。4ビット量子化と組み合わせると、圧縮率は92.19%(dkv=64 + Int4HQQ)と96.87%(dkv=16 + Int4HQQ)に達し、精度の低下はそれぞれ-0.5%と-3.2%となり、 2ビット量子化を採用したすべてのベースラインモデルよりも優れています

これは、MHA2MLA 法と量子化技術の良好な互換性も反映しています。

上記の実験から、 Llama2-7Bを例にとると、MHA2MLAは推論コストを削減(KVキャッシュサイズを92.19%削減など)しながら、パフォーマンスの低下を小さな範囲に抑える(LongBenchパフォーマンスの低下はわずか0.5%)ことができることがわかります。

しかし、この論文では研究の限界についても言及されている。

コンピューティング リソースの制限により、MHA2MLA はより大規模で多様なオープン ソースの大規模言語モデルでは検証されていません。また、Deepseek は MLA 用のテンソル並列推論フレームワークをオープン ソース化していないため、7 バイトを超えるモデルを探索することは困難です。

研究者らは次に、より多くのモデルでこの技術を検証する予定だ。

興味のある読者は原著論文を確認してください。

論文: https://arxiv.org/abs/2502.14837 コード: https://github.com/JT-Ushio/M...