618ZXW

Kimi 氏の新しい論文は、DeepSeek 氏の論文と再び「衝突」しており、どちらも長い記事における注目のメカニズムについて議論している。

Kimi の背後にある長いコンテキストの処理メカニズムが明らかになりました。

MoBAと呼ばれるこの新しいアテンションメカニズムは、 1MBのテキストの処理速度を6.5倍に高めることができ、実際にKimiプラットフォームで検証されています。

要約すると、この 1 年半にわたるプロジェクトから得られた重要なポイントは次のとおりです。

  • 完全なコンテキストをブロックに分割し、各クエリ トークンが最も関連性の高いキーと値のブロックに自動的に焦点を合わせるようにすることで、長いシーケンス データを効率的に処理できます。
  • 各クエリ トークンに対して最も関連性の高いブロックを選択し、モデルが最も有用な情報を持つブロックのみに焦点を当てることを保証する、パラメータに依存しない新しいトップ k ゲーティング メカニズムを提案します。
  • フルアテンションモードとスパースアテンションモード間の簡単な切り替えをサポートします。

つまり、MoBA は MoE (Expert Hybrid) を注意メカニズムに適用し、モデルが「より少ない構造」の原則に従って、どの領域または場所に焦点を当てるかを自律的に決定できるようにします。

最終結果として、モデルのパフォーマンスは変わらないまま、 1M10Mの長いテキストの処理速度がそれぞれ6.5倍16倍向上しました。

さらに、この論文から導き出された結論によれば、

MoBA はすぐに使用でき、高額なトレーニング コストを必要とせずに既存のモデルに簡単に統合できます。

さらに、論文の詳細を調べていくうちに、著者リストの中に楊志林氏の名前も発見した。

一方、さらに劇的なのは、キミの研究が再びディープシークの研究と重なったことです。

Kimi より約 5 時間前に、DeepSeek も注目メカニズム NSA を公開しました (これは QuantumBit の今日の別の記事で詳しく説明されています)。

ああ、このおなじみの光景がつい最近起こったなんて、誰が想像したでしょう!(今のところはハラハラさせておきます)

MoE原理を注意メカニズムに適用する

まずは論文の詳細を見てみましょう。

まず、研究チームは「なぜこの研究を実施したのか?」という質問に答えました。

大規模言語モデル(LLM)がAGIへと進化するにつれて、長いテキストを処理する能力はさらに重要になります。しかし、従来の注意メカニズムの計算複雑性はシーケンス長の2乗に比例して増加し、長いシーケンスの効率的な処理を著しく阻害する特性があります。

さらに、既存の方法には程度の差はあれ制限があるものもあります。

  • スライディング ウィンドウ アテンション メカニズムは、モデルのフォーカスをウィンドウ内のローカル情報に制限することで計算を削減しますが、ウィンドウ設定は特定のタスクに依存するため、一般性が欠け、モデルの一般化能力が大幅に制限されます。
  • たとえば、Quest、Minference、RetrievalAttention などの動的スパース アテンション メカニズムは推論中の計算量を削減できますが、長いコンテキスト モデルをトレーニングする場合、大量のコンテキスト情報を処理する必要があるためトレーニング コストは大幅に削減されず、LLM を長いコンテキスト シナリオに拡張することが妨げられます。
  • Mamba、RWKV、RetNetなどの線形アテンションモデルは、線形近似を用いることで長いシーケンスの計算コストを削減しますが、従来のTransformerモデルとは大きく異なり、変換コストが高く、再学習が必要になる場合もあります。さらに、複雑な推論タスクにおけるパフォーマンスは十分な検証が不足しており、実用化には限界があります。

これらすべての要素に基づいて、新しい注意メカニズムであるMoBA アーキテクチャが登場しました。

明らかに、すべての主要な値に焦点を当てる従来のアプローチとは異なり、MoBA は主要な値のサブセットのみに焦点を当てることで効率を向上させます。

特定のルールに従って、文脈をn個のブロックに分割します。これは、長い記事を段落ごとに分割するのと似ています。

各ブロックにはキーと値の情報の一部が含まれます。

次に、MoE のtop-k ゲーティング メカニズムを使用して、各クエリ トークンに関連するブロックを選択します。

これは、利用可能なすべての段落から、現在の問題に最も関連性の高い少数の段落を特定することに似ています。クエリトークンと各ブロック間の関連度スコアを計算し、スコアが最も高いk個のブロックを選択することにより、クエリトークンが最も有用な情報に焦点を当てることができるようになります。

上記のプロセスは次の式で表すことができます。

さらに、前の情報に基づいて次のトークンを予測する精度を確保するために、MoBA では 2 つの重要な設計機能が採用されています。

  • 将来のブロックに焦点を当てない: 言語生成タスクでは、現在のトークンが将来のトークン情報に依存しないようにするために、MoBA ではトークン クエリが以前のブロックまたは現在のブロックにのみ焦点を当て、将来のブロックには焦点を当てないように規定されているため、早期の情報漏洩を回避できます。
  • 現在のブロックの因果マスキング:トークンが配置されている現在のブロックを照会する際、計算には将来のトークンに関する情報が含まれる場合があります。MoBAは因果マスクを使用してこの情報を「マスク」し、アテンションを計算する際に既に出現した情報のみに焦点を当てます。

同時に、この論文では他の重要な設計オプションも明らかにされました。

たとえば、より細かいブロック分割です。研究により、コンテキストをより細かいブロックに分割することで、モデルがより効果的に情報を取得できることがわかっています。

もう一つの例は、 MoBAとフルアテンションモードのハイブリッドです。これにより、モデルはMoBAモードとフルアテンションモードを切り替えることができます。トレーニング開始時や複雑な問題を扱う際には、フルアテンションモードを使用してモデルが情報を完全に理解できるようにします。一方、長いテキストを処理し、高い効率が求められる場合には、モデルはMoBAモードに切り替えて計算リソースを節約します。

実装の面では、MoBA は Flash Attention (注意計算をより効率的にする) と MoE 最適化技術も組み合わせています。

完全なプロセスは次のように要約できます。

ステップ 1 : 各質問に対応する「回答段落」を割り当てるのと同じように、クエリ トークンの KV ブロックへの割り当てを決定します。

ステップ 2 : クエリ トークンを並べ替えます。たとえば、同じトピックに関する質問をするクエリ トークンをグループ化して、統一された処理を容易にします。

ステップ 3 : 各 KV ブロックのアテンション出力を計算し、Flash Attention テクニックを使用して、モデルが対応するブロック内の情報を「理解」し、関連する結果を取得できるようにします。

ステップ4 :Attention出力を並べ替え、結果を統合します。計算されたAttention出力は元の順序に並べ替えられ、オンラインソフトマックスアルゴリズムを使用して統合されます。これにより、異なるソースからの結果を統合し、包括的な結果が得られます。これは、異なる「回答段落」からの情報を統合して最終的な結論に到達するようなものです。

キミ1M長コンテキスト検証

実験段階では、研究によっていくつかの注目すべき発見も得られました。

まず、完全な注意(Flash Attention を使用)でトレーニングされた言語モデルと MoBA を比較すると、スケーリングの傾向が似ており、MoBA は最大 75% のスパース性で完全な注意と同等のパフォーマンスを発揮することがわかりました。

長いコンテキストの実験では、最後のブロックで MoBA の損失がわずかに高かったものの、その差は徐々に縮まり、長いコンテキストでのスケーラビリティが示されました。

アブレーション実験では、細粒度のブロック分割によって MoBA のパフォーマンスが大幅に向上することが示されています。

第二に、 MoBA をフルアテンションと組み合わせてトレーニングすると、モデルは位置 LM 損失の点でフルアテンション モデルに近づき、このトレーニング方法が効率とパフォーマンスのバランスをとることができることが証明されます。

教師あり微調整 (SFT) では、レイヤーハイブリッド戦略(一部のレイヤーには完全な注意を使用し、残りのレイヤーには MoBA を使用する) により、SFT 損失を大幅に削減できます。

Llama 3.1 8Bモデルをベースに、MoBAを様々なロングコンテキストベンチマークで評価しました。その結果、MoBAの性能はフルアテンションモデルと同等であることが示されました。両モデルはRULERベンチマークでほぼ同等のスコアを記録し、100万コンテキスト長の「Needle in a Haystack」ベンチマークでも良好なパフォーマンスを示しました。

要約すると、コンテキストの長さが増加するにつれて、MoBA の計算の複雑さは明らかに有利になります。

100 万トークンのテストでは、MoBA はフルアテンションよりも 6.5 倍高速でした。1,000 万トークンでは 16 倍高速でした。

OMT: またDeepSeekと衝突しました。

冒頭で述べたことに戻ると、実際、キミの論文が発表されるとすぐに、一部のネットユーザーはコメント欄で残念な思いを表明した。

さらに、誰かが彼に面と向かって「悲しい話」を持ち出した。

実は先月(1月20日)、DeepSeekがOpenAI-o1の正式版に匹敵すると宣伝されていたDeepSeek-R1をリリースしたわずか2時間後に、KimiはOpenAI-o1の本格版に匹敵するマルチモーダル思考モデルであるk1.5をリリースしたのです。

うわー、立て続けに2回も事故起こした!運命を感じます!(doge)