クレッシーがAofei Temple、QbitAIからレポート | WeChat公式アカウントQbitAILlama 3 を Mamba に統合すると、推論速度が最大 1.6 倍向上します。 さらに、そのパフォーマンスは低下せず、元のモデルよりも優れています。 Together AI のこの新しい研究では、蒸留を通じて Transformer モデルと Mamba モデルを組み合わせ、ハイブリッド モデル用の推論加速アルゴリズムも組み込んでいます。 Mamba アーキテクチャの設計者であり、FlashAttention の作者でもある Tri Dao もこのプロジェクトに参加しました。 Together AI の創設者兼 CEO は、Transformer と Mamba のハイブリッドは大規模モデルの将来の主要な開発方向を表していると述べました。 トランスフォーマーをマンバに蒸留する蒸留プロセスが正式に開始される前に、Transformer から線形 RNN への初期化が必要です。 著者らは、Transformer の注目メカニズムと RNN の計算の間には一定の類似点があることを観察しました。 したがって、Transformer の注意を線形化することができ、それによって 2 つの間の接続を確立できます。 この対応関係を利用することで、事前トレーニング済みの Transformer モデルのパラメータを Mamba モデルにコピーできます。 パラメータの初期化を完了した後、著者らは 3 段階の蒸留プロセスを採用して Mamba モデルのパフォーマンスをさらに向上させ、Transformer の知識をより深く学習できるようにしました。 最初の段階は疑似ラベルの蒸留に基づいています。つまり、事前トレーニング済みの Transformer 教師モデルを使用してラベルなしデータに疑似ラベルを生成し、次に Mamba 学生モデルをこれらの疑似ラベルでトレーニングさせます。 このプロセスにおける損失関数は、KL ダイバージェンス損失とクロスエントロピー損失を組み合わせたもので、それぞれ教師モデルの出力分布を模倣し、疑似ラベルを適合させるために使用されます。 第 2 段階では、トレーニングにラベル付き指示データセット (OpenHermes 2.5 など) を使用して、指示データセットの教師あり微調整が行われます。 最終段階では、人間のフィードバック データを使用して、報酬モデルに基づいてシステムを最適化します。 著者らは、モデルの出力に関する人間からのフィードバック データを収集し、このデータに基づいて報酬モデルを構築し、RL アルゴリズム (PPO など) を使用して、この報酬モデルの下でモデルのパフォーマンスを最適化しました。 8 個の 80G A100 GPU では、各ハイブリッド モデルの蒸留プロセス全体にかかる時間は 5 日未満です。 上記の蒸留プロセスを通じて、著者らはTransformer-Mambaハイブリッドモデルを取得し、推論プロセスを加速するためのSpeculative Decodingアルゴリズムを提案しました。 ハイブリッドモデル推論加速アルゴリズム投機的デコードアルゴリズムの基本的な考え方は、軽量のドラフトモデルを使用して複数のトークンを予測し、検証モデル(Verifier)を使用してこれらの予測を検証することです。 これにより、デコードの並列性が大幅に向上し、生成プロセスが加速されます。 ドラフト モデルは通常、現在のコンテキストに基づいて次の K 個のトークンを予測する小さなトランスフォーマーです。 予測された K 個のトークンについては、Transformer レイヤーはこれらの K 個のトークンを直接並列に処理し、それらの隠し状態を計算できます。 Mamba レイヤーは、まず現在のトークンの隠し状態を計算し、それを以前の隠し状態と比較しながら、各トークンを順番に処理する必要があります。
シーケンス内の K 個のトークンがすべて受け入れられた場合、それらは出力シーケンスに追加され、次のトークン セットの予測が続行されます。 トークンが拒否された場合、予測シーケンスは最初に拒否されたトークンから切り捨てられ、最初のステップが返されて、その位置から予測が再度開始されます。 ラマ3の推論速度が1.6倍に向上テスト結果では、ハイブリッド モデルが、1 ターン (AlpacaEval) と複数ターン (MT-Bench) のチャット ダイアログ タスクの両方で Llama-3 と同等かそれ以上のパフォーマンスを発揮することが示されています。 さらに、異なる混合比のモデルのパフォーマンスをテストしたところ、混合比が 1:1 のモデルが最も優れたパフォーマンスを発揮することがわかりました。 ゼロサンプルの一般的な NLP タスクの評価では、ハイブリッド モデルは平均して同じサイズの RNN モデルよりも優れています。 サンプル サイズが制限された OpenLLM リーダーボードでは、ハイブリッド モデルは最高のオープン ソース RNN モデルと同等のパフォーマンスを示し、GSM8K および CRUX タスクでは対応する Instruct モデルよりも優れたパフォーマンスを示します。 モデルのパフォーマンスに加えて、著者らは投機的デコード アルゴリズムによってもたらされる高速化効果もテストしました。 最初のテストは純粋なMambaモデルで行われました。その結果、2.8Bおよび7Bモデルでは、オリジナルのデコード手法と比較して推論速度が1.7~2.6倍向上しました。 さらに、著者らは、抽出した Zephyr ハイブリッド モデルと Llama ハイブリッド モデルをテストし、Zephyr ハイブリッド モデルでは推論速度が 1.8 倍以上向上し、Llama ハイブリッド モデルでも約 1.6 倍の加速が見られることを発見しました。 論文リンク: https://www.together.ai/blog/... |
Liama 3とMambaの強力な組み合わせ!線形RNNに蒸留され、推論速度が1.6倍向上します。
関連するおすすめ記事
-
MIT/CETIチームが機械学習を用いてマッコウクジラの音声アルファベットを解読しました!人間の言語システムに非常によく似ており、情報伝達能力がはるかに高いことが分かりました!
-
タオ・ジ氏が率いる長安の自社開発インテリジェント運転システムは、12か月間の成績表を提出し、重慶の難関8Dインターチェンジを無事通過し、最新のフルサイズSUVでテストされている。
-
Pika の新機能を使えば、動画に何でも追加できます! ネットユーザーの皆様: 毎月 5,000 ドルもお得です!
-
学術情報共有 | データ不足にもめげず!上海交通大学ポスドク研究員の周子怡氏が、タンパク質言語モデルのための少数ショット学習法FSFPについて解説
-
卓球AIロボットが人間に勝利!フォアハンドとバックハンドをシームレスに切り替え、ネットボールやハイロブも打ち返せる。プロのコーチによると、中級者レベルに到達したとのこと。
-
EU、中国製電気自動車に高関税を課すことを決議!BBA(BMW、メルセデス・ベンツ、アウディ)主導の反対運動は失敗し、テスラも影響を受けた。