618ZXW

元DeepSeekのインターン生がMoEを大幅に改良し、反復的なメカニズムを用いてメモリ要件を42%削減しました。チームはこの最適化手法を「無料ランチ」と表現しました。

DeepSeek MoE の「バリアント」が登場しました。価格は 200 ドル未満で、メモリ要件は 17.6 ~ 42% 削減されています。

CoE (Chain-of-Experts) と名付けられたこの手法は、トークンを並列かつ独立して処理し、全体的なパラメータ数が多いために大量のメモリリソースを必要とする MoE の限界を克服した「フリーランチ」最適化手法と考えられています。

並列処理とは異なり、CoE では、エキスパートが単一レイヤー内でシリアルに通信できるため、エキスパートが他のエキスパートの出力に基づいてトークンを「通信」して処理できる反復的なメカニズムが形成されます

研究チームは実験で、CoE を 2 回繰り返した後、同じ計算予算で数学タスクの検証損失が 1.20 から 1.12 に減少し、情報フローを再構築するだけでパフォーマンスが向上したことを発見しました。

CoE の反復回数を増やすことで、モデル層の数やエキスパート選択肢の数を増やす方法と比較して、同等のパフォーマンスを維持しながら、メモリ使用量が 17.6 ~ 42% 削減されました。

さらに、CoE は専門家の組み合わせの自由度や専門家の活用効率など他の面でも大きな利点があり、専門家の組み合わせの数が 823 倍に増加しました。

現在、研究チームはCoEテクノロジーに関するブログ記事を公開しており(論文全文は近日公開予定)、ネットユーザーから大きな注目を集めている。

著者のホームページを見てみたら、Zihan WangがDeepSeekでインターンをしていたことも分かりました😯

この研究を見たネットユーザーの中には、次のようなコメントをした人もいる。

MoEs の IsoFLOP レイヤーの反復設計は非常に優れています。

一部のネットユーザーはすでに次世代アーキテクチャを予測し始めている。

CoEとは具体的にどのようなものなのでしょうか?以下は、チームがNotionブログで公開した紹介です。

CoE は、スパース MoE 向けに特別に設計されています。

CoE の主な革新は、スパースニューラルネットワークで情報を処理する方法を変える通信処理メカニズムを確立したことにあります。

具体的には、これは、MoE 出力を単一レイヤー内での複数の反復の入力としてフィードバックすることによって実現されます。

CoE 反復処理メカニズムは、次のように正式に表すことができます。

研究チームは、DeepSeek-V2 の実装を参考に、ゲーティング メカニズムを次のように定義しました。

チームは、この設計の利点は、各反復におけるエキスパートの選択が前の反復の出力によって決定され、エキスパート間の依存関係とより動的なルーティング メカニズムが形成される点であると説明しました。

さらに、反復プロセス中にシリアル情報が蓄積されるため、専門家間で直接コミュニケーションが可能になります。

この実験では、DeepSeek V2 アーキテクチャを使用し、パラメータ サイズが 500M、バッチ サイズが 32K Tok の MoE モデルを 1000 ステップトレーニングして、CoE の有効性を検証します。

結果から、CoE はパフォーマンス、拡張戦略、リソース効率の最適化、専門家の組み合わせの自由度、専門家の利用効率において大きな利点があることがわかりました。

冒頭に示したポイントに加えて、同様の計算能力とメモリ要件の下で、CoE は損失を 1.20 から 1.12 に削減し、下降傾向がより急峻になりました。

研究チームはさらに「高密度」(専門家8人対専門家8人)モデルをテストし、その結果、スパースMoEでは直列処理の方が高密度モデルよりも効果的であることが示されました。CoEは、(細粒度の)スパース混合専門家モデル(スパースMoE)向けに特別に設計された手法です。

2 つのシリアル化プロセスを使用しても、Dense モデルのパフォーマンスは大幅に向上しません。

さらに、CoEは同様の計算コストと性能で、メモリ要件を削減できます。例えば、CoE-2(4/48)はMoE(8/64)と同等の性能ですが、使用するエキスパートの総数は少なくなります。ロスマッチングの場合、CoEはメモリ要件を17.6%削減します。

研究チームはまた、同様の予算条件下で、CoE 反復回数の増加、モデル レイヤー数の増加、および専門家選択数の増加の効果を比較し、CoE 反復回数の増加がより効果的であることを発見しました。

CoE-2 (8/64)、4 層 vs MoE (8/64)、8 層/12 層。8 層の MoE と CoE はほぼ同じ効果がありますが、メモリ要件は 72% 高くなるため、CoE はメモリを 42% 節約します。

研究チームは、独立したゲーティング機構内部残留接続がCoEの重要なアーキテクチャ上の革新であると強調しました。アブレーション研究では、コンポーネントのいずれかを除去するとパフォーマンスが大幅に低下することが示されています。

詳細については、興味のある読者はオリジナルの技術レポートを参照してください。

誰が建てたのですか?

CoE は 5 人のチームによって提案されました。

王子涵は、ノースウェスタン大学でコンピュータサイエンスの博士課程に在籍しています。中国人民大学高陵人工知能学院で学士号を取得しました。彼の研究は、基本モデルの自律性、効率性、そして長期コンテキスト理解に焦点を当てています。

Zihan Wang 氏は以前 DeepSeek に勤務し、ESFT (Expert-Specialized Fine-Tuning) 論文の第一著者でした。

ESFT は、タスク関連部分のみを調整することで MoE の導入を効率的にカスタマイズし、リソースとストレージの使用量を削減しながら効率とパフォーマンスを向上させます。

CoE は、Zihan Wang が DeepSeek 用に作成した最初の「バリアント」ではありません。

彼は以前、Verl をベースに DeepSeek-R1 (-Zero) フレームワークである RAGEN (強化学習 AGENt) を再現し、GitHub で 1,000 近くのスターを獲得しました。

王子涵(Zihan Wang)は李曼玲(Manling Li)の教え子です。李曼玲はノースウェスタン大学コンピュータサイエンス学部の助教授です。彼女は以前、呉佳俊(Jiajun Wu)教授の指導を受け、李菲菲(Feifei Li)教授の指導を受けました。

Manling Li、Jiajun Wu、Feifei Li も RAGEN の寄稿者です。

CoE 技術レポート: http://sandy-server-87f.notio... CoE GitHub リンク: https://github.com/ZihanWang3... 参考リンク: [1] https://x.com/wzihanw/status/... [2] https://github.com/ZihanWang3... [3] https://github.com/deepseek-a...