618ZXW

Appleがモデル蒸留のスケーリング法則を発見!強力な教師モデルが必ずしも優れているわけではない。

大規模蒸留にもスケーリング則がある!

Apple の最新の研究では、蒸留プロセス中の生徒モデルと教師モデルの能力の間にべき乗関係があることが発見されました。

蒸留プロセスにおける教師モデルは、必ずしも強力であればあるほど優れているわけではないことに注意する必要があります。

研究者たちは、教師モデルの損失が減少するにつれて生徒モデルの損失も一般的に減少することを発見しましたが、教師モデルが強力すぎると生徒モデルのパフォーマンスは低下します

さらに、生徒モデルと教師モデルの学習能力には転換点が存在し、この点の両側に異なるべき乗関係が現れます。

著者らは、一連の調査結果に基づいて、モデル蒸留プロセス中の計算リソースの割り当てに関する提案も提供しており、学生モデルのサイズや利用可能なリソースなどの要因に基づいて、より効果的な割り当て方法を選択するのに役立ちます。

大規模モデル蒸留のスケーリング則

著者らは、異なるパラメータ値、蒸留データ量、および異なる能力(教師ありトレーニング中の損失によって測定)を持つ生徒モデルと教師モデルに対して実験とデータフィッティングを実施することで、蒸留中のスケーリング法則を発見しました。

全体的に、生徒モデルのクロスエントロピー損失LSは、教師モデルのクロスエントロピー損失LTと生徒モデルの模倣能力によって決まります

生徒モデルの模倣能力は、教師モデルの損失、教師モデルと生徒モデルの能力比(波線の LS は教師によってトレーニングされた生徒モデルの損失を表します)、データ サイズ NS、および蒸留データの量 DS に関連する 3 つの部分を乗算することで得られます。

式中のc0、c1、d1、f1、α′、β′、γ′は、いずれも実験結果に基づいて適合させるべきパラメータです(いずれも正の数値)。

つまり、パラメータの数と蒸留データの量が固定されている場合、同じ生徒モデルに対して影響を与える要因は教師モデルのみになります。

直感的に言えば、生徒モデルの損失 LS は、教師モデルの損失 LT が減少するにつれて一般的に減少します。

しかし、教師モデルの能力が生徒モデルの能力をはるかに上回る場合、教師のパフォーマンスをさらに向上させることの限界効用は減少し、生徒モデルのパフォーマンスは実際には悪化する可能性があります

式では、d1 が転換点であり、その両辺に異なる形式のべき乗則が適用されます。

  • 比率が d1 未満の場合、 LS は主に自身のサイズ NS とデータ量 DS によって決まります。
  • 比率が d1 より大きい場合、LS は主に LT に依存します。

生徒モデルのパラメータ数 NS と蒸留データ量 DS が両方とも無限大に近づくと、知識蒸留によって、生徒モデルのパフォーマンスが教師モデルのパフォーマンスに近づくようになります

蒸留計算リソースはどのように割り当てられますか?

上記の調査結果に基づいて、著者らは論文の中で、さまざまな蒸留シナリオに計算リソースを効率的に割り当てるための提案を行っています。

主な問題は、教師モデルの学習、教師モデルの推論、そして生徒モデルの学習におけるリソースの配分です。利用可能なリソースの量に加えて、主な影響要因は生徒モデルのサイズです。

  • 総予算が小さい場合(≲10^21 FLOP)、リソースの大部分を教師モデルのトレーニングに割り当てる必要があります。
  • 予算が大きい場合 (≥10^25 FLOP)、リソースは 3 つの部分に均等に分配される必要があります。
  • より小さい生徒モデル(≤3B パラメータ)の場合、ほとんどのリソースを教師モデルに割り当てる必要があります。
  • より大きな学生モデル(≳10B)の場合、学生モデル自体のトレーニングにさらに多くのリソースを割り当てる必要があります。

さらに、教師モデルを最初からトレーニングする必要があり、単一の生徒モデルを蒸留するためにのみ使用される場合は、すべてのリソースを使用して生徒モデルのトレーニングを直接監督すると、蒸留よりも良い結果が得られます。

18.2億個のパラメータを持つ学生モデルのトレーニングを例にとると、利用可能なデータの量が1Tトークンを超えると、最も理想的なケースでは、教師あり学習学生モデルの損失は知識蒸留の損失よりも低くなります(下の図の左)。

知識蒸留は、データ/計算の総量が生徒モデルのサイズに応じて増加するしきい値を下回り、教師モデルがすでに存在するか複数回再利用される場合にのみ、より効果的です (下の図の右側)。

著者について

この論文の著者は主に英国ケンブリッジにある Apple の研究所の人たちです。

第一著者および責任著者は、物理学を研究し理論素粒子物理学の博士号を取得した Apple ML エンジニアの Dan Busbridge です。

しかし、ダンは最初の仕事からコンピューター関連の仕事に携わってきました。最初はイギリスの企業でデータサイエンティストとして働き、2016年に機械学習の研究を始め、2020年にAppleに入社しました。

2 番目の著者は、オックスフォード大学で統計学と機械学習の博士号取得を目指しているインターンの Amitis Shidani です。

3 人目は、AIML の Pang Ruoming 氏が率いる基礎モデル チームの Floris Weers 氏です。

ジェイソン・ラマプラム氏とエタイ・リトウィン氏も、2017年にAppleに入社したシニアエンジニアです。

最上級は、2010年にAppleチームに加わったAppleのシニアMLリサーチマネージャー、ラス・ウェッブ氏だ。

アップルがケンブリッジ研究所を設立したとき、ラス氏は研究責任者に任命された。

この研究は Dan が主導し、各著者の具体的な作業は付録に記載されています。

論文リンク: https://arxiv.org/abs/2502.08606