|
大規模蒸留にもスケーリング則がある! Apple の最新の研究では、蒸留プロセス中の生徒モデルと教師モデルの能力の間にべき乗関係があることが発見されました。 蒸留プロセスにおける教師モデルは、必ずしも強力であればあるほど優れているわけではないことに注意する必要があります。 研究者たちは、教師モデルの損失が減少するにつれて生徒モデルの損失も一般的に減少することを発見しましたが、教師モデルが強力すぎると生徒モデルのパフォーマンスは低下します。 さらに、生徒モデルと教師モデルの学習能力には転換点が存在し、この点の両側に異なるべき乗関係が現れます。 著者らは、一連の調査結果に基づいて、モデル蒸留プロセス中の計算リソースの割り当てに関する提案も提供しており、学生モデルのサイズや利用可能なリソースなどの要因に基づいて、より効果的な割り当て方法を選択するのに役立ちます。 大規模モデル蒸留のスケーリング則著者らは、異なるパラメータ値、蒸留データ量、および異なる能力(教師ありトレーニング中の損失によって測定)を持つ生徒モデルと教師モデルに対して実験とデータフィッティングを実施することで、蒸留中のスケーリング法則を発見しました。 全体的に、生徒モデルのクロスエントロピー損失LSは、教師モデルのクロスエントロピー損失LTと生徒モデルの模倣能力によって決まります。 生徒モデルの模倣能力は、教師モデルの損失、教師モデルと生徒モデルの能力比(波線の LS は教師によってトレーニングされた生徒モデルの損失を表します)、データ サイズ NS、および蒸留データの量 DS に関連する 3 つの部分を乗算することで得られます。 式中のc0、c1、d1、f1、α′、β′、γ′は、いずれも実験結果に基づいて適合させるべきパラメータです(いずれも正の数値)。 つまり、パラメータの数と蒸留データの量が固定されている場合、同じ生徒モデルに対して影響を与える要因は教師モデルのみになります。 直感的に言えば、生徒モデルの損失 LS は、教師モデルの損失 LT が減少するにつれて一般的に減少します。 しかし、教師モデルの能力が生徒モデルの能力をはるかに上回る場合、教師のパフォーマンスをさらに向上させることの限界効用は減少し、生徒モデルのパフォーマンスは実際には悪化する可能性があります。 式では、d1 が転換点であり、その両辺に異なる形式のべき乗則が適用されます。
生徒モデルのパラメータ数 NS と蒸留データ量 DS が両方とも無限大に近づくと、知識蒸留によって、生徒モデルのパフォーマンスが教師モデルのパフォーマンスに近づくようになります。 蒸留計算リソースはどのように割り当てられますか?上記の調査結果に基づいて、著者らは論文の中で、さまざまな蒸留シナリオに計算リソースを効率的に割り当てるための提案を行っています。 主な問題は、教師モデルの学習、教師モデルの推論、そして生徒モデルの学習におけるリソースの配分です。利用可能なリソースの量に加えて、主な影響要因は生徒モデルのサイズです。
さらに、教師モデルを最初からトレーニングする必要があり、単一の生徒モデルを蒸留するためにのみ使用される場合は、すべてのリソースを使用して生徒モデルのトレーニングを直接監督すると、蒸留よりも良い結果が得られます。 18.2億個のパラメータを持つ学生モデルのトレーニングを例にとると、利用可能なデータの量が1Tトークンを超えると、最も理想的なケースでは、教師あり学習学生モデルの損失は知識蒸留の損失よりも低くなります(下の図の左)。 知識蒸留は、データ/計算の総量が生徒モデルのサイズに応じて増加するしきい値を下回り、教師モデルがすでに存在するか複数回再利用される場合にのみ、より効果的です (下の図の右側)。 著者についてこの論文の著者は主に英国ケンブリッジにある Apple の研究所の人たちです。 第一著者および責任著者は、物理学を研究し理論素粒子物理学の博士号を取得した Apple ML エンジニアの Dan Busbridge です。 しかし、ダンは最初の仕事からコンピューター関連の仕事に携わってきました。最初はイギリスの企業でデータサイエンティストとして働き、2016年に機械学習の研究を始め、2020年にAppleに入社しました。 2 番目の著者は、オックスフォード大学で統計学と機械学習の博士号取得を目指しているインターンの Amitis Shidani です。 3 人目は、AIML の Pang Ruoming 氏が率いる基礎モデル チームの Floris Weers 氏です。 ジェイソン・ラマプラム氏とエタイ・リトウィン氏も、2017年にAppleに入社したシニアエンジニアです。 最上級は、2010年にAppleチームに加わったAppleのシニアMLリサーチマネージャー、ラス・ウェッブ氏だ。 アップルがケンブリッジ研究所を設立したとき、ラス氏は研究責任者に任命された。 この研究は Dan が主導し、各著者の具体的な作業は付録に記載されています。 論文リンク: https://arxiv.org/abs/2502.08606 |
Appleがモデル蒸留のスケーリング法則を発見!強力な教師モデルが必ずしも優れているわけではない。
関連するおすすめ記事
-
ファーウェイが初のクーペSUVを発売、価格は27万元、モデルYを直接ターゲットにしている。于承東氏:ADSが先頭に立っている。
-
気まずい!ChatGPTが新しいモデルを発表、コメント欄が裏目に…
-
Ant Group のフロントエンド技術チームは、AI の波の下でフロントエンド開発はどのような機会と変化に直面するでしょうか? について語りました。
-
新興テクノロジー大手がまたもや苦境に陥っている!給与削減、レイオフ、給与支払いの遅延といった対策が実施されている。同社はファーウェイの技術統合を試みたものの、成果は限定的だった。
-
AAAI 2025 に選出されました! 香港理工大学のチームがグラフ Transformer を使用して有機材料の分子光電子特性を正確に予測します。
-
ウルトラマンが自社の調査員を募集中、「GPT-5」登場:新主力モデル公開、「ストロベリー」は秋に発売か。