618ZXW

今日最も注目されている論文: スケーリングの法則は終わり、量子化さえも機能しない、AI リーダーたちは全員一致で同意している。

この論文は数十万人の注目を集め、業界リーダーらからは「久しぶりに最も重要な論文」と即座に称賛された。

ハーバード大学、スタンフォード大学、MITなどのチームによる研​​究によると、トレーニングに使用するトークンの数が増えるほど、必要な精度が高くなることが示されています。

たとえば、Llama-3 は、さまざまなデータセット サイズ (円 8B、三角形 70B、星 405B) にわたってデータセット サイズが増加すると、最適な精度を実現します。

言い換えれば、大規模なトレーニングタスクの場合、低精度の量子化では十分な効果が得られなくなる可能性があります

結論によれば、スケーリング則に従うということは、より高い精度を維持する必要があることを意味します。しかし、計算リソースを節約するために、人々は常に量子化(連続値または多倍長精度値をより低い精度に変換すること)を選択してきました。

この結論が正しいとすれば、従来、GPU のパフォーマンス向上は低精度計算の最適化に部分的に依存していたため、GPU の設計と機能もそれに応じて調整する必要があるかもしれません。

アレンAI研究所の科学者は次のように指摘している。

これは久しぶりの最も重要な論文です。量子化の限界に近づきつつあることを示す強力な証拠を示しています。この論文の結論は、この分野全体とGPUの将来に広範な影響を与えます。

同時に、この研究では2つの重要な結論に達しました。

  • トレーニング後の段階で量子化を実行すると、トレーニング前のデータが増えると最終的に有害になる可能性があります。
  • 高 (BF16) および次世代 (FP4) の精度レベルでの事前トレーニングは、最適ではない設計上の選択となる可能性があります。

これにはOpenAIの従業員からも高い評価が集まりました。

最先端の量子化スキーム (mxfp、Pw≠Pkv≠Pa など) がどのように限界を押し広げるかを見るのは非常に興味深いでしょう。私の意見では、モデルが大規模モデルに適しているかどうかを確認するために、計算予算の半分を 1 回の大規模実行に割り当てる価値はあります。

「精度を考慮した」スケーリング則を提案する

この研究は、現在の拡張は主にモデルのサイズとデータ量に焦点を当てており、精度の重要性を無視していることを直ちに指摘しています。

実際、モデルがさらに適用され実装されるにつれて、低精度の量子化は新しいパラダイムになりつつあります。

ディープラーニングは精度が低くなる方向へ進んでいます。
現在の最先端モデル(Llama-3 シリーズなど)は BF16 でトレーニングされており、誰もが事前トレーニング パラダイムを FP8 に移行するために懸命に取り組んでおり、次世代のハードウェアでも FP4 がサポートされる予定です。

したがって、この研究は次のことを明らかにすることを目的としています。

精度、パラメータ、データの間にはどのようなトレードオフがありますか?事前トレーニングと推論の観点から、それらをどのように比較しますか?

具体的には、研究チームは、トレーニング前とトレーニング後の両方で、データとパラメータの変化によって精度が損失に与える影響がどのように変化するかを調査しました。

一方、関連する変化を正確に測定するために、チームは特に「精度を考慮した」スケーリング法則を提案し、さまざまな精度レベルでの言語モデルのトレーニングと推論を予測および最適化しました。

まず結論から。次の図は2つの主な実験結果を示しています。

  • 低い精度 (INT3 や INT4 など) でモデルをトレーニングすると、損失が大きくなる可能性があります。
  • 推論中に低い精度を使用すると、パフォーマンスが低下する可能性があります。

具体的には、左側のグラフは、さまざまな精度レベルでモデルをトレーニングした場合の効果を示しています。

縦軸は最終的な検証損失(Val Loss)を表し、横軸は30Mから220Mパラメータまでの異なるモデルサイズを表します。色分けされている部分は、INT3からINT6までの異なるトレーニング精度と、トレーニング後の量子化なし(No PTQ)を表します。

研究により、低い精度 (INT3 や INT4 など) でモデルをトレーニングすると損失が大きくなりますが、精度が高くなるにつれて損失は減少し、同時にモデルのサイズが大きくなるにつれて損失も減少することがわかっています。

さらに、右側のグラフは、さまざまな精度レベルで推論を実行した場合のモデルのパフォーマンスを示しています。

横軸は推論時の最終値損失(Final Val Loss)を表します。

結果は、推論中に低い精度 (INT3 や INT4 など) を使用するとパフォーマンスが低下し、損失が増加する一方で、精度が増加すると損失は徐々に減少し、トレーニング後の量子化を行わないモデルのパフォーマンスに近づくことを示しています。

これらの発見は、Llama-3 を定量化することが難しい理由も説明しています。

注目すべきは、リリース後、Llama-3 は「15T を超えるトークンの大規模な事前トレーニング」で知られていましたが、後に Llama-3 の低ビット量子化パフォーマンスが大幅に低下していることが判明したことです。

これは研究が示唆している通りかもしれません。つまり、事前トレーニング段階でモデルが見るデータが多いほど、量子化に対する敏感さが増すのです。

同時に、この研究では次のことも判明しました。

トレーニング後の量子化(PTQ、つまりトレーニング後にモデルを量子化すること) によって引き起こされるパフォーマンスの低下は、トレーニング データの量とともに増加します。

つまり、大量のデータでトレーニングされたモデルでは、推論中に低精度の PTQ が実行されると、パフォーマンスが大幅に低下する可能性があります。

次に、研究チームは、さまざまな精度レベルでのモデルのパフォーマンスを予測するために「精度を考慮した」スケーリング則を使用することを提案し、次の点を指摘しました。

低い精度でトレーニングすると、モデルの「有効なパラメータ数」が減り、低い精度でのトレーニングとトレーニング後の量子化によって発生する追加の損失を予測できます。

これには、さまざまな精度レベルでのトレーニングと推論のパフォーマンスを予測するための統一された理論的枠組みを形成する 2 つの主要な公式が含まれています。

トレーニング後の量子化(PTQ)による損失の劣化を予測するための式:

トレーニング精度を考慮したモデル損失予測式は次のとおりです。

統合された事前トレーニングと事後トレーニングの精度予測

ちなみに、この研究は最終的に、トレーニング後の量子化とトレーニング前の量子化の効果を統合し、それによって以下を達成することを目指しています。

あらゆる精度の組み合わせにおけるトレーニング前とトレーニング後の損失の予測

関連する式は次のとおりです。

一方、予測の精度を検証するために、この研究では465回以上の事前トレーニング実行からのデータを当てはめ、最大1億7000万のパラメータと260億のトークンの規模でモデルを検証しました。

このプロセス中に、次の提案がなされました。

  • 精度とパフォーマンスを比較検討する必要があります。リソースが限られている場合は、精度を下げてより大きなモデルを学習させるのが賢明かもしれません。
  • 精度とパラメータを比較検討する必要があります。精度が低い状態でトレーニングを行う場合、モデルのサイズ(つまりパラメータ数)を増やすことが計算上最適となる可能性があることが研究で示唆されているため、モデルのサイズ(つまりパラメータ数)を増やすことは有益かもしれません
  • データ量を最適化し、データ拡張や選択的データサンプリングなどの技術を通じてデータ利用率を向上させ、特にモデルを後で量子化する必要がある場合は、事前トレーニング中に過剰なデータを使用しないようにする必要があります。

しかし、この研究には、変数を制御するために固定されたモデルアーキテクチャを使用したと著者らが述べているなど、一定の限界もあります。

つまり、アーキテクチャの変更によってモデルの精度の変化に対する感度が影響を受ける可能性があるため、アーキテクチャ調整が行われた低精度のトレーニング済みモデルには結果が適用されない可能性があります。

最後に、一部のネットユーザーはさらに踏み込んで、定量化が失敗した場合は、考慮すべき他の 3 つのオプションがあると示唆しました。

  • データセンターの拡張
  • 小型のプロモデルへの移行
  • 知識の蒸留

どう思いますか?