618ZXW

たった150元以下!李飛飛らは、O1やR1に匹敵する推論モデルをわずか26分で学習させた。その秘密は蒸留技術にある。

DeepSeek-R1やOpenAI o1に匹敵する推論モデルを150元未満のコストでトレーニング?!

これは The Onion ではなく、AI の第一人者 Fei-Fei Li 氏、スタンフォード大学、ワシントン大学、アレン人工知能研究所などが作成した最新の傑作、 S1 です

数学およびプログラミング能力の評価セットでは、s1 は DeepSeek-R1 および o1 と同等のパフォーマンスを発揮します。

このパフォーマンスのモデルをトレーニングするために、チームは 16 個の NVIDIA H100 プロセッサのみを使用し、トレーニング時間は 26 分でした。

TechCrunchによると、トレーニングプロセスにかかったクラウドコンピューティングコストは50ドル未満で、これは約364.61元に相当する。一方、S1モデルの作者の1人は、 S1のトレーニングに必要なコンピューティングリソースは現在約20ドル(約145.844元)でレンタルできると述べている。

どうやってそれをやったんですか?

S1 チームは、秘密は 1 つだけ、蒸留であると述べています。

つまり、チームはアリババのTongyiチームのQwen2.5-32B-Instructをベースモデルとして使用し、Google DeepMindのGemini 2.0 Flash Thinking実験推論モデルを精製してs1モデルを取得しました。

s1 をトレーニングするために、研究チームは、各質問の回答と、Gemini 2.0 Flash Thinking の実験バージョンの思考プロセスを含む、慎重に選ばれた 1,000 の質問を含むデータセットを作成しました。

現在、プロジェクト論文「s1: Simple test-time scaling」がarXivにアップロードされており、モデルs1はGitHubでオープンソース化されています。研究チームは、s1のトレーニングに使用したデータとコードを提供しています。

費用150元、トレーニング時間26分

S1 チームがこのトリックを思いついたのは、OpenAI O1 がテスト時間のスケーリング機能を実証したからです。

これは、「推論フェーズで計算リソースまたは時間を増やすことで、大規模モデルのパフォーマンスを向上させる」ことを意味し、元の事前トレーニングのスケーリング法がボトルネックに達した後の新しいスケーリング方法です。

しかし、OpenAIはこれをどのように達成したかを明らかにしていない。

再現の熱狂の中で、 S1 チームの目標は、テスト時間のスケーリングを実装する簡単な方法を見つけることでした

この過程で、研究者らはまず s1K と名付けられた 1,000 個のサンプルのデータセットを構築しました

当初、このデータセットは、品質、難易度、多様性の原則に基づいて、MATH や AGIEval などのさまざまなソースから 59,029 の質問を収集しました。

重複排除とノイズ削減の後、品質スクリーニング、モデルのパフォーマンスと推論トレースの長さに基づく難易度スクリーニング、数学的な科目分類に基づく多様性スクリーニングを通じて、最終的に厳選された 1,000 の質問のデータセットが得られました。

各質問には回答と、Google Gemini 2.0 Flash Thinking 実験版の思考プロセスのモデルが添付されています。

これが最後のs1Kです。

研究者によると、テスト時間のスケーリングには 2 つのタイプがあるそうです。

最初のタイプは順次スケーリングであり、後の計算はより要求の厳しい計算(より長い推論軌道など)に依存します。

2 番目のタイプは並列スケーリングで、独立して実行されるコンピューティング (多数決タスクなど) のようなものです。

S1 チームは、後続の計算を中間結果に基づいて行うことができるため、より深い推論と反復的な改良が可能になり、より優れたスケーリングを提供できると「直感的に」感じたため、順次部分に重点を置きました。

これに基づいて、s1 チームは新しいシーケンシャル スケーリング方法と対応するベンチマークを提案しました。

研究中、チームは、テスト中に思考トークンの最大数および/または最小数の設定を強制する「バジェットフォーシング」と呼ばれる単純なデコード時間介入方法を提案しました。

具体的には、研究者たちは非常に単純な方法を使用しました。

「思考終了トークンセパレーター」と「最終回答」を直接追加することで、思考トークンの数に上限を設定することができ、それによってモデルは思考フェーズを早期に終了し、現在の思考プロセスで最適な回答を提供するように促されます。

思考プロセスに必要なトークンの最小数を強制するために、チームはモデルが「思考終了トークンセパレーター」を生成することを禁止し、ユーザーがモデルの現在の推論軌道に「待機」という単語を追加して、さらに考え、現在の思考結果を反映し、最適な答えに導くことを許可しました。

予算強制法の実際の例を以下に示します。

チームは予算強制のベースラインも提供しました。

1 つは条件付き長さ制御方式で、プロンプトの出力を生成するのにどれくらいの時間がかかるかをモデルに指示することに依存します。

チームは、それらを細分性によって、トークン条件付きコントロール、ステップ条件付きコントロール、クラス条件付きコントロールに分類しました。

  • トークン条件制御: プロンプト内の思考トークンの上限を指定します。
  • ステップ条件制御:思考ステップ数の上限を指定します。各ステップには約100トークンが必要です。
  • クラスベースの条件制御: モデルに短時間または長時間考えるように指示する 2 つの一般的なプロンプトを記述します。

2番目は、拒否サンプリングです

つまり、サンプリング プロセス中に、生成されたコンテンツが事前に設定された計算予算を満たしている場合、計算は停止します。

アルゴリズムは、応答の長さによってその事後分布を捕捉します。

S1 モデルのトレーニング プロセス全体にかかった時間は 30 分未満でした。

研究チームは論文の中で、 16 個の NVIDIA H100 を搭載した Qwen2.532B-Instruct モデルを使用して s1K データセットで SFT を実行し、トレーニング時間は 26 分だったと述べています。

s1研究チームのスタンフォード大学研究者、ニクラス・ミューニグホフ氏は、s1のトレーニングに必要なコンピューティングリソースは現在約20ドルでレンタルできるとTechCrunchに語った。

新たな研究結果: 思考を頻繁に抑制すると悪循環に陥る可能性がある。

モデルをトレーニングした後、チームは3つの推論ベンチマークテストを選択し、s1-32BをOpenAI o1シリーズ、DeepSeek-R1シリーズ、Alibaba Tongyi Qwen2.5シリーズ/QWQ、Kunlun Wanwei Skyシリーズ、Gemini 2.0 Flash Thinking実験バージョンなど、複数のモデルと比較しました。

3 つの推論ベンチマーク テストは次のとおりです。

  • AIME24 :2024年アメリカ招待数学試験で使用された30の問題
  • MATH500 :様々な難易度の競技数学問題のベンチマーク
  • GPQA ダイヤモンド:生物学、化学、物理学の博士レベルの問題 198 問

全体的に、予算強制機能を備えた s1-32B では、テスト時間の計算がさらに延長されます。

テストデータによると、 s1-32B は MATH500 で 93.0 のスコアを達成し、o1-mini を上回り、o1 および DeepSeek-R1 に匹敵しました

ただし、下の図に示すように、チームは、予算の強制とテスト時間の計算を増やすことで AIME24 上の s1 のパフォーマンスを向上できるものの、そのパフォーマンスは AIME24 上の o1-preview よりも最大 27% 優れていることを発見しました。

ただし、パフォーマンスが 6 倍向上すると、曲線は最終的に平坦になります。

そのため、研究チームは論文の中で次のように書いている。

思考終了区切り文字をあまり頻繁に抑制すると、モデルが推論を継続せずに繰り返しループに入る可能性があります。

下の図に示すように、Qwen2.5-32B-Instruct は s1K でトレーニングされて s1-32B を取得し、単純な予算強制を装備した後、異なるスケーリングパラダイムを採用します。

具体的には、多数決によってベース モデルのテスト時間の計算をスケーリングする方法では、s1-32B のパフォーマンスに匹敵できないモデルが生成されます。

これにより、順次スケーリングの方が並列スケーリングよりも効果的であるというチームの以前の「直感」が検証されました。

さらに、チームは、s1-32B はわずか 1,000 個のサンプルでトレーニングされ、AIME24 でのパフォーマンスが Gemini 2.0 Thinking に近く、「最もサンプル効率の高いオープンソースのデータ推論モデル」になったと述べています。

研究者らはまた、予算の強制が制御、スケーリング、およびパフォーマンスの測定基準の点で最も優れたパフォーマンスを発揮したと述べています。

トークン条件制御、ステップ条件制御、クラス条件制御などの他の方法には、さまざまな問題があります。

もう一つ

s1 モデルは、慎重に選択された 1000 サンプルの小さなデータセットに SFT を使用して、数学モデルなどの評価セットでの小さなモデルのパフォーマンスを劇的に向上させる研究です。

しかし、最近オンラインで話題になった DeepSeek-R1 (o1 の 50 分の 1 のコストで o1 のパフォーマンスに匹敵) の背景にあるストーリーを見ると、検討する価値のあるモデル推論テクノロジのより多くの側面を垣間見ることができます。

モデル蒸留技術のサポートにより、DeepSeek-R1 のトレーニング コストはシリコンバレーに衝撃を与えました。

現在、AIの第一人者フェイフェイ・リー氏らは再び「蒸留」技術を活用し、驚くほど低いトレーニングコストでトップクラスの推論モデルに匹敵する32Bの推論モデルを作成した。

大型模型技術にとって、さらにエキサイティングな2025年を期待しましょう!

arXiv:

https://arxiv.org/pdf/2501.19393

GitHub:

https://github.com/simplescal...

参考リンク:

https://techcrunch.com/2025/0...