過去 2 か月間の徹底的な検討に基づいた、DeepSeek R1 の包括的な概要です。

オリジナルChangqin Datawhale

Datawhaleのヒント

著者: Changqin、Datawhaleメンバー

この記事は、2025 iFLYTEK Developer TALK 杭州駅における「DeepSeek 深層技術分析」プレゼンテーションの記録です。時間的な制約により、実際のプレゼンテーションはこの記事の簡略版となりました。本文は、プレゼンテーションの招待状を受け取ってから2週間かけて蓄積した読書メモと考察をまとめたものです（幸いにも、ある程度の事前知識があったので、そうでなければかなり苦労したでしょう）。

プレゼンテーションPPT:

https://github.com/datawhalec...

2022 年末に ChatGPT がリリースされて LLM 時代の幕開けを告げてからわずか 2 年余り、DeepSeek-R1 は 2025 年を迎えるにあたり、LLM を真に深い思考の時代へと推進しました。

過去2年間の急速な発展は、前例のない毎週のイテレーションを経て、今ではほとんど非現実的に感じられます。2023年はLLMが最も急速に成長した年であり、「LLMゼロ年」と呼ばれ、新たな開発パラダイム（興味のある方はHuggingLLM（https://github.com/datawhalec...）をフォローしてください）の出現と全国的なAIブームを伴いました。2024年には、LLMベースのアプリケーションが成熟し始め、エージェントが繁栄し、ゼロ年が始まりました。さまざまなアプリケーションが次々と登場し、個人企業が可能になりました。

LLMが「応用」に向けて着実に進化していくと思っていた矢先、R1が登場しました。OpenAI-o1を起源としながらも、それを凌駕する存在となりました。o1に関しては、OpenAIの元最高研究責任者であるボブ氏の見解と私の見解は一致しています。o1の目標は複雑な問題の解決であり、ほとんどの人が日常業務でo1を必要とすることはないでしょう（最先端AIに関する考察（https://yam.gift/2024/12/20/N...）を参照）。しかし、R1はLLMの全体的な機能を強化し、モデルが推論中に真に自己を反映し、検証することを可能にします。これは複雑な問題に適用できることはもちろんですが、日常業務の多くのシナリオにも役立ち、AIをより人間らしくします。これはR1が業界全体に貢献した点であり、その影響はChatGPTのリリースに劣らないほど大きいと私は考えています。

DeepSeek-R1: LLMは深い思考の時代へ

まず、R1論文を分析してみましょう。論文自体は複雑ではなく、構成も非常に明確です。核となる内容は、R1-Zero、R1、そして蒸留の3つの部分に要約でき、それぞれの部分は一文で要約できます。

R1-Zero = Pretrain(DeepSeek-V3-Base) + RL(GRPO) は、Pure Rule の強化学習も有効であることを証明し、自己検証、リフレクション、そして長い COT の生成能力を実証しています。しかし、可読性が低く、言語の混在という問題があります。
R1 = 事前学習 + コールドスタート（SFT）+ 強化学習（推論能力の強化）+ 生成データとSFT教師データを用いたベース（SFT）の微調整 + 強化学習（アライメント）。まず推論能力を強化し、データを生成し、その後LLM全体の能力を向上させます。
蒸留= R1データ + 学生モデルSFT。蒸留 > RLでは、R1データSFTの小規模モデル能力が向上し、強化学習 + 小規模モデルよりも優れています。

これは、「データが上限を決定し、アルゴリズムがその上限に近づく」ということを改めて証明するものであり、「高品質なデータ」の意味を再定義するものでもあります。

R1-Zero: RLの可能性

純粋な RL、ルールベース、教師ありデータなし。

GRPO

通常は政策モデルと同じサイズの批評モデルを使用する代わりに、ベースラインは母集団スコアから推定されます。具体的には、GRPOは各qについて、古い政策からの出力セットをサンプリングし、以下の目的関数を用いて政策を最適化します。

ここで、𝜀と𝛽はハイパーパラメータであり、Aiは次のようにアドバンテージです。

GRPO は PPO よりもシンプルですが、さらに重要なのは、効果的であることです。

ルールに基づいているので、ORM や PRM はありません。正確性報酬とフォーマット報酬（思考プロセスを<think>と</think>の間に配置すること）の 2 種類のルールが含まれます。

これは本当にエキサイティングな発見です！私は強化学習（そしてルールベース学習）に長年（2018年まで遡る）魅了され、これまで何度も言及してきました（付録1の関連記事を参照）。私も何度か試みましたが、あまりうまくいきませんでした。R1の論文を見た時の第一印象は「無理！」でした。しかし、自分で再現してみて、本当に驚きました。本当に素晴らしい結果です。

データ構築

トレーニングデータは次のテンプレートに基づいて構築されます。

 A conversation between User and Assistant. The user asks a question, and the Assistant solves it. The assistant first thinks about the reasoning process in the mind and then provides the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively, ie, <think> reasoning process here </think> <answer> answer here </answer>. User: prompt. Assistant:

ここでのプロンプトは、対応する問題を指します。この構造形式には、コンテンツ固有のバイアス（例えば、反射的推論の強制や特定の問題解決戦略の促進など）を回避するために、意図的に制約が設けられており、強化学習中のモデルの自然な進行を正確に観察できるようにします。

上記のテンプレートはベースモデルであり、Instruct モデルも同様です。

結果

素晴らしい曲線、素晴らしいパフォーマンスですね！さらに、赤い曲線で示されているように、実際には多数決によってパフォーマンスをさらに向上させることができます。

自己進化

さらに、このプロセスには自己進化が見られます。その中で最も顕著な特徴の一つは、推論中の計算量が増加するにつれて複雑な行動が出現することです。これらの行動には、リフレクション（過去のステップの再検討と再評価）や、問題解決のための代替アプローチの探索などが含まれます。これらの行動は、明示的にプログラムされ、外部から調整されたプロセスの結果ではなく、モデルと強化学習環境との相互作用の結果として自発的に発生します。

アハ体験

次に、よく議論される「アハモーメント」についてです。これは本質的に、モデルが再評価、確認、検証を自動的に学習することを意味します。これは自己反省とエラー修正のプロセスであり、「アハ」体験に似ています。これは強化学習の魔法を実証しています。モデルに問題の解決方法を明示的に指示するのではなく、適切なインセンティブを提供することで、モデルが高度な問題解決戦略を自律的に構築できるようにします。

アハモーメントとは、モデルの「推論しながら考える」という行為と捉えることができ、これは「確認する」「再確認する」「評価する」「検証する」といった言葉の出現や、回答の長さの増加といった形で表れます。下の図をご覧ください。

ただし、次の点に留意する価値があります。

「アハ体験」はこのような状況でのみ起こるのではありません。
長さを増やすことは、必ずしも結果が良くなる、あるいはモデルが考えていることを意味するわけではありません。

この点については別の研究の結論を後で議論するので、ここでは繰り返さないことにします。

R1-Zeroがなぜこのような結果を達成できるのかというと、モデル自体がこの能力を備えているからだと思います。強化学習は単にこの能力を解放したり、誘導したりするだけです。後ほど、少量のSFTデータでもこれがどのように達成できるかを説明します。

R1-Zeroには主に2つの問題があります。可読性の低さと言語の混在です。しかし、実際に再現してみると、1つ目の問題は対処可能だと感じましたが、2つ目の問題は確かに存在し、かなり目立ちました。とはいえ、結果が正しい限り、プロセスが人間にとって読みやすいかどうかはそれほど大きな問題ではないように思えませんか？(doge)

最後に、純粋なルールベースの強化学習を使用してこのような結果を達成できる R1-Zero の能力は本当に素晴らしいと付け加えておきたいと思います。

R1: LLMが再び進化

次はR1です。これはR1-Zeroの改良版であり、自然な拡張です。R1-Zeroの直後には2つの問題が存在します。

少量の高品質データをコールドスタートとして追加すると、推論パフォーマンスがさらに向上したり、収束が加速したりしますか?
明確で首尾一貫した思考連鎖 (CoT) を生成するだけでなく、強力な一般化機能も示すユーザーフレンドリーなモデルをどのようにトレーニングできるでしょうか?

コールドスタート

R1の最初のステップはコールドスタートです。少量（数千個）の高品質なCoTデータを収集し、強化学習の開始点（初期アクター）となるモデルを微調整します。

Long Chain Inference (CoT) を例にすると、いくつかのヒントが与えられ、モデルが反映と検証を伴う詳細な回答を直接生成するように促します。
R1-Zero 出力は読み取り可能な形式で収集され、結果は手動の後処理によって精製されます。

R1-Zeroと比較したコールドスタートデータの利点:

読みやすさ: R1-Zero の内容は読み取り不可能な場合が多いですが、コールドスタート中のデータは読み取り可能な形式になっています。
潜在能力: R1-Zero よりも優れています。

推論指向RL

次のステップは、R1-Zero (大規模 RL) と同様に、特に推論集約型のタスクにおけるモデルの推論機能を向上させることを目的としています。

トレーニング中、特にプロンプトに複数の言語が含まれている場合、言語の混合が依然として観察されました。
この問題を軽減するために、「言語一貫性」報酬が導入されました。これは、推論チェーンにおける対象言語の単語の割合として計算されます。これによりパフォーマンスはわずかに低下しますが、結果の可読性は向上します。
最終的な報酬は、推論タスクの正確さに対する報酬と言語の一貫性に対する報酬です。

棄却標本抽出とSFT

前のステップで収束した後、主な焦点はSFTデータの収集に移ります。言い換えれば、これまでの作業はすべてデータ取得のためでした。主に推論に焦点を当てた初期のコールドスタートデータとは異なり、この段階では他のドメインからのデータを統合し、ライティング、ロールプレイング、その他の一般的なタスクにおけるモデルの能力を強化します。

これは、生成されたデータを用いてDeepSeek-V3-Base上でSFTを実行することを意味します。これは基本的に標準的なSFTですが、使用するデータのみが異なります。

推論データ：60万件。前段階のモデルを用いて推論連鎖データを生成しました（各プロンプトに対して複数の回答を出力し、正解を選択する方式）。データは拡張され、混合言語、長い説明、コードブロックを含む推論連鎖は結果から除外されました。
非推論データ：20万。DeepSeek-V3のSFTデータの一部が再利用されます。特定の非推論タスクでは、DeepSeek-V3を呼び出して潜在的な推論チェーンを生成し、プロンプトに基づいて質問に回答します。非常に単純なクエリ（「こんにちは」など）の場合、応答にCoTは必要ありません。

全シーンRL

アライメントフェーズでは、推論能力を維持しながら、有用性と無害性を向上させることを目的としています。ここでは、ハイブリッドアプローチを用いてアライメントを行いました。

推論データ (数学、コード、論理的推論): DeepSeek-R1-Zero で概説されている方法論 (つまり、ルール) に従います。
非推論データ: 報酬モデルを使用して、複雑で微妙なシナリオにおける人間の好みを捉えます。

有用性に関しては、最終的な要約に焦点を当て、評価では、基礎となる推論プロセスへの干渉を最小限に抑えながら、ユーザーに対する応答の実用性と関連性を強調するようにしてください。

無害性については、推論プロセスと結論を含むモデルの応答全体を評価します。

これら4つのステップを経て、R1は完成します。ご覧のとおり、最初の2つのステップは主にデータ処理、具体的には思考プロセスを反映するデータです。もちろん、最後の2つのステップも、トレーニングとアライメントのために2種類のデータを組み合わせるなど、改良されています。

これは「高品質なデータ」と「新しいトレーニングパラダイム」を再定義するものでしょうか？答えがどうであれ、今後のLLMはすべて「R1」評価を受ける可能性が高いと思います。

蒸留：優れた機能を備えた小型モデル

最後に蒸留があります。これは、より小さなモデルに推論能力を与えることを意味します。具体的には、先行する80万個のデータポイントを用いてQwenとLLaMAを微調整することを意味します。この蒸留手法はブラックボックス蒸留と呼ばれます。

ここで注目すべきは、RLはここで継続されなかったということです（RLを統合することでモデルのパフォーマンスが大幅に向上する可能性があるにもかかわらず）。彼らはそれをコミュニティに委ねました。その後、DeepScaleRが登場しました（これについては後述します）。これは、このフォローアップを補完する役割を果たしました。

R1に関する研究

このセクションでは、R1 に関連する興味深い研究をいくつか紹介します。

オートゼロ

まず、オートゼロについて見てみましょう。その関連コンテンツは次のとおりです。

R1-Zeroのようなトレーニングでは「なるほど！」という瞬間は訪れないかもしれない ― パイロットスタディ
sail-sg/oat-zero: 自己反省行動の詳細な分析を備えた DeepSeek-R1-Zero の軽量複製。

主な結論は次のとおりです。

R1-Zeroトレーニングでは、アハ体験は発生しない可能性があります。その代わりに、ラウンド0、つまりベースモデルフェーズでアハ体験（自己反省モードなど）が発生します。これは、強化学習なしでもアハ体験が発生し得ることを示しています。
ベースモデルの応答は表面的な自己反省（SSR）を示しており、自己反省は必ずしも正しい最終回答につながるとは限りません。例えば、4つの行動のうち最後の2つを以下に示します。これはベースモデルが自己反省できないという意味ではなく、表面的な自己反省が存在するという意味であることに注意してください。
行動１：自己反省、再検討、正解の確認。
行動 2: 最初の誤解を正すための自己反省。
行動 3: 自己反省により、本来は正しい答えに誤りが生じます。
行動4: 繰り返し自己反省しても効果的な答えを生み出せなかった。
応答の長さの増加は自己反省によるものではなく、適切に設計されたルールベースの報酬関数を最適化する強化学習によるものです。
RL は、表面的な自己反省を効果的な自己反省に変換して期待される報酬を最大化し、それによって推論能力を向上させます。
長さと自己反省は関係ないかもしれません。

要約すると、これは2つの文にまとめられます。ベースモデルも肯定的な結果を達成する可能性がありますが、これは強化学習が肯定的な結果を達成することを妨げるものではありません。強化学習はベースモデルの表面的な自己反省を効果的な自己反省に変換できますが、必ずしもその長さが長くなるわけではありません。この結論は理にかなっていると思います。ベースモデルは単に能力を持っているだけで、それが活性化されていないのに対し、強化学習はその能力を活性化するのです。

ディープスケールR

次は、前述の「蒸留」のセクションで触れたDeepScaleRです。関連する内容は以下の通りです。

DeepScaleR: スケーリングRLにより15億モデルでO1-Previewを超える
agentica-project/deepscaler: LLM向け強化学習の民主化

このアプローチではDeepseek-R1-Distilled-Qwen-1.5B （高品質の40K Mathデータを使用）を直接強化・微調整します。結果として得られたモデルは、AIME2024およびMATH500においてo1-previewを上回る性能を示しました。

背景として、R1の再現には32K以上のコンテキストと約8000ステップの計算コストがかかるため、1.5Bモデルでも70,000 A100時間を要することが挙げられます。この問題に対処するため、本論文では蒸留モデルを採用し、反復的な長さ増加法を導入します。計算リソースは3800 A100時間にまで削減されます。

この論文では主に、RL を通じてカスタム推論モデルを開発することがスケーラブルかつコスト効率に優れていることを示します。

データ処理フローは以下のとおりです。

公式ソリューションから回答を抽出するには、 gemini-1.5-pro-002を使用します。
重複/類似の問題を削除するには、 sentence-transformers/all-MiniLM-L6-v2を埋め込み（意味的類似性を使用）として使用します。
sympyを使用して評価できない問題を削除します (これらの問題には LLM 評価が必要であり、トレーニング速度に影響するだけでなく、ノイズの多い報酬信号が発生する可能性もあります)。

ORM 設計:

1: 回答が基本的なLaTeX/Sympyチェックに合格した場合。
0: 回答または形式が正しくありません (例: <think>, </think>がありません)。

対話型のコンテキスト長増分スキーム: 短いものから長いものへ。

コンテキストが長くなると、モデルが考える余地は増えますが、トレーニングの速度は低下します。ただし、コンテキストが短くなると、より長いコンテキストを必要とするより難しい問題をモデルが解決する能力が制限される可能性があります。
したがって、このアプローチは2段階に分かれています。8k → 16k、そして24kです。最初のステップでは、8kでより効率的な推論とトレーニングを実現し、次のステップでは、モデルがより複雑な問題を解決できるようにコンテキスト長を拡張します。

なぜ2段階の学習が必要なのでしょうか？それは、学習前のモデル評価で、誤答の長さが正答の3倍であることがわかったためです。これは、長い応答はしばしば誤った結果につながることを示しており、長いコンテキストウィンドウを用いて直接学習を行うと、ほとんどのトークンが無駄になるため、非効率的になる可能性があります。

以下に実際の結果を見てみましょう。

8kのコンテキストで最初にトレーニングしたところ、平均トレーニング報酬は46%から58%に増加しましたが、平均応答長は5,500から3,500に減少し、AIME2024 Pass@1 Accは33.9%でした。1,000ステップ後、応答長は再び増加し始め、応答の枝刈り率は4.2%から6.5%に上昇しました。これは、コンテキスト制約で切り捨てられる応答が増えたことを示しています。これは、モデルが「より長く考える」（つまり、より多くのトークンを生成する）ことでトレーニング報酬を改善しようとしていたことを示唆しています。
16Kのコンテキストウィンドウを用いて、ステップ1040（応答長が増加傾向に転じた時点）からトレーニングを再開しました。さらに500ステップ実行した後、平均応答長は3500から5500に増加し、平均トレーニング報酬は62.5%で安定し、Accは38%、応答プルーニング率は2%に達しました。パフォーマンスは安定し始めました。
480ステップ後、24Kコンテキストウィンドウでトレーニングを再開します。200ステップ後に精度は43%に達しました。

ステップ1

ステップ2

ステップ2 - 追加

コンテキストの長さ

16k

24k

レスポンスの長さ

5500→3500

3500→5500

クリップ比率

4.2%→6.5%

褒美

46%→58%

62.5%

AIMEアカウント

33.9%

38%

43.1%

要約すると、結論は次のようになります。

RLスケーリングは小規模モデルでも効果的です。SFTとRLだけでは不十分ですが、高品質なSFT蒸留とRLスケーリングを組み合わせることで、LLMの推論ポテンシャルを真に引き出すことができます。AIMEの精度は28.9%から43.1%に向上しました。
長さを反復的に拡張することで、より効率的な長さのスケーリングが可能になります。簡単に言えば、まず短く単純なプログラムをトレーニングし、その後難易度と長さの制限を増やしていくため、直接トレーニングするよりも効率的です。

LIMOとS1

どちらの研究も、少量の高品質データにSFTを適用し、モデルの推論能力を活性化しています。関連する内容は以下のとおりです。

LIMO：推論においては「少ないほど良い」
GAIR-NLP/LIMO: LIMO: 推論においては「少ないほど良い」
s1: 単純なテスト時間のスケーリング
simplescaling/s1: s1: 単純なテスト時間のスケーリング

LIMO は次のような仮説を提唱しています。モデルが豊富な推論知識と十分な計算スペースを備えている場合、推論能力を活性化するには、長期的な思考を促す少数の高品質のトレーニングサンプルのみが必要になる可能性があります。

そして、非常に少量の高品質データ（817データポイント、全データの1/100）から複雑な数学的推論能力を効果的に導き出せるという仮説を検証しました（絶対的な性能向上率は40.5%）。さらに、このモデルは分布外問題にも一般的に適用可能であり、このモデルが単純なパターンマッチングではなく、真の推論能力を獲得していることを示唆しています。

この発見は、複雑な推論タスクには膨大な量のデータが必要であるという仮定に疑問を投げかけるだけでなく、教師ありの微調整は主に一般化ではなく記憶につながるという一般的な見解にも疑問を投げかけます。

s1 と同様に、1000 個の高品質データポイントが 59k のデータを超えました。

LIMO と s1 の発見は、知識の獲得から知識の活性化まで、知識の基盤における革命を意味します。

どちらの研究でも、高品質なデータが言及されています。LIMOでは、データの品質は次の2つの要素によって決定されます。

問題の質。これには、問題解決方法の多様性、モデルの能力に挑戦する際の適切な難易度、カバーされる知識領域の広さといった要素が含まれます。
回答の質（論理的思考の連鎖、応答）。これには、教育的価値、論理的一貫性、方法論的厳密さといった側面が含まれます。

S1 は粒度が比較的粗く、主に全体的な品質 (フォーマットの問題なし)、難易度、多様性を考慮しています。

質問は通常、既存のデータセットから選択され、回答では公式のソリューションを使用することも、モデルを使用してさまざまなソリューションを生成し、最適なものを選択することもできます。

論理的推論の実験

今回の実験は主にR1-Zeroに焦点を当てており、上記の点のいくつかを検証しただけでなく、私自身のアイデアもいくつか生まれました。予備的な結論を以下にまとめます。

R1-Zero の開始点は重要ではありません。

ここまでの基礎知識を踏まえれば、結論は明らかです。理論的には、BaseモデルとInstructionモデル、そして通常モデルとMathモデルの両方でR1-Zeroの効果を実現できるはずです。R1-Zeroは期待通りの効果を実現し、同様のパフォーマンスを示しているため、暫定的にR1-Zeroの再現と見なすことができます。

図に示すように、緑色はQwen2.5-7B-Instruct 、茶色はQwen2.5-7Bを表しています。報酬、フォーマットエラー率、全体的な精度、テストセットのパフォーマンスにおいて、どちらもほぼ同じ傾向を示しています。ただし、Instruct バージョンの方が全体的にわずかに優れたパフォーマンスを示しています。応答長に関しては、どちらも同様の傾向を示し、最初は減少し、その後増加していますが、Base モデルの方が長さの増加がより顕著であるのに対し、Instruct モデルの減少にはより長い時間がかかります。これは、SFT を受けた Instruct モデルが本来の指示に従う能力を持っているため、新しい要件を学習するのにより長い時間が必要であると考えられます。同時に、Instruct の能力は Base よりも強力であるため、応答長が比較的短くなります。

また、Base モデルはほぼゼロから始まりますが、Instruct モデルはそうではないことも注目に値します。2 行目の右端の図に示すように、Instruct モデルは最初から一定レベルの精度を備えています。

モデルが新しいほど、効果は良くなります。

OODを最小化するためにQwen 2.5以降にリリースされたデータセットを使用しましたが、事前学習時に類似のデータがモデルに含まれていたかどうかは依然として不明でした。当初、実験にはQwen 1を使用する予定でしたが、コードの変更がやや複雑だったため、比較対象としてQwen-1.5-7Bを選択しました。

図に示すように、 Qwen1.5-7BはQwen2.5-7Bと比べて全体的に大きく劣っていますが、全体的な傾向は一致しています。また、Qwen2.5の公式説明からも、コードと数学的データが含まれていることがわかります。

モデルが大きいほど、効果は高くなります。

当たり前のことのように思えるかもしれませんが、それでも私たちは、どれだけ改善されたのか、そして具体的にどこでパフォーマンスが不足しているのかを知りたかったのです。残念ながら、1.5Bのベースモデルでは結果を再現できませんでした。報酬、フォーマットエラー、全体的な精度、テストセットの精度は以前のパフォーマンスと一致していましたが、応答の長さは収束するまで着実に減少し、増加は見られませんでした。しかし、プロセス中は依然としてアハ現象が観察されました。最終的に、1.5BモデルのMathバージョンであるQwen2.5-Math-1.5B採用され、検証に成功しました。

ご覧のとおり、パフォーマンスの差はかなり大きく、Mathモデルを使用した場合でも7Bとの差は依然として大きくなっています。また、3Bモデルもテストしましたが、若干の改善は見られたものの、応答長の増加はそれほど大きくありませんでした。

インタラクティブな長さの増加は効果的

このセクションでは、DeepScaleRと同様に、主にマルチステージ（難易度別）強化学習を検証します。2つのステージの傾向は似ていますが、第2ステージの応答長は大幅に長くなり、指標にも若干の改善が見られます。

報酬は非常に重要です。

報酬はモデル学習の方向を示し、その設計は収束速度と最終結果に影響を与えます。タスクに応じて適切に設定する必要があります。

上記の結論のより詳細な説明は、後日公開の技術レポートで発表します。なお、私は個人的に拡張の側面にのみ関心があるため、ここでは検証のごく一部しか行っておりません。LIMO、s1、R1、蒸留など、他の側面に興味のある読者は、ぜひ実際に試してみてください。

R1: 新しいパラダイム、新しい時代

ここまでお読みいただいた方は、R1とその影響についてご理解いただけたかと思います。実際、R1は多くの革新をもたらし、LLMのほぼすべての段階に影響を与えてきました。ここでは、事前学習、事後学習、そして推論という3つの観点から考察していきます。

事前トレーニング

R1の中核は、実は「データ取得」であり、「高品質データ」を再定義するものです。このデータは事前学習に利用できるのでしょうか？答えは自明です。しかし、データ品質が向上した場合、事前学習の上限は上がるのでしょうか？実験的な検証が必要になるかもしれません。

トレーニングプロセスはどうでしょうか？元々は既存データの収集が中心でした。では、より良い、あるいはより適切なデータを生成する方法を検討すべきではないでしょうか？これは動的な反復プロセスになるでしょうか？これは新しいトレーニングパラダイムになる可能性があると思うので、今は事前トレーニングの範疇に入れておきましょう。

トレーニング後

同様に、生成されたデータを用いてSFTの小規模モデル（論文で言及されている蒸留）を再構築し、その後に強化学習（R1-Zero）を応用することができます。さらに、強化学習は段階的に進化させ、難易度を上げたり、応答時間を長くしたりすることも可能です（考えてみてください）。

さらに、後半2段階のSFTとアライメントのステップは、既存の学習後手法と手順自体は同じですが、プロセスは大きく異なります。最大の違いは、R1が各段階で推論関連データと一般データの両方を考慮する必要があることです。この点については、さらに検討する価値のある点がいくつかあります。まず、推論データと一般データの比率は3:1です。この比率が変化するとどうなるでしょうか？次に、いくつかの簡単な質問（挨拶など）に対して、R1はCoT（長鎖推論）を使用して回答しません。ここで「単純」とはどのようにして識別されるのでしょうか？異なるコンテキスト（ユーザーの背景知識を区別するため）に応じて異なる回答をすることは可能でしょうか？最後に、アライメント段階では、R1は推論質問に対して純粋なルールベースの報酬と、人間の好みに対して比較的直感的な手法であるRMの両方を使用します。より優れたRMは見つかるでしょうか？他のルールも組み込んで、人間のように様々なスタイルのLLMを学習させ、生来の「個性」を身につけさせる可能性はあるでしょうか？これらの点は非常に興味深いと思います。

上記の3点は、新しい学習パラダイムを構成するものと言えるでしょうか？意見は様々でしょうが、R1の革新性と貢献は紛れもない事実です。ChatGPTのリリースに劣らず重要な意味を持つと言っても過言ではありません。

推論

前述の通り、R1の主な革新性は学習後の段階にあります。推論における特定の特性は、R1やO1のようなモデルに自然に備わっています。O1については、私の記事「AIの最前線に関する考察」で論じました。

私はずっと、O1は複雑な問題を解決することを目的としているため、限られたシナリオにしか適していないと考えてきました。実際、ボブ（OpenAIの元最高研究責任者）もそう考えており、プログラマーを除けば、ほとんどの人は日常業務でO1が必要になることはないと言っています。

推論時間スケーリング（ITS）に関して、最も初期の（ただし、これが最初の研究かどうかは定かではない）代表的な研究の一つは、DeepMindの「LLMテスト時間計算の最適なスケーリングは、モデルパラメータのスケーリングよりも効果的である可能性がある」という論文です。この論文は主に、「LLMが一定量（ただし無視できない量）の推論時間計算を許容する場合、挑戦的なヒントを用いることでどの程度のパフォーマンス向上が達成できるのか」という疑問に答えています。この論文には、推論時間計算が比較的大きいことと、問題が挑戦的であることという2つの重要な前提があります。この論文は主に、Best-of-N（文字通り、N個の出力をバッチサンプリングし、バリデータまたは報酬モデル（RM）に基づいて最高スコアを選択する）、ランダムサンプリングなどのTTS（テスト時間探索）手法、そしてツリー探索（MCTSなど）といった当時のいくつかのスケーリング手法の有効性を検討しています。主な結論（非常に興味深い）は、推論時間計算と事前学習計算は必ずしも1対1で互換性があるわけではないということです。

単純で中程度の難度の問題（モデルの能力の範囲内）の場合、または推論要件が低い場合、テスト時の計算によって事前トレーニングの欠点を簡単に補うことができます。
ただし、困難な問題(モデルの能力を超える) や推論要件が高い状況では、事前トレーニングの方がパフォーマンスの向上に効果的である可能性があります。

この結論は、モデル自体の能力が極めて重要であることを示しています。推論は欠点を補うことしかできず、欠点を排除することはできません。現時点では、報酬モデル（RM）は依然としてモデルであり、ルールではありません。RMは主に、結果に基づいて報酬を与える客観的報酬モデル（ORM）とプロセスに基づいて報酬を与えるプロセス報酬モデル（PRM）で構成されています。PRMの適用に関しては、R1のリリース直前に行われた2つの優れた研究、MicrosoftのrStar-MathとPRIME-RLのPrimeは一読の価値があります。

ITS アプリケーションの成功例としては、OpenAI の o1: Learning to Reason with LLMs | OpenAI が挙げられます。そこには次のように書かれています。

人間が難しい質問に答える前に長い時間をかけて考えるのと同じように、O1は問題解決を試みる際に思考の連鎖を活用します。強化学習を通じて、O1は思考の連鎖を洗練させ、使用する戦略を改善していきます。誤りを特定して修正する方法を学習します。複雑なステップをより単純なステップに分解する方法を学習します。現在の方法がうまくいかない場合は、異なるアプローチを試す方法を学習します。このプロセスにより、モデルの推論能力は大幅に向上します。

現在私たちが目にするR1アルゴリズムはこの説明に非常に似ており、多くのオープンソースの再現可能なもの（私自身の実験も含む）で実際にこの現象が観察されています。O1アルゴリズムの重要な特徴は「長い思考時間」であり、生成されるデータが比較的長くなることを意味します。実用上、その「長い時間」は時に真に「非常に長い」場合もあり、これはスケーリング手法と見なすことができます。前述のS1論文におけるBudget Forcing法は、スケーリングの一種、すなわちSequential Scalingです。これは、前述のBest-of-NやTree SearchなどのParallel Scaling手法に対応します。

O1がどのようにそれを実現したかは不明です。コミュニティではMCTSを使用した、あるいは少なくとも採用したと推測されていますが、詳細は不明です。しかし、純粋なルールベース強化学習をLLMに適用することに初めて成功したR1については分かっています。さらに重要なのは、R1は（O1と比較して）はるかに高速だったことです。さらに重要なのは、タスクの範囲を複雑なタスクからあらゆるタスクに拡張したことです。これがR1の最も印象的な特徴です。O1は複雑なタスクでは遅いため、ユースケースが限られているように見えますが、R1はあらゆるタスクで高速であり、LLMを新たなレベルに引き上げました。さらに、R1はオープンソースです。

总的来说，R1给LLM在推理方面带来了极大的变革，这是他在后训练上创新体现出来的结果，这种边推理边思考边优化的方式使得LLM离“人”更近了一步。R1之前，LLM有人的能力，但用的时候还是个模型；R1之后，LLM不但有人的能力，用起来也更像人。

其他影响

最后简单谈谈对从业者和行业的影响。我在《ChatGPT原理与应用开发》、《ChatGPT 开发指南：Hugging LLM Hugging Future | Yam》、《ChatGPT 影响冲击：职业、行业与产业| Yam》等等文章以及很多分享中多次提到过相关内容。对于整个开发范式，确实影响不大，甚至会进一步深化，毕竟LLM能力进一步得到了提升。对于NLP算法这个职位也依然是类似观点，但稍微有点不一样了，主要是R1这波给的太多了，给算法指明了新的路径。其实现在的所谓LLM工程师基本来自两波：一大波之前的NLP算法工程师，LLM新技术出现后跟进的；一大波转行或新加入的。不过真正搞算法底层研发的职位注定会越来越少，大部分人还是得老老实实搞应用，包括我本人。但是搞应用的门槛慢慢降下来了，没办法，太火了，人太多了，相关的研究、工具如雨后春笋，虽然质量参差不齐，但行业整体确实欣欣向荣，大浪淘沙，自然而然会有优质内容慢慢浮现。对算法工程师，尤其是LLM相关的算法工程师来说，只懂算法怕是难以应付以后得局面；退一步说，算法工程师你不也得先是个工程师么。LLM以前，只懂一点算法，能跑个模型还可以吃到红利，LLM之后这样的红利怕是会逐步消失殆尽。既是坏事，也是好事，看你怎么理解了。

要約

本文比较详细地介绍了DeepSeek R1及其相关的技术，我们深刻感受到了RL的力量和魅力，更深刻感受到了R1的创新和强大。也难怪ai.com会把链接指向DeepSeek，人家不光有详细的技术报告，还把模型都开源出去了。真的很了不起。

说起来，本文还有个背景，最近偶尔在网上看到有一些行外人士说R1是蒸馏的ChatGPT，还煞有介事的做了LLM的科普视频。看完之后发现视频做的不错，但其中很多观点其实是错误的。令人意外的是，评论区大部分人都是无脑追捧，居然说是全网最好的科普。当然也不乏部分行业人士评论作者的偏颇之处，不过压根没人理会。无论是尬吹还是尬黑，我个人都比较反感。所以本文既是一篇R1相关的技术总结文章，也姑且可以算是一篇（稍有难度的）科普文章。我相信即便有读者无法读懂全部内容，但至少一部分内容还是可以看明白的，我想这就够了。当然，个人能力所限，文章也可能有不准确、不完善的地方，也欢迎读者指正。

最后，我写的很爽，希望你也能读的爽。我们就用分享时最后的个人观点来结束本文：R1发迹于OpenAI-o1，但超越了o1。他提升了LLM的整体能力，让模型真正在推理时进行自我反思和验证，这当然适用于复杂问题，但很多日常普通场景也能受益，AI更加像人。这是R1对整个行业的贡献，其作用不亚于ChatGPT的发布。

付録

付録1

笔者曾提到强化学习的相关文章，有些内容可能很幼稚甚至不对，还望读者海涵。

2024关于AI前沿的思考| Yam
2024 LLM Tiny Pretrain：H2O-Danube and Stable LM | Yam
2023关于大语言模型的思考| Yam
2023 ChatGPT 基础科普：知其一点所以然| Yam 或《ChatGPT原理与应用开发》第一章
2020 NLP 表征的历史与未来| Yam
2020 RoBERTa 论文+代码笔记| Yam
2020 Bart 论文+代码笔记| Yam
2018西蒙《人工科学》读书笔记| Yam
2018 NLP 与AI | Yam

博客仓库：https://yam.gift/，以上文章均可在里面找到。

いいね！（3件のいいね！）↓

618ZXW