世界中でDeepSeekリメイクブームが巻き起こっています。その概要を1つの記事にまとめました。

データホエール

データホエールの共有

複製元: DeepSeek、出典: Synced、QuantumBit

DeepSeek を模倣する世界的な熱狂が到来しました。

LeCun 氏は、「今回は、オープンソースがクローズドソースに勝利したのです!」と述べました。

最高級のチップを入手できないにもかかわらず、極めて低コストのチップで画期的なモデルをトレーニングするDeepSeekは、米国のAI覇権を脅かす可能性がある。
大規模モデル間の競争は、もはや数兆ドル相当の計算能力をめぐる戦いではありません。
OpenAI、Meta、Google などの大企業が誇る技術的優位性と高い評価は崩れ、Nvidia の株価は変動し始めるでしょう。

こうした意見や議論を見ると、疑問が湧いてくる。この業界に何千億ドルもの資金を費やすことは本当に必要なのだろうか？中には、中国のクオンツファンドの天才集団がナスダックを暴落させるだろうとさえ言う人もいる。

この時点から、大規模モデルの時代は転換点を迎えることになるでしょう。つまり、高性能モデルはもはやコンピューティング大手だけのものではなく、誰もが利用できるようになるのです。

プロジェクトアドレスの概要は次のとおりです。

ディープシーク-R1:

https://github.com/deepseek-a...

ハグギングフェイス：

https://github.com/huggingfac...

バークレーチーム:

https://github.com/Jiayi-Pan/...

HKUSTチーム:

https://github.com/hkust-nlp/...

Open R1: DeepSeek-R1 の完全オープンソース複製

本日、HuggingFace チームは、DeepSeek R1 のすべてのパイプラインの複製を正式に発表しました。

レプリケーションが完了すると、すべてのトレーニングデータ、トレーニングスクリプトなどがオープンソースになります。

このプロジェクトはOpen R1と呼ばれ、現在も進行中です。現在までに3,400以上のスターを獲得し、255のフォークを獲得しています。

プロジェクトアドレス: https://github.com/huggingfac...

しかし、DeepSeek-R1自体はオープンソースなのに、なぜHuggingFaceはこの「Open R1」プロジェクトを作成したのでしょうか?

公式の説明はプロジェクトページに記載されています。

このプロジェクトの目標は、R1 パイプラインの不足している部分を構築し、誰もがその上に R1 を複製して構築できるようにすることです。

HuggingFace は、DeepSeek-R1 技術レポートに従って、このプロジェクトを 3 つのステップで完了すると述べています。

ステップ 1: DeepSeek-R1 を使用して、R1-Distill モデルを複製するための高品質のコーパスを抽出します。
ステップ2：DeepSeekがR1-Zeroの構築に使用した純粋な強化学習（RL）パイプラインを複製します。これには、数学、推論、およびコード用の新しい大規模なデータセットの準備が含まれる場合があります。
ステップ 3: 多段階のトレーニングを通じて、ベースモデルから RL バージョンに移行します。

DeepSeek の公式技術レポートによると、Open R1 プロジェクトの最初のステップは、R1 データを使用して小さなモデルを抽出し、その結果が DeepSeek の主張どおりであるかどうかを確認することです。

DeepSeek は、R1 蒸留を使用した 6 つの小さなモデルをオープンソース化しており、そのうちの蒸留バージョンである Qwen-1.5 は、一部のタスクでは GPT-4o を上回るパフォーマンスを発揮します。

次に、DeepSeek の提案に従って、RL を使用して SFT なしで R1-Zero をトレーニングし、R1-Zero に基づいて o1 に近いパフォーマンスで R1 モデルを複製します。

マルチステージトレーニングとは、R1技術レポートに記載されているように、DeepSeek-R1トレーニングプロセスで導入されたマルチステージトレーニングプロセスを指します。このプロセスには、以下の4つのステージが含まれます。

コールドスタート

何千もの長い思考連鎖 (CoT) サンプルを使用した基本モデルの教師あり微調整 (SFT) により、モデルに初期推論機能が提供されます。

推論のための強化学習

最初の SFT ステージを基に、R1-Zero のトレーニングに使用されたものと同じ大規模強化学習方法を使用して、モデルの推論能力、特にプログラミング、数学、科学、論理的推論タスクを処理する能力がさらに強化されます。

サンプル採取と微調整の監督の拒否

教師あり微調整は、事実の知識や会話能力など、モデルの非推論機能を向上させるために再び使用されます。

あらゆるシナリオに対応する強化学習

この強化学習アプローチの焦点は、モデルの動作を人間の好みに合わせ、それによってモデルの使いやすさと安全性を向上させることです。

現在、これらのファイルは GitHub リポジトリにあります。

GRPOの実装
コードのトレーニングと評価
合成データジェネレータ

バークレーのチームがR1-Zeroを30ドルのコストで再現

カリフォルニア大学バークレー校の博士課程学生である Jiayi Pan 氏と他の 2 人の研究者は、CountDown ゲームで DeepSeek R1-Zero を再現しました。

結果は抜群だったそうです！

実験では、強化学習（RL）を通じて、3Bの基本言語モデルも自己検証と検索ができることを研究チームが検証した。

さらに素晴らしいのは、たった30ドル（約217元）で、「なるほど！」という瞬間を直接体験できるということだ。

TinyZero と呼ばれるこのプロジェクトは、R1-Zero アルゴリズムを使用しており、基本言語モデル、キュー、実際の報酬信号が与えられると、強化学習を実行します。

その後、チームはそれをカウントダウンゲーム（プレイヤーが基本的な計算を使用して数字を組み合わせて目標数に到達するゲーム）に適用しました。

モデルは単純な出力から始まり、徐々に自己修正および検索戦略へと進化します。

次の例では、モデルは解決策を提案し、それを検証し、問題が解決されるまで繰り返し修正します。

アブレーション実験では、研究者らは Qwen-2.5-Base (4 つのパラメータスケール: 0.5B、1.5B、3B、7B) を実行しました。

結果は、0.5Bモデルは単に解を推測し、その後停止したことを示しました。1.5B以降、モデルは解の探索、自己検証、修正を学習し、より高いスコアを達成しました。

彼らは、ベースモデルのパラメータサイズがこのプロセスのパフォーマンスを決定する重要な要素であると考えています。

また、追加の命令の微調整 (SFT) は不要であることも検証され、R1-Zero の設計上の決定が確認されました。

これは、LLM の推論機能が、教師ありの微調整なしで、純粋に RL によって実現できることを検証した最初のオープンソース研究です。

基本モデルと命令モデルの違い:

命令モデルは高速に実行されますが、最終的なパフォーマンスは基本モデルに匹敵します。
命令出力モデルはより構造化され、読みやすくなりました。

さらに、彼らは特定の強化学習アルゴリズムは重要ではないことを発見しました。長いCoTはPPO、GRPO、PRIMEなどのアルゴリズムで出現し、良好なパフォーマンスを示しました。

さらに、モデルの推論動作は特定のタスクに大きく依存します。

カウントダウンタスクでは、モデルは検索と自己検証を実行することを学習します。
数字の乗算タスクの場合、モデルは分配規則を使用して問題を分解することを学習し、段階的に解決します。

Appleの機械学習科学者であるYizhe Zhang氏は、「これは素晴らしい。15億という小さなモデルでも、強化学習を通じて出現し、自己検証できるようになる」と述べた。

HKUST チームは 8K のサンプルを使用して 7B モデルの複製を完了しました。

香港科技大学の Ho Chun-yin 助教授が率いるチーム (共同第一著者 Huang Yu-zhen および Weihao Zeng) は、わずか 8K のサンプルを使用して 7B モデルで DeepSeek-R1-Zero と DeepSeek-R1 のトレーニングを再現しました。

結果は驚くべきものでした。モデルは複雑な数学的推論において非常に優れた結果を達成しました。

プロジェクトアドレス: https://github.com/hkust-nlp/...

彼らはQwen2.5-Math-7B（基本モデル）から始めて、強化学習を直接適用しました。

プロセス全体を通じて、教師あり微調整 (SFT) は実行されず、報酬モデルも使用されませんでした。

最終的に、このモデルは AIME ベンチマークで 33.3%、AMC ベンチマークで 62.5%、MATH ベンチマークで 77.2% の精度を達成しました。

このパフォーマンスは、Qwen2.5-Math-7B-Instruct を上回るだけでなく、50 倍以上のデータ量を使用し、より複雑なコンポーネントを持つ PRIME や rStar-MATH にも匹敵します。

その中で、Qwen2.5-7B-SimpleRL-Zero は、純粋な PPO メソッドと MATH データセットからの 8K サンプルのみを使用して、Qwen2.5-Math-7B ベースモデルでトレーニングされました。

Qwen2.5-7B-SimpleRL は、まず Long CoT 教師あり微調整 (SFT) をコールドスタートとして使用し、その後強化学習に進みます。

どちらのアプローチでも、チームは同じ 8K MATH サンプルのみを使用し、それ以上は使用しませんでした。

ステップ 44 あたりで、「なるほど！」という瞬間が訪れました。モデルの反応には自己反省も含まれていました。

さらに、このプロセス中に、モデルはより長い CoT 推論能力と自己反省能力も示しました。

研究者らはブログで、実験設定と、この強化学習トレーニングプロセス中に観察された長連鎖思考（CoT）や自己反省メカニズムの自発的な形成などの現象の詳細な分析を提供した。

DeepSeek R1 と同様に、研究者の強化学習アプローチは、報酬モデルや MCTS (モンテカルロツリーサーチ) などの手法を使用せず、非常にシンプルです。

彼らは PPO アルゴリズムを使用し、生成された出力の形式と正確さに基づいて報酬を割り当てるルールベースの報酬関数を採用しました。

出力が指定された形式で最終的な回答を提供し、それが正しい場合は、+1 ボーナスを受け取ります。
出力が最終的な答えを提供するが、それが正しくない場合、報酬は -0.5 に設定されます。
出力が最終的な答えを提供できない場合、報酬は -1 に設定されます。

この実装はOpenRLHFに基づいています。予備実験では、この報酬関数によってポリシーモデルの収束が促進され、目的の形式で出力が生成されることが示されています。

パート1：SimpleRL-Zero（ゼロからの強化学習）

次に、研究者たちは、トレーニングプロセスの動的分析と、いくつかの興味深い出現パターンを私たちと共有しました。

トレーニングプロセスの動的分析

以下に示すように、すべてのベンチマークテストの精度はトレーニング中に着実に向上しますが、出力の長さは最初は減少し、その後徐々に増加します。

さらに調査を進めると、Qwen2.5-Math-7B ベースモデルは初期段階で大量のコードを生成する傾向があることがわかりました。これは、モデルの元のトレーニングデータの分布特性に起因する可能性があります。

出力の長さが最初に減少するのは、強化学習のトレーニングによってこのコード生成パターンが徐々に排除され、代わりに推論に自然言語を使用するように学習するためです。

その後、世代の長さは再び増加し始め、その時点で自己反省のメカニズムが出現しました。

トレーニング報酬と出力の長さ

ベンチマーク精度（パス@1）と出力長

自己反省メカニズムの出現

トレーニングのステップ 40 あたりで、研究者はモデルが自己反省モードを開発し始めたことを観察しました。これはまさに、DeepSeek-R1 の論文で「アハ体験」と表現されているものです。

パート2：SimpleRL（模倣ウォームアップに基づく強化学習）

前述のように、研究者らは強化学習を行う前に、QwQ-32B-Preview から抽出した 8,000 件の MATH サンプル応答を SFT データセットとして使用して、長時間の CoT SFT ウォームアップを実行しました。

このコールドスタートの潜在的な利点は、モデルが強化学習を開始するときにすでに長い CoT の考え方と自己反省能力を備えているため、強化学習フェーズでより高速かつ優れた学習結果を達成できる可能性があることです。

RL トレーニング前のモデル (Qwen2.5-Math-7B-Base + 8K QwQ 知識蒸留バージョン) と比較して、Qwen2.5-7B-SimpleRL は平均パフォーマンスを 6.9 パーセントポイント大幅に向上しました。

さらに、Qwen2.5-7B-SimpleRL は、Eurus-2-7B-PRIME を一貫して上回るだけでなく、5 つのベンチマークテストのうち 3 つで Qwen2.5-7B-SimpleRL-Zero を上回ります。

トレーニングプロセス分析

トレーニング報酬と出力の長さ

ベンチマーク精度（パス@1）と出力長

Qwen2.5-SimpleRL のトレーニングダイナミクスは、Qwen2.5-SimpleRL-Zero のトレーニングダイナミクスと似ています。

興味深いことに、研究者は最初に長い CoT SFT を実行したにもかかわらず、強化学習の初期段階で出力の長さが短縮されることを観察しました。

これは、QwQ から抽出された推論パターンが小規模なポリシーモデルには適していないか、その能力を超えているためではないかと推測されています。

したがって、モデルはこのアプローチを放棄し、代わりに独自の新しい長鎖推論方法を開発することを選択しました。

最後に研究者たちはレオナルド・ダ・ヴィンチの言葉を引用して研究をまとめた。

シンプルさは洗練の究極形です。

スタンフォード大学から MIT まで、R1 が好まれる選択肢となっています。

ある副業プロジェクトが世界中の大手テクノロジー企業に衝撃を与えている。

DeepSeekの成功は業界の伝説となっています。ネットユーザーが投稿した最新のスクリーンショットを見ると、このアプリは既にApp Storeの「生産性」アプリリストのトップ3にランクインしていることがわかります。

「Hugging Face」では、R1 がダウンロードチャートのトップを占め、他の 3 つのモデルもトレンドリストを独占しました。

a16z のパートナーである Anjney Midha 氏によると、DeepSeek R1 は一夜にして、スタンフォード大学から MIT まで、米国のトップ大学の研究者にとって「最適なモデル」となったという。

一部の研究者は、DeepSeek が本質的に ChatGPT の必要性をなくしたと述べています。

中国のAIは今回、本当に世界に衝撃を与えた。

参考文献:

https://x.com/junxian_he/status/1883183099787571519

https://x.com/jiayi_pirate/status/1882839370505621655

いいね、コメント、シェアをお願いします！↓

618ZXW

世界中でDeepSeekリメイクブームが巻き起こっています。その概要を1つの記事にまとめました。

パート1：SimpleRL-Zero（ゼロからの強化学習）

トレーニングプロセスの動的分析

自己反省メカニズムの出現

パート2：SimpleRL（模倣ウォームアップに基づく強化学習）

トレーニングプロセス分析

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ