618ZXW

DeepSeek-R1は引き続き注目を集めており、Open R1も参戦しました!Hugfaceが開始したキャンペーンは、わずか1日で1,900個のスターを獲得しました。

OpenAI が初めて Sora の可能性を発表したとき、Open Sora プロジェクトは驚くほど人気を博しました。

現在、この「オープン」の流れは逆方向にも吹き始めており、その最新のターゲットは国産大型機種「DeepSeek-R1」となっている。

Open R1 プロジェクトは HuggingFace によって開始され、共同設立者兼 CEO の Clem Delangue は次のように述べています。

私たちの科学チームは、トレーニング データ、トレーニング スクリプトなどを含む R1 の完全な複製とオープンソース化に取り組み始めました。

私たちは、オープンソースAIの力を最大限に活用し、世界中の誰もがAIの進歩の恩恵を受けられるようにしたいと考えています。これは、AIに関する誤解を解くことにもつながると信じています。

HuggingFaceの呼びかけは即座に歓声を浴び、プロジェクト開始からわずか1日でGitHubで1,900個のスターを獲得しました。

この DeepSeek-R1 の波は世界中のモデル コミュニティに本当に衝撃を与えたようで、その影響は今も続いています。

R1を開く

しかし、DeepSeek-R1自体はオープンソースなのに、なぜHuggingFaceはこの「Open R1」プロジェクトを作成したのでしょうか?

公式の説明はプロジェクトページに記載されています。

このプロジェクトの目標は、R1 パイプラインの重要な部分を構築し、誰もがその上に R1 を複製して構築できるようにすることです。

HuggingFace は、DeepSeek-R1 技術レポートに従って、このプロジェクトを 3 つのステップで完了すると述べています。

  • ステップ 1: DeepSeek-R1 を使用して、R1-Distill モデルを複製するための高品質のコーパスを抽出します。
  • ステップ2:DeepSeekがR1-Zeroの構築に使用した純粋な強化学習(RL)パイプラインを複製します。これには、数学、推論、およびコード用の新しい大規模なデータセットの準備が含まれる場合があります。
  • ステップ 3: 多段階のトレーニングを通じて、ベース モデルから RL バージョンに移行します。

DeepSeek の公式技術レポートによると、Open R1 プロジェクトの最初のステップは、R1 データを使用して小さなモデルを抽出し、その結果が DeepSeek の主張どおりであるかどうかを確認することです。

DeepSeek は、R1 蒸留を使用した 6 つの小さなモデルをオープンソース化しており、そのうちの蒸留バージョンである Qwen-1.5 は、一部のタスクでは GPT-4o を上回るパフォーマンスを発揮します。

次に、DeepSeek の提案に従って、RL を使用して SFT なしで R1-Zero をトレーニングし、R1-Zero に基づいて o1 に近いパフォーマンスで R1 モデルを複製します。

マルチステージトレーニングとは、R1技術レポートに記載されているように、DeepSeek-R1トレーニングプロセスで導入されたマルチステージトレーニングプロセスを指します。このプロセスには、以下の4つのステージが含まれます。

  • コールドスタート

何千もの長い思考連鎖 (CoT) サンプルを使用した基本モデルの教師あり微調整 (SFT) により、モデルに初期推論機能が提供されます。

  • 推論のための強化学習

最初の SFT ステージを基に、R1-Zero のトレーニングに使用されたものと同じ大規模強化学習方法を使用して、モデルの推論能力、特にプログラミング、数学、科学、論理的推論タスクを処理する能力がさらに強化されます。

  • サンプル採取と微調整の監督の拒否

教師あり微調整は、事実の知識や会話能力など、モデルの非推論機能を向上させるために再び使用されます。

  • あらゆるシナリオに対応する強化学習

この強化学習アプローチの焦点は、モデルの動作を人間の好みに合わせ、それによってモデルの使いやすさと安全性を向上させることです。

現在、これらのファイルは GitHub リポジトリにあります。

  • GRPOの実装
  • コードのトレーニングと評価
  • 合成データジェネレータ

ウルトラマンはもうじっと座っていられなかった。

興味深いことに、ウルトラマンですら R1 ブームに黙っていられなかった。

そして彼は再び登場し、o3-mini の最新のネタバレをお届けします。

ChatGPT Plus メンバーは、1 日に 100 件の o3-mini クエリを受信できます。

Plus メンバーはまもなくこのオペレーターを使用できるようになります。私たちはこれを利用できるように全力で取り組んでいます。

次の Smart Agent Plus メンバーシップは、最初のリリース時に利用可能になります。

これらの言葉が話された瞬間、空気は喜びに満ちた雰囲気で満たされました(doge):

すごい!DeepSeek が OpenAI に大規模なバーゲンセールをやらせている!

参考リンク:
[1]https://github.com/huggingfac... [2]https://x.com/ClementDelangue...

- 以上-