|
OpenAI が初めて Sora の可能性を発表したとき、Open Sora プロジェクトは驚くほど人気を博しました。 現在、この「オープン」の流れは逆方向にも吹き始めており、その最新のターゲットは国産大型機種「DeepSeek-R1」となっている。 Open R1 プロジェクトは HuggingFace によって開始され、共同設立者兼 CEO の Clem Delangue は次のように述べています。
HuggingFaceの呼びかけは即座に歓声を浴び、プロジェクト開始からわずか1日でGitHubで1,900個のスターを獲得しました。 この DeepSeek-R1 の波は世界中のモデル コミュニティに本当に衝撃を与えたようで、その影響は今も続いています。 R1を開くしかし、DeepSeek-R1自体はオープンソースなのに、なぜHuggingFaceはこの「Open R1」プロジェクトを作成したのでしょうか? 公式の説明はプロジェクトページに記載されています。 このプロジェクトの目標は、R1 パイプラインの重要な部分を構築し、誰もがその上に R1 を複製して構築できるようにすることです。 HuggingFace は、DeepSeek-R1 技術レポートに従って、このプロジェクトを 3 つのステップで完了すると述べています。
DeepSeek の公式技術レポートによると、Open R1 プロジェクトの最初のステップは、R1 データを使用して小さなモデルを抽出し、その結果が DeepSeek の主張どおりであるかどうかを確認することです。 DeepSeek は、R1 蒸留を使用した 6 つの小さなモデルをオープンソース化しており、そのうちの蒸留バージョンである Qwen-1.5 は、一部のタスクでは GPT-4o を上回るパフォーマンスを発揮します。 次に、DeepSeek の提案に従って、RL を使用して SFT なしで R1-Zero をトレーニングし、R1-Zero に基づいて o1 に近いパフォーマンスで R1 モデルを複製します。 マルチステージトレーニングとは、R1技術レポートに記載されているように、DeepSeek-R1トレーニングプロセスで導入されたマルチステージトレーニングプロセスを指します。このプロセスには、以下の4つのステージが含まれます。
何千もの長い思考連鎖 (CoT) サンプルを使用した基本モデルの教師あり微調整 (SFT) により、モデルに初期推論機能が提供されます。
最初の SFT ステージを基に、R1-Zero のトレーニングに使用されたものと同じ大規模強化学習方法を使用して、モデルの推論能力、特にプログラミング、数学、科学、論理的推論タスクを処理する能力がさらに強化されます。
教師あり微調整は、事実の知識や会話能力など、モデルの非推論機能を向上させるために再び使用されます。
この強化学習アプローチの焦点は、モデルの動作を人間の好みに合わせ、それによってモデルの使いやすさと安全性を向上させることです。 現在、これらのファイルは GitHub リポジトリにあります。
ウルトラマンはもうじっと座っていられなかった。興味深いことに、ウルトラマンですら R1 ブームに黙っていられなかった。 そして彼は再び登場し、o3-mini の最新のネタバレをお届けします。
これらの言葉が話された瞬間、空気は喜びに満ちた雰囲気で満たされました(doge): すごい!DeepSeek が OpenAI に大規模なバーゲンセールをやらせている! 参考リンク: - 以上- |