618ZXW

DeepSeekは新たなOrigin Godです!推論モデルO1は、50分の1のパフォーマンスを低価格で提供し、微調整と商用グレードの抽出は完全に無料です。

DeepSeek の新リリースは期待をはるかに上回り、Reddit にはそれに関する投稿が殺到しています。

このイベントには3つの主要なイベントがあります。

  • オープンソースのDeepSeek-R1 推論モデルは、 O1 と同様のパフォーマンスを備えています。
  • オープンソースのDeepSeek-R1-Zero は、 SFT を経由せずに直接 RL に事前トレーニング済みのモデルを使用するため、言語モデルに関しては AlphaZero に匹敵します。
  • R1 データから抽出されたオープンソースの Qwen および Llama シリーズの小規模モデルは、特定のタスクでは GPT-4o よりも優れています。

同時に、公式 API が公開されており、入力トークン (キャッシュにヒット) の価格が OpenAI o1 の 1/50 に過ぎず、出力トークン (キャッシュにヒットしない) の価格は約 1/27 です。

この論文には、繰り返し議論されてきた細かい点が他にもたくさんあります。

R1-Zero モデルは、思考プロセス中に「ひらめきの瞬間」を生み出し、問題について考える時間をもっと割り当てることを学習します。

ネットユーザーは次に何が起こるのかと推測し始めた。もし悟りの力が確実に使えるようになれば…一体どこへ繋がるのか、誰にも分からない。

さらに、コミュニティでは現在、OpenAI の o1-pro/o3 がエージェントツリー アプローチを使用している可能性があると推測しています。このアプローチでは、o1 のクローンがたくさんいて個別に質問に回答し、その後、何らかの方法で最適な回答が選択されます。

DeepSeek-R1 を Search-o1 および Tree-of-Agents (約 50 エージェント) と組み合わせると、o3 と同様のパフォーマンスを非常に低いコストで実現でき、潜在的には数百倍安くなります。

DeepSeekは、R1データセットから抽出された合計6つの小規模モデルをリリースしました。そのうち、抽出版Qwen-1.5Bは、一部のタスクにおいてGPT-4oを上回る性能を発揮します

DeepSeek はオープンソース ライセンスも更新し、現在はMIT ライセンスの下でライセンスされています。

R1はオープンソースなので、R1データを好きなだけ実行できます。APIは抽出や微調整に使用でき、商用利用も無料です。

新たな源神が現れた!

DeepSeekの新リリース

OpenAI の o1 シリーズ モデルは推論時間スケーリングの概念の先駆者であり、思考連鎖推論プロセスの長さを増やすことで、数学、プログラミング、科学的推論などのタスクのパフォーマンスを大幅に向上させました。

これまでの研究では、プロセスベースの報酬モデル、強化学習、モンテカルロ木探索、バンドル探索などの方法が検討されてきましたが、一般的な推論パフォーマンスにおいて O1 シリーズモデルのレベルを達成した方法はまだありません。

ディープシーク-R1-ゼロ

DeepSeek チームは、純粋な強化学習を使用して言語モデルの推論機能を向上させるための第一歩を踏み出しました。

彼らの目標は、教師ありデータなしで純粋な強化学習プロセスを通じて大規模なモデルが自ら進化し、推論能力を獲得する方法を探ることです。

具体的には、DeepSeek-V3-Base をベースモデルとして使用し、強化学習フレームワークとして GRPO (Group Relative Policy Optimization) を採用して、推論タスクにおけるモデルのパフォーマンスを向上させました。

トレーニング中、DeepSeek-R1-Zero は多くの強力で興味深い推論動作を自然に示しました。

数千ステップの強化学習を経て、DeepSeek-R1-Zero は推論ベンチマーク テストで非常に優れたパフォーマンスを発揮しました。

たとえば、AIME 2024 の pass@1 スコアは 15.6% から 71.0% に向上し、さらに多数決により 86.7% に向上し、OpenAI-o1-0912 のパフォーマンスに匹敵します。

ディープシーク-R1

しかし、 DeepSeek-R1-Zero も、読みにくさや言語の混在といった課題に直面しています

これらの問題に対処し、推論パフォーマンスをさらに向上させるために、研究チームは、少量のコールドスタートデータと多段階のトレーニングプロセスを組み合わせた DeepSeek-R1 を提案しました。

具体的には、まずDeepSeek-V3-Baseモデルを微調整するために、数千のコールドスタートデータポイントを収集しました。その後、DeepSeek-R1-Zeroと同様の推論指向強化学習を実行しました。

強化学習プロセスが収束に近づくと、強化学習チェックポイントで拒否サンプリングを実行して新しい SFT データを作成し、それを書き込み、事実に基づく質問への回答、自己認識などの領域での DeepSeek-V3 からの教師ありデータと組み合わせて、DeepSeek-V3-Base モデルを再トレーニングします。

新しいデータで微調整された後、チェックポイントは、すべてのシナリオからの手がかりを考慮した追加の強化学習プロセスも実行されました。

これらの手順を経て、彼らは DeepSeek-R1 と呼ばれるチェックポイントを取得しました。そのパフォーマンスは OpenAI-o1-1217 に匹敵します。

R1データ蒸留モデル

DeepSeekチームは、DeepSeek-R1からより小規模で高密度なモデルへの抽出をさらに検討しました。Qwen2.5-32Bをベースモデルとして使用したところ、DeepSeek-R1からの直接抽出は、その上に強化学習を適用した場合よりも優れたパフォーマンスを示しました。

これは、より大きな基礎モデルによって発見された推論パターンが推論能力の向上に重要であることを示唆しています。

彼らは、抽出したQwenモデルとLlamaモデルをオープンソース化しました。特筆すべきは、抽出した14Bモデルが推論ベンチマークにおいて、現在の最先端のオープンソースQwQ-32B-Previewを大幅に上回り、抽出した32Bモデルと70Bモデルは、高密度モデルにおける推論タスクの新たなベンチマークを打ち立てたことです。

最後に、チームは、他の人が同じ間違いをしないように、実験中に失敗した多くの試みも共有しました。

DeepSeek は、プロセス報酬モデルとモンテカルロ ツリー検索アルゴリズムの進歩に失敗しました。

しかし、彼らはまた、失敗はこれらの方法が効果的な推論モデルを開発できないことを意味するものではないと強調した。

今後、彼らは、一般的な機能の向上、言語混合問題の解決、プロンプト語の感度問題の最適化、ソフトウェア エンジニアリング タスクのパフォーマンスの向上といった分野で研究を継続する予定です。

もう一つ

英語を母国語とする人々も、論文の文言や文章構造を指摘し、チームが大規模なモデルを使って書いた可能性が高いことを示唆した。

一方、多くのDeepSeek論文の著者リストの先頭に「DeepSeek-AI」が出てくることに気づいた人は多いでしょう。

論文リンク: https://github.com/deepseek-a..._R1.pdf

参考リンク: [1]https://x.com/deepseek_ai/status/1881318130334814301 [2]https://www.reddit.com/r/sing..._discovered_their_new_model_having_an_aha/