618ZXW

DeepSeekの新モデルは、OpenAI o1に匹敵するコード性能とオープンソース認証を誇り、ランキングで首位を獲得しました。ネットユーザーからは「今年のプログラミングはTabキーだけ」というコメントが寄せられています。

o1 の DeepSeek バージョンに関するニュースがあります。

正式リリース前にもかかわらず、すでにLiveCodeBench ベンチマーク チャートでトップを獲得しており、 OpenAI o1 の中程度の推論設定に匹敵するパフォーマンスを発揮しています。

これは、公式 DeepSeek アプリですでに試用可能な DeepSeek-R1-Lite-Preview (軽量プレビュー バージョン) ではないことにご注意ください。

代わりに、「軽量版」というラベルを削除し、より大型の基本モデルに取って代わることを意味するDeepSeek-R1-Previewとして知られるようになりました。

LiveCodeBenchチームは、新しいモデルの機能を評価するためにDeepSeekと協力していることを明らかにしました。この協力の中で、DeepSeekチームはスコアリングシステムのバグの特定と解決にも協力しました。

同時に、彼らは現在までに所有している唯一の DeepSeek-R1-Preview サンプルも公開し、その思考プロセスを示しました。

DeepSeekは以前、R1モデルをオープンソース化すると発表したことから、一部のネットユーザーの間では、OpenAI o1に匹敵するプログラミング機能を備えたオープンソースモデルがリリースされようとしており、2025年にはプログラミングはTabキーを押すだけになるだろうとの声も上がっている。

DeepSeek推論モデル フルパワー版

2か月前、DeepSeekは公式ウェブサイトでDeepSeek-R1-Lite-Previewを公開し、次のことを明らかにしました。

DeepSeek-R1-Lite-Preview はトレーニングに強化学習を使用し、その推論には新しいスケーリング法則に従った大量の反映と検証が含まれます。

推論が長ければ長いほど、パフォーマンスは強くなります。

AIME ベンチマークでは、DeepSeek-R1-Lite-Preview は推論の長さが長くなるにつれてスコアが着実に向上しました。

DeepSeek-R1-Lite の推論機能は、ユーザーによる後続のテストで検証されています。

モデルによっては、推論ステップを生成する際に自己修正が可能で、ネイティブに近い「自己反省」能力を発揮しているように見えるケースもあります。しかし、学習データ、モデルアーキテクチャ、技術レポート/論文の詳細がなければ、これを確認することは困難です。

今後のオープンソース モデルと API に期待しています。

「Lite」ラベルを削除して DeepSeek-R1-Preview になることは、より大きなベース モデルに切り替えることを意味します。

Lite バージョンは以前、o1-preview を上回り、より難しい数学およびコーディング タスクでは GPT-4o を大幅に上回りました。

LiveCodeBenchでは、DeepSeek-R1-PreviewのパフォーマンスはOpenAI o1-Mediumと同等であり、オープンソース モデルとAPIに対するネットユーザーの期待をさらに高めています。

LiveCodeBench は、カリフォルニア大学バークレー校、MIT、コーネル大学のチームによって開発され、大規模モデルのコーディング機能を包括的かつ汚染のない方法で評価することを目的としています。

テストデータの漏洩を防ぐ具体的な方法は、ヒューマンプログラミング競技プラットフォームから継続的に新しい問題を継続的に収集することです。

コード生成に加えて、コードの自己修復、実行、テスト出力の予測などの分野におけるモデルの機能も評価されます。

リアルタイム更新を伴い、公平性と信頼性を確保するこのテスト方法は、開発者コミュニティから高い評価を得ています。

一部のプログラマーは、Cursor に R1-Preview を Agent モードに直接統合するよう求めています。

もう一つ

春節前には、まだモデルのトレーニング中だった国内の大規模モデルチームの多くが、独自のモデルを更新しました。

MiniMaxが4MBの超長コンテキストモデルをオープンソース化!DeepSeek-v3やGPT-400に匹敵するパフォーマンスを実現。

世界初!中国国産のオープンソースAIエッジコンピューティングプラットフォーム「GPT-4o」が海外で大ヒット。わずか80億個のパラメータでiPad上で動作します。

中国最強の算数プログラム!iFlytek O1でテスト済み。オリンピックや大学入試問題にも対応し、冬休みの宿題にも役立ちます。

Alibaba が初の視覚推論モデルをオープンソース化し、GPT-4o を上回り、Web ページが一時的に 404 エラーを返すようになりました。

...

OpenAIはこの祝日を利用して何か大きなことを始めようとしているようです(doge)。Ultramanがヒントを投稿しました:

o3-miniは外部連携テストを完了し、最終バージョンが決定しました。数週間以内にリリースされ、APIとChatGPTで同時に利用可能になります。

その後の会話で、ウルトラマンは将来のモデルに関するより基本的な詳細も確認しました。

  • o3-mini は非常に高速になります。
  • ほとんどの場合、o3-mini は o1-pro ほど優れていません。
  • o3 proは月額200ドルから
  • OpenAI は、AI が一度により多くのコンテンツを出力できるようにする方法に重点を置いています。
  • 2025年までにGPTシリーズとoシリーズを統合する計画だ。

参考リンク: [1]https://x.com/StringChaos/sta... [2]https://x.com/deepseek_ai/status/1859200149844803724 [3]https://x.com/sama/status/188...