|
o1 の DeepSeek バージョンに関するニュースがあります。 正式リリース前にもかかわらず、すでにLiveCodeBench ベンチマーク チャートでトップを獲得しており、 OpenAI o1 の中程度の推論設定に匹敵するパフォーマンスを発揮しています。 これは、公式 DeepSeek アプリですでに試用可能な DeepSeek-R1-Lite-Preview (軽量プレビュー バージョン) ではないことにご注意ください。 代わりに、「軽量版」というラベルを削除し、より大型の基本モデルに取って代わることを意味するDeepSeek-R1-Previewとして知られるようになりました。 LiveCodeBenchチームは、新しいモデルの機能を評価するためにDeepSeekと協力していることを明らかにしました。この協力の中で、DeepSeekチームはスコアリングシステムのバグの特定と解決にも協力しました。 同時に、彼らは現在までに所有している唯一の DeepSeek-R1-Preview サンプルも公開し、その思考プロセスを示しました。 DeepSeekは以前、R1モデルをオープンソース化すると発表したことから、一部のネットユーザーの間では、OpenAI o1に匹敵するプログラミング機能を備えたオープンソースモデルがリリースされようとしており、2025年にはプログラミングはTabキーを押すだけになるだろうとの声も上がっている。 DeepSeek推論モデル フルパワー版2か月前、DeepSeekは公式ウェブサイトでDeepSeek-R1-Lite-Previewを公開し、次のことを明らかにしました。 DeepSeek-R1-Lite-Preview はトレーニングに強化学習を使用し、その推論には新しいスケーリング法則に従った大量の反映と検証が含まれます。 推論が長ければ長いほど、パフォーマンスは強くなります。 AIME ベンチマークでは、DeepSeek-R1-Lite-Preview は推論の長さが長くなるにつれてスコアが着実に向上しました。 DeepSeek-R1-Lite の推論機能は、ユーザーによる後続のテストで検証されています。
「Lite」ラベルを削除して DeepSeek-R1-Preview になることは、より大きなベース モデルに切り替えることを意味します。 Lite バージョンは以前、o1-preview を上回り、より難しい数学およびコーディング タスクでは GPT-4o を大幅に上回りました。 LiveCodeBenchでは、DeepSeek-R1-PreviewのパフォーマンスはOpenAI o1-Mediumと同等であり、オープンソース モデルとAPIに対するネットユーザーの期待をさらに高めています。 LiveCodeBench は、カリフォルニア大学バークレー校、MIT、コーネル大学のチームによって開発され、大規模モデルのコーディング機能を包括的かつ汚染のない方法で評価することを目的としています。 テストデータの漏洩を防ぐ具体的な方法は、ヒューマンプログラミング競技プラットフォームから継続的に新しい問題を継続的に収集することです。 コード生成に加えて、コードの自己修復、実行、テスト出力の予測などの分野におけるモデルの機能も評価されます。 リアルタイム更新を伴い、公平性と信頼性を確保するこのテスト方法は、開発者コミュニティから高い評価を得ています。 一部のプログラマーは、Cursor に R1-Preview を Agent モードに直接統合するよう求めています。 もう一つ春節前には、まだモデルのトレーニング中だった国内の大規模モデルチームの多くが、独自のモデルを更新しました。 MiniMaxが4MBの超長コンテキストモデルをオープンソース化!DeepSeek-v3やGPT-400に匹敵するパフォーマンスを実現。 世界初!中国国産のオープンソースAIエッジコンピューティングプラットフォーム「GPT-4o」が海外で大ヒット。わずか80億個のパラメータでiPad上で動作します。 中国最強の算数プログラム!iFlytek O1でテスト済み。オリンピックや大学入試問題にも対応し、冬休みの宿題にも役立ちます。 Alibaba が初の視覚推論モデルをオープンソース化し、GPT-4o を上回り、Web ページが一時的に 404 エラーを返すようになりました。 ... OpenAIはこの祝日を利用して何か大きなことを始めようとしているようです(doge)。Ultramanがヒントを投稿しました: o3-miniは外部連携テストを完了し、最終バージョンが決定しました。数週間以内にリリースされ、APIとChatGPTで同時に利用可能になります。 その後の会話で、ウルトラマンは将来のモデルに関するより基本的な詳細も確認しました。
参考リンク: [1]https://x.com/StringChaos/sta... [2]https://x.com/deepseek_ai/status/1859200149844803724 [3]https://x.com/sama/status/188... |
DeepSeekの新モデルは、OpenAI o1に匹敵するコード性能とオープンソース認証を誇り、ランキングで首位を獲得しました。ネットユーザーからは「今年のプログラミングはTabキーだけ」というコメントが寄せられています。
関連するおすすめ記事
-
玉樹ロボティクスが中国サッカーのワールドカップ出場に貢献!ネットユーザー「この新しいスキルは本当に誇らしい!」
-
小米科技は販売した自動車1台につき6万元の損失を出しているが、粗利益率はテスラを上回り、同グループとしてこれまでで最高の財務報告を発表するのに貢献している。
-
新浪ニュース探究会議が北京で開催:新たな品質生産性で産業を活性化する新たな道を模索
-
このオリンピックチャンピオンは実はシリコンバレーのベンチャーキャピタリストであり、ハーバード大学でコンピューターサイエンスを学んだ人物です。
-
検索バージョンo1:推論プロセスが能動的に情報を検索し、その総合的なパフォーマンスは人間の専門家よりも優れています。清華大学が開発しました。
-
ライブ配信のお知らせ | タンパク質最適化における画期的進歩!浙江大学の成果がNeurIPS 2024に選出、筆頭著者が技術ハイライトを解説