618ZXW

OpenAI初の無料推論モデル「o3-mini」がリリースされました!DeepSeekがウルトラマンに考え直させる:オープンソース化しなかったのは間違いだった。

DeepSeek は、大規模なモデル コミュニティの発展を真に加速させました。

ちょうど今、OpenAI は最新の推論モデルであるo3-mini シリーズを深夜にリリースしました。

低、中、高の 3 つのバージョンが含まれます。

そのうち、o3-miniとo3-mini-highはすでに発売されています。

公式声明によると、O3 シリーズ モデルは低コストの推論の限界を押し広げることを目指しています。

ChatGPT Plus、Team、および Pro ユーザーは、本日より OpenAI o3-mini にアクセスできます。エンタープライズ アクセスは 1 週間以内に開始されます。

無料ユーザーでも「検索+理由」を選択することでo3-miniを使った検索を体験できます。

おそらくDeepSeekに絶望したため、OpenAIが推論モデルをユーザーに無料で提供するのは今回が初めてだ。

その後のReddit AQTセッションでも、CEOのアルトマン氏は珍しく公の場で次のように語った。

オープンソースの重み付け AI モデルの問題に関しては、(私の意見では)私たちは歴史の間違った側に立ってきました。

一方、わずか数時間のうちに、ネットユーザーたちはすでにテストに熱狂し始めていた...

STEM 推論用に最適化されていますが、それでも DeepSeek-R1 よりも大幅に高価です。

まず、技術レポートに何が書かれているのかを見てみましょう。

昨年末、OpenAIはo3-miniのプレビュー版をリリースし、再び小型モデルの性能限界を押し広げました。(コストと低レイテンシの点ではo1-miniに匹敵します。)

当時、CEOのアルトマン氏は正式版を今年1月にリリースすると発表していました。しかし、締め切り直前に追い込まれた結果、O3-Miniの正式版はついに登場しました。

全体的には、前モデルの o1-mini と同様に、STEM (科学、技術、工学、数学) 向けに最適化されており、mini シリーズの小型で美しいスタイルが継承されています。

o3-mini (中) は、数学的なコーディングにおいて o1 シリーズと同等のパフォーマンスを発揮するだけでなく、応答速度も速くなります。

人間の専門家による評価では、ほとんどの場合、o3-mini は o1-mini よりも正確で明確な回答を生成し、 56% の選好率を達成し、複雑な現実の問題を扱う際の主要なエラー率も39%削減していることが示されています。

数学的能力の面では、o3-mini(低)は、低い推論強度ではo1-miniに匹敵し、中程度の推論強度ではo1のフルパワーバージョンに匹敵し、推論強度が最大化(高)されると、そのパフォーマンスはo1シリーズのすべてのモデルを直接上回ります。

60名以上のトップ数学者が作成したFrontierMath問題テストでも、o3-miniはo1シリーズと比較して高度な推論力が大幅に向上したことが示されました。

公式ドキュメントには、Python ツールと併用した場合、o3-mini (高) は 1 回目の試行で問題の32%以上を解決し、その中には T3 レベルの問題の 28% 以上も含まれていると明記されています。

科学的能力の面では、博士レベルの物理学、化学、生物学の問題において、低い推論強度の o3-mini はすでに o1-mini と一線を画しています。

もちろん、コーディングという重要な分野では、o3-mini はあらゆるレベルで o1 シリーズを上回っています。

LiveBench でのパフォーマンスを見ると、推論の強度が上がるにつれて o3-mini の優位性が拡大し続けることがわかります。

また、o3-mini は前述のリードを得ただけでなく、平均応答時間が 7.7 秒と、o1-mini の 10.16 秒より 24% 向上し、応答速度も速くなったことも注目すべき点です。

最後に、セキュリティ評価の点では、o3-mini は複数のセキュリティ評価でGPT-4o を大幅に上回りました。

価格の面では、o3-mini は、入力が 0.14 ドル、出力が 0.55 ドルの DeepSeek-R1 と比較すると依然として法外に高価です。

ネットユーザーの厳しいレビューによると、DeepSeek-R1 は依然としてコスト効率の王者であり、より高速で、より優れ、より安価です。

ちなみに、OpenAIはいつものようにo3-miniの開発チームを発表しました。今回はアルトマン氏自身がリーダーを務め、カーパス・チャン氏とクリステン・イン氏が研究プロジェクトリーダーを務めていることがわかります(レン・ホンユ氏やチャオ・シェンジア氏など、お馴染みの顔ぶれも多数含まれています)。

ネットユーザーたちがクレイジーなテストを実施中。

先ほど述べたように、ネットユーザーはすでに熱心にテストを始めています。

しかし、レビューから判断すると、o3-mini のパフォーマンスに関する意見はまちまちです。

たとえば、Python を使用して「4 次元のボリューム内でボールが跳ねる」というタスクを実装する場合、o3-mini が最適な LLM であると考える人もいます。

効果は以下のとおりです。

その後、一部のネットユーザーがDeepSeekを使って同じタスクを実行してみましたが、その結果に基づいてo3-miniの方がわずかに優れていると考えました。

より直接的な比較として、回転する六角形の中でボールをバウンドさせると、ボールは重力と摩擦の影響を受けるため、o3-miniとDeepSeek R1のパフォーマンスの違いが顕著になります。

球体内に 100 個の跳ねる黄色いボールを作成するといった、より複雑なタスクを含め、o3-mini は次のことも実行できるようになりました。

たとえば、o3-mini で、互いに競争する 2 つの Snake ゲームを設計してみましょう。

DeepSeek以外にも、ネットユーザーはo1とo3-miniの効果を比較し、例えば巨大で驚くべき壮大な浮遊都市を生成しました。

別のネットユーザーが、ほとんどすべての大規模モデルが間違いを犯すような難しい質問を投げかけましたが、驚いたことに o3-mini は正しく答えました。

しかし、有名なポッドキャスターである Lex Fridman 氏は、o3-mini を次のように評価しています。

OpenAI o3-mini は優れたモデルですが、DeepSeek R1 は同様のパフォーマンスを持ち、より安価で、推論プロセスを明らかにしています。

より優れたモデルが登場するでしょう(o3-proが待ち遠しいです)。しかし、「DeepSeekの瞬間」は現実です。5年後も、技術史の転換点として記憶に残るでしょう。

もう一つ

o3-mini がリリースされてからわずか数時間後、ウルトラマン本人と彼のチームは Reddit の「Ask Me Anything」イベントに参加しました。

オープンソースのDeepSeekが最近AIコミュニティを騒がせていることを受けて、アルトマン氏は珍しく公の場で次のように述べている。

オープンソースの重み付け AI モデルの問題に関しては、(私の意見では)私たちは歴史の間違った側に立ってきました。

彼らは、OpenAI のリードは以前ほど大きくはなくなるだろうとさえ認めている。

DeepSeek は確かに優れており、私たちはさらに優れたモデルの開発を続けていきますが、私たちのリードは小さくなるでしょう。

同時に、OpenAIの将来の計画もいくつか明らかにされました。

たとえば、高度な音声モードは近々更新され、OpenAI はそれを GPT-5o ではなく直接 GPT-5 と呼ぶ予定ですが、具体的なスケジュールはまだありません。

さらに、推論モデルは、より多くのツールの呼び出しもサポートします。

最後に、O3 の完全版についても言及されましたが、まだかなり先のようです...