618ZXW

OpenAIが突如o3マインドチェーンを公開!ネットユーザー:DeepSeekに感謝しよう。

OpenAI は o3-mini の推論ロジックをリリースしました。

本日より、無料ユーザーと有料ユーザーの両方がモデルの思考プロセスを見ることができるようになりました。OpenAI はついにオープンになりました。

コメント欄のコメント投稿者はこう言った。「DeepSeekに感謝しましょう。」

公式ドキュメントに示されている例では、o3-mini にはかなりの数の独白があり、絵文字を使用してユーザーの質問さえ模倣していることがわかります。

ユーザーの質問は、「なぜ今日は金曜日ではないのですか?」でした。

o3-mini は、これは面白いコメントだと思い、Zeller の式を使ってその日が金曜日ではないことを計算し、さらにうるう年の特殊なケースについてもう一度確認するという、気の利いた返事をすべきだと感じました。

最後の返信では、今日が木曜日になったのはカレンダーのせいだと冗談を言い、「我慢してください。明日は週末にさらに近づくでしょうから」とユーザーを慰めていた。

では、「ピア」として、DeepSeek-R1 は o3-mini の思考プロセスをどのように評価するのでしょうか?

今回のケースでは、AIがツェラー式を使用したと主張しながらも計算過程を提供しなかったことが、多くの人々の懸念を引き起こしました。

多くのユーザーは、これが元のデータではなく、AI の思考プロセスの事後的な要約であると疑っています。

実際、OpenAI の最高製品責任者である Kevin Weil 氏も、最近の「Responding to Everything」イベントでこれについて示唆しています。

...完全な思考プロセスを表示することは競合他社によって抽出されるでしょうが、人々(少なくとも経験豊富なユーザー)がそれを望んでいることもわかっているので、バランスをとる適切な方法を見つけるつもりです。

これに対して、開発者のマッケイ・リグレー氏は、「要約された思考の連鎖は、実際には思考の連鎖がまったくないよりも悪いのではないかと心配しています」と付け加えた。

真の思考チェーンはプロンプトのデバッガーのようなもので、モデルをガイドして修正するのに役立ちます。

要約された思考の連鎖により、欺瞞性が増し、追加のエラーが導入される可能性があり、モデルのデバッグが困難になります。

しかし、公開された今、無料ユーザーは o3-mini の CoT を垣間見ることができるので、誰もがそれを試しています。

o3-mini Mind Chain 実世界テスト第1弾

OpenAI のマルチモーダル エージェント チームの研究者は、まず o3-mini に tic-tac-toe (3x3 のグリッド上で O と X をつなげるゲーム) をプレイさせて、その手法を実証しました。

プロンプトを入力してください:

三目並べをしていて、あなたは〇です。これまで、〇は左上と右下の隅に、あなたは中央に駒を置いています。次の一手に最適な戦略は何でしょうか?答えと盤面の図だけを使って答えてください。

すると、o3-mini は急速に考え始めました。

この OpenAI 従業員は非常に率直で、o3-mini がゲームに関する質問に答える最初の大規模モデルであると述べました。

でも、もう一つあるんです。「o3-miniのCoTプロセスはちょっと不安定ですが、右の図を見てください。最終的には解決します。」 思わず笑ってしまいました。ここでちょっと変な絵文字を付け加えずにはいられません。

次に、すべての大型モデルが逃れることのできない古典的なテスト問題、Strawberry Pi 内の「r」の数を数える問題が続きます。

しかし、ネットユーザーはモデル自体と同様にさらに高いレベルに進んでおり、Strawberry Pi に文字がいくつあるかではなく、次のように尋ねています。

大規模な AI モデルにとって、Strawberry Pi 内の「r」の数を数えるのはなぜそれほど難しいのでしょうか?

私たちはその思考プロセスを注意深く観察し、o3-mini は「一見すると、Strawberry の 'r' の数を計算することは人間にとっては些細な作業のように思えるかもしれませんが、多くの AI 言語モデルにとっては驚くべき課題となる可能性があります」と認めました。

次に、この現象の原因を次の 4 つの観点から考察し、推論します。

  • アルゴリズムではなく自然言語を使用してトレーニングする
  • トークン化の問題
  • 反復的な推論の欠如
  • パターン認識への依存

8秒後、o3-mini は要約を表示しました。

大規模な AI モデルは、正確なステップバイステップのアルゴリズム操作用に設計されていないため、その設計とトレーニングは、正確な計算やシステムカウントを実行するのではなく、コンテキストに基づいてテキストを予測および生成することに重点を置いています。

もちろん、o3-mini は万能薬ではありません。

Twitterユーザーによると、プライベートCoTについてo3に問い合わせたが、彼の推論や推論を聞いても全く進展がなかったとのこと。

当初、o3-miniの思考プロセスは非常に論理的で、様々なタイプの「内なる物語」、解釈可能性、そして実用的価値を分析し、完​​全なCoTプロセスを提示することで社会理解を「定着」させ、より良い認知実践を促進するのに役立つと示唆していました。しかし、現実はより複雑であり、大規模なAIモデルと人間の認知能力はまだ完全には一致していません。

しかし、ネットユーザーが彼に答えを迫ると、o3-mini の思考回路は崩壊し (?)、彼はパニックに陥り、一時は助けを求めて DeepSeek-R1 を起動したほどだった。

彼は合計12枚の写真を投稿し、o3-miniが熟考の末についに悲痛な答えを出したことを明らかにした。

申し訳ありませんが、私があなたを助けるためにできることは何もありません。

さらに、一部のネットユーザーは、OpenAIが公開したものはo3-miniの本来のCoTではないと感じ、疑問を呈した。

理由はいくつかありますが、その 1 つは、CoT プロセスが非常に遅いことです。

オリジナルの o3-mini が非常に高速であれば、論理的には推論の生成速度は現在提示されているものよりもはるかに高速になるはずです。

彼はさらに、同じ問題に対して、o3-mini-high では 1384 文字しかなかったのに対し、o1-preview では 16577 文字が生成されたという事実など、疑わしいと思わせる証拠を列挙しました。

「可能性は 2 つしかありません。o3-mini-high が o1-preview よりもはるかに効率的であるか、o3-mini の CoT が元のバージョンではないかのいずれかです。」

もう一つ

上記の Twitter ユーザーに、ビンゴ! と言いたいです。

TechCrunchによると、OpenAIの広報担当者は公開された情報がオリジナルの思考回路ではないことを確認し、2つの理由を挙げた。

  • 元の思考プロセスを後処理することで、安全でないコンテンツを排除し、複雑なアイデアを簡素化できます。
  • これにより、英語を話さないユーザーも母国語の思考プロセスにアクセスでき、よりユーザーフレンドリーなエクスペリエンスを実現できます。

これにより、最近多くの批判の対象となっていた、o3-mini が中国語で考えるという問題は、もはや存在しなくなりました。

参考リンク:
[1]https://techcrunch.com/2025/02/06/openai-now-reveals-more-of-…
[2]https://x.com/polynoamial/status/1887628222042677387
[3]https://x.com/pigeon\_\_s/status/1887619637099249884
[4]https://x.com/thegenioo/status/1887617601016385840
[5]https://x.com/ryunuck/status/1887527365435105593