|
OpenAI は o3-mini の推論ロジックをリリースしました。 本日より、無料ユーザーと有料ユーザーの両方がモデルの思考プロセスを見ることができるようになりました。OpenAI はついにオープンになりました。 コメント欄のコメント投稿者はこう言った。「DeepSeekに感謝しましょう。」 公式ドキュメントに示されている例では、o3-mini にはかなりの数の独白があり、絵文字を使用してユーザーの質問さえ模倣していることがわかります。 ユーザーの質問は、「なぜ今日は金曜日ではないのですか?」でした。 o3-mini は、これは面白いコメントだと思い、Zeller の式を使ってその日が金曜日ではないことを計算し、さらにうるう年の特殊なケースについてもう一度確認するという、気の利いた返事をすべきだと感じました。 最後の返信では、今日が木曜日になったのはカレンダーのせいだと冗談を言い、「我慢してください。明日は週末にさらに近づくでしょうから」とユーザーを慰めていた。 では、「ピア」として、DeepSeek-R1 は o3-mini の思考プロセスをどのように評価するのでしょうか? 今回のケースでは、AIがツェラー式を使用したと主張しながらも計算過程を提供しなかったことが、多くの人々の懸念を引き起こしました。 多くのユーザーは、これが元のデータではなく、AI の思考プロセスの事後的な要約であると疑っています。 実際、OpenAI の最高製品責任者である Kevin Weil 氏も、最近の「Responding to Everything」イベントでこれについて示唆しています。 ...完全な思考プロセスを表示することは競合他社によって抽出されるでしょうが、人々(少なくとも経験豊富なユーザー)がそれを望んでいることもわかっているので、バランスをとる適切な方法を見つけるつもりです。 これに対して、開発者のマッケイ・リグレー氏は、「要約された思考の連鎖は、実際には思考の連鎖がまったくないよりも悪いのではないかと心配しています」と付け加えた。
しかし、公開された今、無料ユーザーは o3-mini の CoT を垣間見ることができるので、誰もがそれを試しています。 o3-mini Mind Chain 実世界テスト第1弾OpenAI のマルチモーダル エージェント チームの研究者は、まず o3-mini に tic-tac-toe (3x3 のグリッド上で O と X をつなげるゲーム) をプレイさせて、その手法を実証しました。 プロンプトを入力してください: 三目並べをしていて、あなたは〇です。これまで、〇は左上と右下の隅に、あなたは中央に駒を置いています。次の一手に最適な戦略は何でしょうか?答えと盤面の図だけを使って答えてください。 すると、o3-mini は急速に考え始めました。 この OpenAI 従業員は非常に率直で、o3-mini がゲームに関する質問に答える最初の大規模モデルであると述べました。 でも、もう一つあるんです。「o3-miniのCoTプロセスはちょっと不安定ですが、右の図を見てください。最終的には解決します。」 思わず笑ってしまいました。ここでちょっと変な絵文字を付け加えずにはいられません。 次に、すべての大型モデルが逃れることのできない古典的なテスト問題、Strawberry Pi 内の「r」の数を数える問題が続きます。 しかし、ネットユーザーはモデル自体と同様にさらに高いレベルに進んでおり、Strawberry Pi に文字がいくつあるかではなく、次のように尋ねています。 大規模な AI モデルにとって、Strawberry Pi 内の「r」の数を数えるのはなぜそれほど難しいのでしょうか? 私たちはその思考プロセスを注意深く観察し、o3-mini は「一見すると、Strawberry の 'r' の数を計算することは人間にとっては些細な作業のように思えるかもしれませんが、多くの AI 言語モデルにとっては驚くべき課題となる可能性があります」と認めました。 次に、この現象の原因を次の 4 つの観点から考察し、推論します。
8秒後、o3-mini は要約を表示しました。 大規模な AI モデルは、正確なステップバイステップのアルゴリズム操作用に設計されていないため、その設計とトレーニングは、正確な計算やシステムカウントを実行するのではなく、コンテキストに基づいてテキストを予測および生成することに重点を置いています。 もちろん、o3-mini は万能薬ではありません。 Twitterユーザーによると、プライベートCoTについてo3に問い合わせたが、彼の推論や推論を聞いても全く進展がなかったとのこと。 当初、o3-miniの思考プロセスは非常に論理的で、様々なタイプの「内なる物語」、解釈可能性、そして実用的価値を分析し、完全なCoTプロセスを提示することで社会理解を「定着」させ、より良い認知実践を促進するのに役立つと示唆していました。しかし、現実はより複雑であり、大規模なAIモデルと人間の認知能力はまだ完全には一致していません。 しかし、ネットユーザーが彼に答えを迫ると、o3-mini の思考回路は崩壊し (?)、彼はパニックに陥り、一時は助けを求めて DeepSeek-R1 を起動したほどだった。 彼は合計12枚の写真を投稿し、o3-miniが熟考の末についに悲痛な答えを出したことを明らかにした。 申し訳ありませんが、私があなたを助けるためにできることは何もありません。 さらに、一部のネットユーザーは、OpenAIが公開したものはo3-miniの本来のCoTではないと感じ、疑問を呈した。
彼はさらに、同じ問題に対して、o3-mini-high では 1384 文字しかなかったのに対し、o1-preview では 16577 文字が生成されたという事実など、疑わしいと思わせる証拠を列挙しました。 「可能性は 2 つしかありません。o3-mini-high が o1-preview よりもはるかに効率的であるか、o3-mini の CoT が元のバージョンではないかのいずれかです。」 もう一つ上記の Twitter ユーザーに、ビンゴ! と言いたいです。 TechCrunchによると、OpenAIの広報担当者は公開された情報がオリジナルの思考回路ではないことを確認し、2つの理由を挙げた。
これにより、最近多くの批判の対象となっていた、o3-mini が中国語で考えるという問題は、もはや存在しなくなりました。 参考リンク: |
OpenAIが突如o3マインドチェーンを公開!ネットユーザー:DeepSeekに感謝しよう。
関連するおすすめ記事
-
AlphaFold3の国産初版がリリース!優れた高分子予測精度、すぐに使えるオンラインプラットフォーム、そして圧倒的な推論コストを誇ります。
-
データ テクノロジーと人工知能を革新的に統合するにはどうすればよいでしょうか?
-
Zotero と DeepSeek を統合して学術論文を自動的に読み取る方法についてのチュートリアルです。
-
アジェンダ紹介 | クラウドネイティブ オープンソースフォーラム
-
「OpenGoodオープンソース公共福祉事例集」への作品募集を開始しました。
-
DeepMind と Google Research は、複数の技術的アプローチを通じて AI 天気予報の「六角形の戦士」を作り出すために協力しています。