618ZXW

最も強力な OpenAI モデルである O1 がテストされました。大学レベルの数学と科学の問題を解くことができますが、IQ の低い人でも難しいと感じるでしょう。

OpenAI の伝説の「Strawberry」アプリがついに正式にリリースされました!

より複雑な推論タスクを処理できるだけでなく、数学、コーディング、その他の科学分野におけるより困難な問題も解決できます。

OpenAIの「予告なしのリリース」はテクノロジー界に衝撃を与え、CEOのアルトマン氏はこれを新たなパラダイムの始まりと呼んだ。

リリース後、専門家やネットユーザーはさまざまな質問で OpenAI o1 のパフォーマンスをテストしました。

さまざまな独創的なテストを試みた人もいましたが、O1 の強力な推論能力に驚嘆しました。

Q: あなたの返信には何語ありますか? A1: この文は7語です。 A2: 全部で5語です。

QuantumBit は実践的なテストもいくつか実施しましたので、一緒に見てみましょう。

推論能力は大きく進化しましたが、それでもIQの低い人には敵いません。

公平に言えば、O1 は推論能力において大きな進歩を遂げましたが、巧妙に単純な質問に直面したときには、依然として人間が仕掛けた罠に陥ってしまいました

もちろん、 O1 は真剣な質問に対して非常に良い成績を収めています。まずは論理的推論能力を見てみましょう。

この質問について考える際、プレビューとミニではそれぞれ 21 秒と 14 秒かかりましたが、テキストから判断すると、実際にはミニの方が考えるのに時間がかかったようです。

キリル文字もいくつか混ざっていましたが、全体的な効果に大きな影響を与えませんでした。

結局、両者とも正解は C でした。

mini の (右) ソリューションには修正プロセスも含まれていることは注目に値します。

次に、O1 が大学レベルの数学、物理学、化学の問題でどのような成績を収めるかを見てみましょう。

まず、表面積分やガウスの定理などのトピックをカバーした過去の大学院入試数学の問題を以下に示します。

プレビューとミニの思考プロセスをそれぞれ見てみましょう。ミニの思考プロセスはプレビューの簡略版であり、もちろんはるかに高速であることがわかります。

しかし、プレビューの思考プロセス中に、今度はタイ語で別の予期せぬ展開が起こりました。

実際の回答プロセスはミニよりもプレビューの方が詳細でしたが、プレビューではなぜ英語で回答したのかはわかりません。

最終的な計算結果はさまざまな方法で簡略化されましたが、値は等しく正確でした。

最初に近道をして、その後(コードインタープリターを呼び出すことによって)不正行為をした 4o とは対照的に、最終的な答えは依然として間違っていました。

2番目の数学の問題は確率に関するものでした。

プレビュー回答も英語で提供され、ミニ回答よりも詳細な手順が記載されており、すべて正解でした。

4o の解答は、初めまではほぼ正しかったのですが、最後のステップに欠陥があり、解答 1 しか提供されず、質問の答えになっていませんでした。

物理学の観点から言えば、大学物理学における光学の問題は次のようになります。

プレビュー(左)とミニの両方で正解が出ており、内容も基本的に同じでした。

化学の問題は物理化学の問題で、主に電気化学やその他の関連トピックが含まれていました。

ここで、AgCl/Ag の標準電極電位が既知の条件としてモデルに入力されます。

プレビュー (左) と Mini の問題解決アプローチはほぼ同じで、計算手順における演算の順序のみが異なりますが、最終結果は同じです。

最終テストは試験問題ではなく、モデルのコード記述能力を評価するものになります。

ここで選択された質問は非常に難しく、実際の人の合格率はわずか 14% です。

プレビュー (左) とミニの問題解決アプローチは次のとおりです。

コードから見ると、両者のコアロジックは似ていますが、具体的な操作には若干の違いがあります。

両方のコード セットはテストに合格し、メモリ消費量も同様でしたが、mini によって提供されたコードの実行時間は短くなりました (38 ミリ秒)。

問題を解決するだけでなく、o1 のプログラミング スキルを使用して実用的なアプリケーションを迅速に構築することもできます。

有名な AI ボイスオーバー ツールである ElevenLabs のデザイン部門責任者 Ammaar Reshi 氏は、o1 と Cursor Composer を使用して10 分以内に iOS 天気アプリを作成しました

再生時間 00:54

まだ小数の比較に苦労していますか?

テストの結果、大規模モデルでは正しく答えるのに苦労する有名なシナリオ(小数点以下の桁数の比較)では、プレビュー モデル(左)とミニ モデルの両方が正しく答えることができなかったことが明らかになりました。

プレビュー中でも、9.8 は 9.11 よりも大きいことが明確に述べられていました。

ただし、プレビュー中に、9.8 と 9.11 は日付を指している可能性があることが指摘されたため、誤りである理由は他にもある可能性があります。

この質問に答えて、専門家の謝彩寧氏もテスト結果を共有し、o1は思考プロセス中に9.8を重力定数として扱い、9.11は「意味のない数字」であることを発見しました。

つまり、O1 はそれができないのではなく、むしろ問題を複雑にしすぎているのかもしれない。

これをさらに詳しく調べるために、9.8と9.11がどちらも数字であることを強調し、質問をより具体的にしてみましょう。これで曖昧さがなくなり、最初から正しく答えられるようになります。

プロンプトワードの影響は依然としてかなり大きいことがわかります。

O1は内部的に思考連鎖のようなプロセスを採用しているため、プロンプトのデザインは通常版とは異なります。OpenAIはこの点について通知を発表しました。

  • プロンプトはシンプルかつ直接的なものでなければなりません。
  • キューワードでマインドチェーンを使用しない
  • プロモーションをより明確にするためにセパレーターを使用します。
  • RAGコンテンツの長さを制御する

私たちのテストに戻ると、O1 も敗北した他の主要モデルに比べてかなりの改善を示しました。

例えば、数字を数える作業において進化しており、ランダムな文字列であっても正確に数えることができます。

そして、古典的な「逆転の呪い」問題(AがBであることは知っているが、BがAであることを知らない)に直面したとき、彼はついに1回目の試みでメアリー・リー・ファイファー(トム・クルーズの母親)の息子が誰なのか正しく答えた。

もう一つ

さまざまな面での成果に加えて、o1 のリリースに関していくつかの他の発見もあります。

たとえば、テスラの自動操縦装置の元責任者であり、OpenAIに2度参加・離脱した著名人であるアンドレイ・カルパシー氏は、o1-miniがリーマン予想を証明するように求められたときに答えることを拒否したことを発見し、大規模モデルの「怠惰」が依然として大きな問題であることを示した。

また、一部のネットユーザーは、ミニの方がプレビューよりもパフォーマンスが優れていると感じており、その理由を知っている人や意見がある人はいないか知りたいと述べている。

このメッセージはウルトラマンの注意も引き、ウルトラマンは「はい、持っています」と答えました。

OpenAI の従業員 Kevin Lu 氏のツイートによると、ミニバージョンは確かにプレビューバージョンよりもコスト効率が高いとのことです。

この画像によると、プレビュー版は性能面では未発売の本格派O1に劣り、コストパフォーマンス面ではminiに劣るという。

ちなみに、プレビュー版にはメッセージ数制限があり、毎週リセットされます。何度かテストした結果、ほぼ使い果たしてしまいました。

参考リンク: [1]https://x.com/rowancheung/sta... [2]https://x.com/karpathy/status... [3]https://x.com/sama/status/183... [4]https://x.com/_kevinlu/status/1834278160038592633