618ZXW

O3がやってきた!北京大学卒業生のRen Hongyuがライブストリームに登場。世界トップ200プログラマーにランクインし、Terence Taoが難しいと評した数学のテストを解きます。

Mengchen Xifeng、アオフェイ寺院出身、QuantumBit | WeChat公式アカウント

QbitAI OpenAIがO1からO3に続く次世代モデルを発表!

「ダブル12」ライブ配信イベントの最終日、ついに大きな出来事が起こった。ウルトラマン本人がライブ配信に再登場したのだ。

O1と比較したO3の最も優れた成果は、トッププログラマーコンテストCodeForcesでのスコアが2700を超えていることであり、現在このスコアを超えた人は200人未満です。

第二に、AGI 向けに設計されたARC-AGIテストのスコアは、32% から 75.7% および 87.5% に急上昇しました。

なぜスコアが2つあるのですか?

O3は低思考レベルと高思考レベルの両方をサポートしているため、高思考レベル(横軸)に必要な計算能力が最大化されます。

ARC-AGI は、Keras の作成者である François Chollet が開始したテスト ベンチマークであり、典型的な質問はグラフィカル ロジック推論です。

もうひとつのテストは、最新の未発表の最先端の問題を含む、最も難しい数学テストとして宣伝されているEpochAI Frontier Mathです。

テレンス・タオ氏のこのテストに対する第一印象は、「AI を数年間困惑させるかもしれない」というものでした。

テストでは、o3 は前回の SOTA と比較して 2 ポイントから 25 ポイント向上しました。

人間の専門数学者であれば、これらの問題を解くのに何時間から何日もかかりますが、O3 では数分間考えるだけで済みます。


ライブストリームでは、低、中、高の3つの思考レベルをサポートするo3-miniも公開されました。

主な焦点はコーディング能力のデモンストレーションでした。低設定ではo3-miniとo1-miniは同等の性能を示しましたが、中設定と高設定ではo3-miniが公式のo1バージョンを上回りました。

この研究に参加した北京大学卒業生の任宏宇氏は、現場でo3-miniのプログラミング機能を実演した。

彼はChatGPT αと呼ばれるChatGPTの特別なバージョンを使用しました。

タスクは次のとおりです。

大きなテキストボックスのあるHTMLファイルに対して、ローカルサーバーを起動するPythonスクリプトを作成してください。ボックスにテキストを入力して送信ボタンを押すと、OpenAI o3-mini APIにコードリクエストが送信され、中程度の推論エフォートを使用して生成されたコードが取得され、デスクトップ上の一時ファイルに保存されます。そして、そのファイルを新しいPythonターミナルで実行します。詳細は以下の通りです。

  • APIキーは~/api_keyにあります。
  • API リクエストに、フォーマットや Markdown なしの生のコードのみを返すように指定するヒントをいくつか追加してください。
  • Macのラップトップ環境で実行します

o3-mini の思考プロセスには 38 秒かかりましたが、コードは即座に出力され、最初の試行で正常に実行されました。

このデモンストレーションはあまり直感的ではないかもしれないが、その場にいなかったもう一人の OpenAI 研究者、エイダン・クラークは大量に汗をかいていた。

要約すると、o3-mini は 38 秒で独自の UI を作成し、API 経由で「自身」を呼び出しました。

その後のデモンストレーションでは、Ren Hongyu 氏は o3-mini にこの UI 内でスクリプトを記述して実行し、低レベルの思考条件下での GPQA データセットに対する「その」パフォーマンスを評価するように依頼しました。

スクリプトは評価を正しく実行し、61.62% という結果を返しました。これは、実際の評価結果と基本的に一致しています。

ちょっとSFっぽい感じがしませんか?

残念なことに、o3 と o3-mini はどちらも現在早期プレビュー段階であり、表示することしかできず、再生することはできません。

セキュリティ研究者は、OpenAI の Web サイトで早期アクセスを申請できます。

北京大学の卒業生であり、GPT-4oのコア開発者がライブ放送室に登場しました。

この生放送で注目すべきもう一人の人物は、新たに紹介された北京大学の卒業生、任宏宇氏(左端)だ。

彼は昨年OpenAIに研究科学者として入社し、主に言語モデルの学習を担当しています。GPT-4oのコア開発者であり、GPT-Nextプロジェクトチームのメンバーでもあります。

ライブストリーム中、彼は9月のo1-miniイベントにも関わっていたことを明らかにし、o1-miniイベントは主に3人の中国人(他の2人はKevin LuとJiahui Yu)によって運営されていたという以前の噂を裏付けました。

レン・ホンユ博士はスタンフォード大学を卒業しています。OpenAIに入社する前は、Apple、Google、NVIDIA、Microsoftで幅広い研究インターンシップの経験を積んでいました。

もう一つ

面白かった!最終日にはサンタの帽子をかぶった「カエル」が最前列に登場しました。

実は、以前の放送の時も毎回あったのですが、奥の棚に置かれていて、放送日が進むにつれて量が増えていったんです。

昨日はライブ配信11日目で、「カエル」のサンタ帽子はこんな感じでした。

クリスマスの「カエル」が何匹いるか数えましたか?

- 以上 -