Mengchen Xifeng、アオフェイ寺院出身、QuantumBit | WeChat公式アカウント QbitAI OpenAIがO1からO3に続く次世代モデルを発表! 「ダブル12」ライブ配信イベントの最終日、ついに大きな出来事が起こった。ウルトラマン本人がライブ配信に再登場したのだ。 O1と比較したO3の最も優れた成果は、トッププログラマーコンテストCodeForcesでのスコアが2700を超えていることであり、現在このスコアを超えた人は200人未満です。 第二に、AGI 向けに設計されたARC-AGIテストのスコアは、32% から 75.7% および 87.5% に急上昇しました。 なぜスコアが2つあるのですか? O3は低思考レベルと高思考レベルの両方をサポートしているため、高思考レベル(横軸)に必要な計算能力が最大化されます。 ARC-AGI は、Keras の作成者である François Chollet が開始したテスト ベンチマークであり、典型的な質問はグラフィカル ロジック推論です。 もうひとつのテストは、最新の未発表の最先端の問題を含む、最も難しい数学テストとして宣伝されているEpochAI Frontier Mathです。 テレンス・タオ氏のこのテストに対する第一印象は、「AI を数年間困惑させるかもしれない」というものでした。 テストでは、o3 は前回の SOTA と比較して 2 ポイントから 25 ポイント向上しました。 人間の専門数学者であれば、これらの問題を解くのに何時間から何日もかかりますが、O3 では数分間考えるだけで済みます。
主な焦点はコーディング能力のデモンストレーションでした。低設定ではo3-miniとo1-miniは同等の性能を示しましたが、中設定と高設定ではo3-miniが公式のo1バージョンを上回りました。 この研究に参加した北京大学卒業生の任宏宇氏は、現場でo3-miniのプログラミング機能を実演した。 彼はChatGPT αと呼ばれるChatGPTの特別なバージョンを使用しました。 タスクは次のとおりです。 大きなテキストボックスのあるHTMLファイルに対して、ローカルサーバーを起動するPythonスクリプトを作成してください。ボックスにテキストを入力して送信ボタンを押すと、OpenAI o3-mini APIにコードリクエストが送信され、中程度の推論エフォートを使用して生成されたコードが取得され、デスクトップ上の一時ファイルに保存されます。そして、そのファイルを新しいPythonターミナルで実行します。詳細は以下の通りです。
o3-mini の思考プロセスには 38 秒かかりましたが、コードは即座に出力され、最初の試行で正常に実行されました。 このデモンストレーションはあまり直感的ではないかもしれないが、その場にいなかったもう一人の OpenAI 研究者、エイダン・クラークは大量に汗をかいていた。 要約すると、o3-mini は 38 秒で独自の UI を作成し、API 経由で「自身」を呼び出しました。 その後のデモンストレーションでは、Ren Hongyu 氏は o3-mini にこの UI 内でスクリプトを記述して実行し、低レベルの思考条件下での GPQA データセットに対する「その」パフォーマンスを評価するように依頼しました。 スクリプトは評価を正しく実行し、61.62% という結果を返しました。これは、実際の評価結果と基本的に一致しています。 ちょっとSFっぽい感じがしませんか? 残念なことに、o3 と o3-mini はどちらも現在早期プレビュー段階であり、表示することしかできず、再生することはできません。 セキュリティ研究者は、OpenAI の Web サイトで早期アクセスを申請できます。 北京大学の卒業生であり、GPT-4oのコア開発者がライブ放送室に登場しました。この生放送で注目すべきもう一人の人物は、新たに紹介された北京大学の卒業生、任宏宇氏(左端)だ。 彼は昨年OpenAIに研究科学者として入社し、主に言語モデルの学習を担当しています。GPT-4oのコア開発者であり、GPT-Nextプロジェクトチームのメンバーでもあります。 レン・ホンユ博士はスタンフォード大学を卒業しています。OpenAIに入社する前は、Apple、Google、NVIDIA、Microsoftで幅広い研究インターンシップの経験を積んでいました。 もう一つ面白かった!最終日にはサンタの帽子をかぶった「カエル」が最前列に登場しました。 昨日はライブ配信11日目で、「カエル」のサンタ帽子はこんな感じでした。 |
O3がやってきた!北京大学卒業生のRen Hongyuがライブストリームに登場。世界トップ200プログラマーにランクインし、Terence Taoが難しいと評した数学のテストを解きます。
関連するおすすめ記事
-
比類なきスターたち:2000年代以降の天才たちが中国のAAA SFコンソールゲーム市場を席巻
-
Li Mu: ビジネスの世界での 1 年は、現実世界での 3 年と同じくらいの気分です!
-
徹底的な対話 | 華中科技大学、上海 AI ラボ、上海交通大学の研究の先駆者を集め、AI の「女性の力」の背後にある成長とブレークスルーを探ります。
-
1200℃の高温性能限界を突破!北京科技大学は機械学習を活用し、優れた室温延性を持つ24種類の耐火性高エントロピー合金を合成しました。
-
Pika の新機能を使えば、動画に何でも追加できます! ネットユーザーの皆様: 毎月 5,000 ドルもお得です!
-
Metaの「Segment Everything」進化版2.0!移動物体追跡、コードと重量データセットが完全オープンソースに