Mengchen Xifeng、アオフェイ寺院出身、QuantumBit | WeChat公式アカウント QbitAI OpenAIがO1からO3に続く次世代モデルを発表! 「ダブル12」ライブ配信イベントの最終日、ついに大きな出来事が起こった。ウルトラマン本人がライブ配信に再登場したのだ。 O1と比較したO3の最も優れた成果は、トッププログラマーコンテストCodeForcesでのスコアが2700を超えていることであり、現在このスコアを超えた人は200人未満です。 第二に、AGI 向けに設計されたARC-AGIテストのスコアは、32% から 75.7% および 87.5% に急上昇しました。 なぜスコアが2つあるのですか? O3は低思考レベルと高思考レベルの両方をサポートしているため、高思考レベル(横軸)に必要な計算能力が最大化されます。 ARC-AGI は、Keras の作成者である François Chollet が開始したテスト ベンチマークであり、典型的な質問はグラフィカル ロジック推論です。 もうひとつのテストは、最新の未発表の最先端の問題を含む、最も難しい数学テストとして宣伝されているEpochAI Frontier Mathです。 テレンス・タオ氏のこのテストに対する第一印象は、「AI を数年間困惑させるかもしれない」というものでした。 テストでは、o3 は前回の SOTA と比較して 2 ポイントから 25 ポイント向上しました。 人間の専門数学者であれば、これらの問題を解くのに何時間から何日もかかりますが、O3 では数分間考えるだけで済みます。
主な焦点はコーディング能力のデモンストレーションでした。低設定ではo3-miniとo1-miniは同等の性能を示しましたが、中設定と高設定ではo3-miniが公式のo1バージョンを上回りました。 この研究に参加した北京大学卒業生の任宏宇氏は、現場でo3-miniのプログラミング機能を実演した。 彼はChatGPT αと呼ばれるChatGPTの特別なバージョンを使用しました。 タスクは次のとおりです。 大きなテキストボックスのあるHTMLファイルに対して、ローカルサーバーを起動するPythonスクリプトを作成してください。ボックスにテキストを入力して送信ボタンを押すと、OpenAI o3-mini APIにコードリクエストが送信され、中程度の推論エフォートを使用して生成されたコードが取得され、デスクトップ上の一時ファイルに保存されます。そして、そのファイルを新しいPythonターミナルで実行します。詳細は以下の通りです。
o3-mini の思考プロセスには 38 秒かかりましたが、コードは即座に出力され、最初の試行で正常に実行されました。 このデモンストレーションはあまり直感的ではないかもしれないが、その場にいなかったもう一人の OpenAI 研究者、エイダン・クラークは大量に汗をかいていた。 要約すると、o3-mini は 38 秒で独自の UI を作成し、API 経由で「自身」を呼び出しました。 その後のデモンストレーションでは、Ren Hongyu 氏は o3-mini にこの UI 内でスクリプトを記述して実行し、低レベルの思考条件下での GPQA データセットに対する「その」パフォーマンスを評価するように依頼しました。 スクリプトは評価を正しく実行し、61.62% という結果を返しました。これは、実際の評価結果と基本的に一致しています。 ちょっとSFっぽい感じがしませんか? 残念なことに、o3 と o3-mini はどちらも現在早期プレビュー段階であり、表示することしかできず、再生することはできません。 セキュリティ研究者は、OpenAI の Web サイトで早期アクセスを申請できます。 北京大学の卒業生であり、GPT-4oのコア開発者がライブ放送室に登場しました。この生放送で注目すべきもう一人の人物は、新たに紹介された北京大学の卒業生、任宏宇氏(左端)だ。 彼は昨年OpenAIに研究科学者として入社し、主に言語モデルの学習を担当しています。GPT-4oのコア開発者であり、GPT-Nextプロジェクトチームのメンバーでもあります。 レン・ホンユ博士はスタンフォード大学を卒業しています。OpenAIに入社する前は、Apple、Google、NVIDIA、Microsoftで幅広い研究インターンシップの経験を積んでいました。 もう一つ面白かった!最終日にはサンタの帽子をかぶった「カエル」が最前列に登場しました。 昨日はライブ配信11日目で、「カエル」のサンタ帽子はこんな感じでした。 |
O3がやってきた!北京大学卒業生のRen Hongyuがライブストリームに登場。世界トップ200プログラマーにランクインし、Terence Taoが難しいと評した数学のテストを解きます。
関連するおすすめ記事
-
今週の土曜日に北京の中関村でお会いしましょう!
-
L2 から L4 にアップグレードして直接 L4 に移行する以外にも、自動運転は次のような方法でも実現できます…
-
スマートテクノロジー分野に新たなプレーヤーが参入し、インテリジェンス、センシング、コントロールという3つの主要テクノロジーを同時に展開し、すでに韓国に製品を大量出荷している。
-
GPT-4の6週間の個別指導は、2年間の学校教育に相当します。新たな研究によると、AIの支援が多ければ多いほど、進歩は顕著になることが示されています。
-
このオリンピックチャンピオンは実はシリコンバレーのベンチャーキャピタリストであり、ハーバード大学でコンピューターサイエンスを学んだ人物です。
-
Qujing TechnologyはGL VenturesとZ Fundからの投資を主導し、数千万元の資金調達ラウンドを完了した。