Mengchen Xifeng、アオフェイ寺院出身、QuantumBit | WeChat公式アカウント QbitAI OpenAIがO1からO3に続く次世代モデルを発表! 「ダブル12」ライブ配信イベントの最終日、ついに大きな出来事が起こった。ウルトラマン本人がライブ配信に再登場したのだ。 O1と比較したO3の最も優れた成果は、トッププログラマーコンテストCodeForcesでのスコアが2700を超えていることであり、現在このスコアを超えた人は200人未満です。 第二に、AGI 向けに設計されたARC-AGIテストのスコアは、32% から 75.7% および 87.5% に急上昇しました。 なぜスコアが2つあるのですか? O3は低思考レベルと高思考レベルの両方をサポートしているため、高思考レベル(横軸)に必要な計算能力が最大化されます。 ARC-AGI は、Keras の作成者である François Chollet が開始したテスト ベンチマークであり、典型的な質問はグラフィカル ロジック推論です。 もうひとつのテストは、最新の未発表の最先端の問題を含む、最も難しい数学テストとして宣伝されているEpochAI Frontier Mathです。 テレンス・タオ氏のこのテストに対する第一印象は、「AI を数年間困惑させるかもしれない」というものでした。 テストでは、o3 は前回の SOTA と比較して 2 ポイントから 25 ポイント向上しました。 人間の専門数学者であれば、これらの問題を解くのに何時間から何日もかかりますが、O3 では数分間考えるだけで済みます。
主な焦点はコーディング能力のデモンストレーションでした。低設定ではo3-miniとo1-miniは同等の性能を示しましたが、中設定と高設定ではo3-miniが公式のo1バージョンを上回りました。 この研究に参加した北京大学卒業生の任宏宇氏は、現場でo3-miniのプログラミング機能を実演した。 彼はChatGPT αと呼ばれるChatGPTの特別なバージョンを使用しました。 タスクは次のとおりです。 大きなテキストボックスのあるHTMLファイルに対して、ローカルサーバーを起動するPythonスクリプトを作成してください。ボックスにテキストを入力して送信ボタンを押すと、OpenAI o3-mini APIにコードリクエストが送信され、中程度の推論エフォートを使用して生成されたコードが取得され、デスクトップ上の一時ファイルに保存されます。そして、そのファイルを新しいPythonターミナルで実行します。詳細は以下の通りです。
o3-mini の思考プロセスには 38 秒かかりましたが、コードは即座に出力され、最初の試行で正常に実行されました。 このデモンストレーションはあまり直感的ではないかもしれないが、その場にいなかったもう一人の OpenAI 研究者、エイダン・クラークは大量に汗をかいていた。 要約すると、o3-mini は 38 秒で独自の UI を作成し、API 経由で「自身」を呼び出しました。 その後のデモンストレーションでは、Ren Hongyu 氏は o3-mini にこの UI 内でスクリプトを記述して実行し、低レベルの思考条件下での GPQA データセットに対する「その」パフォーマンスを評価するように依頼しました。 スクリプトは評価を正しく実行し、61.62% という結果を返しました。これは、実際の評価結果と基本的に一致しています。 ちょっとSFっぽい感じがしませんか? 残念なことに、o3 と o3-mini はどちらも現在早期プレビュー段階であり、表示することしかできず、再生することはできません。 セキュリティ研究者は、OpenAI の Web サイトで早期アクセスを申請できます。 北京大学の卒業生であり、GPT-4oのコア開発者がライブ放送室に登場しました。この生放送で注目すべきもう一人の人物は、新たに紹介された北京大学の卒業生、任宏宇氏(左端)だ。 彼は昨年OpenAIに研究科学者として入社し、主に言語モデルの学習を担当しています。GPT-4oのコア開発者であり、GPT-Nextプロジェクトチームのメンバーでもあります。 レン・ホンユ博士はスタンフォード大学を卒業しています。OpenAIに入社する前は、Apple、Google、NVIDIA、Microsoftで幅広い研究インターンシップの経験を積んでいました。 もう一つ面白かった!最終日にはサンタの帽子をかぶった「カエル」が最前列に登場しました。 昨日はライブ配信11日目で、「カエル」のサンタ帽子はこんな感じでした。 |
O3がやってきた!北京大学卒業生のRen Hongyuがライブストリームに登場。世界トップ200プログラマーにランクインし、Terence Taoが難しいと評した数学のテストを解きます。
関連するおすすめ記事
-
OpenAIのアカウントが暗号通貨ハッカーにハッキングされ、15ヶ月間で4件目のハッキング事件となった。ネットユーザーからは「彼らのAIのセキュリティは依然として信頼できるのか?」という疑問の声が上がっている。
-
世界初!清華大学、上海交通大学などが共同で糖尿病の診断と治療のための大規模視覚言語モデルを開発し、Natureサブジャーナルに掲載されました。
-
意見の相違が上司との平手打ち合戦にまでエスカレートし、若者たちが恐怖に怯えるAIの世界は完全に狂っている。
-
北京大学、初の汎用コマンドナビゲーション大型モデルシステムを提案 | CoRL 24
-
6 日連続で 6 つのモデルが発売された Step は、マルチモーダル ボリュームの王者として常に君臨しています。
-
Motiffが中国初の大規模UIモデルをリリース。ベンチマークスコアはAppleやGPT-40を上回る。