618ZXW

o3がIOI 2024で金メダルを獲得!新たな論文がRLの秘密を明らかに:AIは人間の介入なしに独自のテスト時推論戦略を設計します。

OpenAIはo3で高得点を獲得し、IOI 2024で金メダルを簡単に獲得しました。

OpenAIは競技プログラミングにおける推論モデルの応用に関する研究論文を発表したばかりで、IOIとCodeForceにおけるOpenAIの3つの推論モデルの具体的な結果が示されている。

三兄弟とはOpenAI o1、o1-ioi(o1をベースに細かな調整と改良を加えたもの)、o3のことで、それぞれの性能は以下のとおりです。

IOI 2024 、国際情報科学オリンピック:

  • o1-ioi は厳格なルールの下で 213 ポイント (49 パーセンタイル) を獲得しましたが、提出制限が緩和された後は 362.14 ポイントに急上昇しました。
  • o3は厳しいルールの下で395.64ポイントを獲得し、金メダルを獲得した。

CodeForeces は、評価のために現実世界の競争環境をシミュレートするモデルです。

その中で、o1-ioi と o3 は o1 よりも大幅に高いスコアを獲得し、特に o3 はトップクラスの人間プレイヤーに近いスコアを獲得しました。

  • o1: 1673 (89パーセンタイル)
  • o1-ioi: 2214 (98パーセンタイル)
  • o3: 2724 (99.8パーセンタイル)

この論文はすぐにインターネット上に広まり、ネットユーザーたちは熱心に共有し、議論した。

一部のネットユーザーは、o1-ioi が各問題に対して 10,000 通りの候補ソリューションを生成し、複雑なテスト時間戦略を使用したため、IOI 2024 で優れたパフォーマンスを発揮したことに気づきました。一方、o3 は、厳しい制約の下、わずか 50 件の提出と人間の介入なしにトップ プレーヤーのレベルに達しました。

これはOpenAIの論文で強調された結論につながる。

o3 のパフォーマンスは、大規模なエンドツーエンドの RL (強化学習) を通じて手動で設計されたテスト時の推論戦略に頼ることなく、最初にブルートフォース コードを記述して効率を向上し、次にクロス検証に他の方法を使用することを学習できることを示しています。

ネットユーザーたちは「素晴らしい」と言い続けた。

次のマイルストーンは、1 回の提出ですべての問題を解決できるモデルの出現です。
おそらくOpenAI o4がその瞬間をもたらすでしょう。

「大規模推論モデルによる競争プログラミング」と題されたレポートは現在 arXiv で公開されており、記事へのリンクは最後にあります。

O シリーズの 3 人の兄弟はそれぞれ、競技プログラミングにおいて独自の才能を発揮します。

競技プログラミングは、大規模なモデルの推論能力とコーディング能力を評価するための理想的なテスト シナリオです。

OpenAIは、この論文の研究目的は、複雑なコーディングと推論のタスク中の大規模モデルにおけるRLの役割を探ることであると述べています。

研究プロセスでは、一般的な推論モデルのパフォーマンスをドメイン固有のシステムと比較し、AI の推論機能を向上させる効果的な方法も模索しました。

この研究には、いずれも OpenAI によって開発された 3 つの推論モデルが使用されました。

  • オープンAI o1
  • OpenAI o1-ioi
  • オープンAI o3

一般推論モデルo1

o1 は、複雑な推論タスクを処理するために RL でトレーニングされた大規模なモデルです。

RL トレーニングを通じて、o1 は CoT (思考の連鎖) を生成できます。これは、複雑な問題について考え、解決し、モデルがエラーを識別して修正し、複雑なタスクを管理可能な部分に分解し、方法が失敗した場合に代替の解決パスを探索するために使用されます。

さらに、o1 は外部ツールを呼び出してコードを検証することもできます。

CodeForce ベンチマーク テストでは、o1 は 1673 ポイント (89 パーセンタイル) を獲得しました。

非推論モデル(GPT-4oなど)や初期推論モデル(o1-previewなど)と比較して、o1スコアは大幅な改善を示しました。

さらに、o1 の開発と評価の過程で、研究者は「RL 計算コスト」と「テスト時の推論計算コスト」の両方を増やすことで、モデルのパフォーマンスを継続的に向上できることを発見しました。

下の図に示すように、拡張 RL トレーニングと拡張テスト時間推論の両方が大きなメリットをもたらします。

推論モデルo1-ioiのターゲットトレーニング

OpenAI チームは、強化ロジック (RL) の計算コストとテスト時の推論の計算コストの両方を増やすことの重要性を認識した後、IOI 2024 に出場することを目標に、o1 上でターゲットを絞ったトレーニングを実施して o1-ioi を取得しました

コーディング タスクの継続的な RL トレーニングに加えて、o1-ioi には、競技プログラミング専用に設計された専用のテスト時推論戦略も組み込まれています (AlphaCode の手動で設計されたテスト時推論戦略と同様)。

このプロセスの最初のステップは、コーディングタスクに焦点を当てて、o1 の RL フェーズを拡張することです。

追加のトレーニング計算をプログラミング問題専用にすることで、チームはより複雑なソリューションを計画、実装、デバッグする能力を強化しました。

具体的には次のようになります。

  1. RLトレーニングはo1のチェックポイントから再開されました。
  2. 特に、モデルが C++ 生成とランタイム チェックを改善するのに役立つ、難しいプログラミング問題に重点を置いています。
  3. ガイダンス モデルは、IOI 送信形式で出力を生成します。

エンコードに対するこの特別な配慮により、o1-ioi は推論中に C++ プログラムを作成して実行できるようになります。

このモデルは、ソリューションを繰り返し実行して最適化し、推論機能を向上させることで、コーディングと問題解決能力を強化します。

o1-ioiは人間のプレイヤーと同じ条件でIOI 2024に参加しました。

6 つの難しいアルゴリズム問題を 10 時間で解くことができ、問題ごとに最大 50 件の提出が許可されます。

競技中、システムは各問題に対して10,000個の候補解を生成し、テスト時推論戦略を用いて50個の解を選出して提出しました。ここでのテスト時推論戦略とは、IOI公開テストケース、モデル生成テストケース、そして学習済みスコアリング関数のパフォーマンスに基づいて、各提出物の優先順位を決定するというものです。

最終的に、o1-ioiはIOI 2024で213ポイントを獲得し、上位49位にランクインしました。

CodeForces ベンチマークでは、o1-ioi は 1807 点を獲得し、競合製品の 93% を上回りました。

論文では、「これは、エンコーディングタスクに対する追加の RL トレーニングによって大幅な改善が得られることを示しています」と述べています。

その後、チームが簡単な選別基準を使用して、公開テストに合格しなかったソリューションをすべて拒否すると、スコアは 2092 に上昇しました。

最終的に、完全なテスト時の推論戦略によって、o1-ioi スコアは 2214 まで急上昇しました。

これらの結果は、ドメイン固有の RL 微調整と高度な選択ヒューリスティックを組み合わせることで、競技プログラミングの結果を大幅に改善できることを確認しています。

研究者らは、o1-ioi のパフォーマンスは、ドメイン固有の RL 微調整と高度な選択戦略によって競技プログラミングのパフォーマンスを向上できることを証明していると述べています。

一般推論モデルo3

3番目に参戦するのは、OpenAI の最新推論モデル o3 です。

OpenAI チームは、o1 と o1-ioi のパフォーマンスに基づいて、手動で設計されたテスト時間戦略に依存せずに、純粋な RL トレーニングの限界を調査しました。

彼らは、RL によるさらなるトレーニングによって、モデルが独自のテスト時推論戦略を自律的に開発し実行できるようになるかどうかも調査しようとしました。

この目的のため、チームは競技プログラミングを評価するために o3 への早期チェックポイント アクセスを取得しました。

IOI 2024 コンテストに参加する場合、o3 は o1-ioi と同様に公式ルールを厳守し、問題ごとに最大 50 件の提出を許可します。

各サブタスクを個別にサンプリングする o1-ioi ソリューションとは異なり、チームは o3 を評価する際に異なるアプローチを使用しました。

元の質問を含む単一のヒントからのサンプル。

△o3 独自のソリューションをテストする

余談ですが、 IOI 2024 の o3 バージョンは CodeForce の o3 バージョンよりも新しく、更新された追加のトレーニング データが含まれています。

しかし、チームは、IOI 2024 テスト セットが新しいトレーニング テストに含まれていないことを確認しました。

1 号あたり 50 件の応募という制限の中で、 o3 は IOI 2024 で最終スコア 395.64 を達成し、IOI 2024 の金メダルの基準を超えました。

(IOI 2024では、最低得点359.71で合計34名の金メダリストが受賞しました。)

CodeForce ベンチマーク テストでは、o3 は追加の RL のみに依存することで 2724 のスコアを達成し、競合他社の 99.8% を上回りました。

この成果は人間のトップアスリートのレベルに近づいています!

注目すべきは、o1-ioi のスコア (2214、競合他社の 98% を上回る) と o3 のスコア (2724、競合他社の 99.8% を上回る) の差が、競技プログラミングにおける推論モデルの大幅な改善を反映していることです。

これは、o3 がより広範囲の複雑なアルゴリズムの問​​題を高い信頼性で解決できることを示しており、その能力は CodeForces のトップの人間のライバルに近づいています。

さらに興味深いのは、o3 が CodeForce コンテスト中に、より思慮深い思考プロセスを示したことです。

コードを記述して実行し検証するだけでなく、フィードバックに基づいてソリューションを継続的に改善することもできます。

複雑な問題を検証するという課題に直面して、o3 は実際にエンドツーエンドの RL 中に、最初に総当たり方式のソリューションを記述し、次にクロス検証に最適なアルゴリズムの結果を使用することを学習しました。

この自己学習検証メカニズムにより、ソリューションの信頼性が効果的に向上します。

要約すると、チームは、o3 が o1-ioi よりも優れている理由は、IOI 専用に設計されたテスト時間戦略に依存しないことを示しています。

逆に、O3 のトレーニング中に生まれた複雑なテスト時の手法 (総当たり方式によるソリューションを使用して出力を検証するなど) は、手動で設計された戦略の代わりとなり、O1-ioi がクラスターを手動で設計し、パイプラインを選択し、その他のタスクを実行する必要がなくなりました。

そして、そのパフォーマンスは手動で設計された戦略よりも大幅に高くなります。

ソフトウェア エンジニアリング タスクはどの程度うまく実行されましたか?

この論文では、競技プログラミングに加えて、実際のソフトウェア エンジニアリング タスクにおける 3 つの OpenAI 推論モデルのパフォーマンスもテストしました

チームは主に次の 2 つのデータセットで 3 つのモデルをテストしました。

  • HackerRank Astra : クロスドメイン、マルチファイル プロジェクトの問題における大規模モデルの正確性と一貫性を評価するために使用されるテスト セット。
  • SWE-bench : プリンストン大学の NLP チームによって開発された、ソフトウェア エンジニアリングを評価および予測するためのベンチマークとモデル評価のセット。

驚くべきことに、強化された推論能力により、ソフトウェア エンジニアリング タスクも大幅に改善されます。

この 3 人の兄弟は、競技プログラミングでトップクラスの人間に匹敵するだけでなく、現実世界のソフトウェア エンジニアリング タスクでも優れたパフォーマンスを発揮します。

具体的には次のようになります。

ハッカーランクアストラ

HackerRank Astra は、65 のプロジェクト指向のコーディング チャレンジで構成されており、それぞれが実際のソフトウェア開発タスクをシミュレートするように細心の注意を払って設計されています。

これらの課題は、React.js、Django、Node.js などのさまざまなフレームワークをカバーしており、機能やアプリケーションの構築に関する実践的な経験を積むことができます。

このデータセットのユニークな点は、実際の開発環境を反映した複雑で複数ファイルの長いコンテキストのシナリオにおける問題解決スキルの評価に重点を置いていることです。

一般的な競技プログラミング データセットとは異なり、HackerRank Astra では公開テスト ケースが提供されないため、OpenAI チームは手動で作成されたテスト時の戦略に頼ることができません。

このデータセットを使用してパフォーマンスを評価すると、推論能力だけでアルゴリズムの問​​題解決の成功率が向上するのか、それともそれがより実用的で業界に関連したコーディングタスクにまで拡張されるのかがわかります。

上の図では、pass@1 は最初の試行でタスクを正常に完了する確率を表し、平均スコアは合格したテスト ケースの平均割合を表します。

結果は、GPT-4oと比較して、o1-previewはpass@1を9.98%向上させ、平均スコアを6.03ポイント向上させたことを示しました。

RL をさらに微調整すると、o1 のパフォーマンスが向上し、pass@1 は 63.92% となり、o1-preview よりも 3.03% 高くなります。平均スコアは 75.80 です。

これらのメトリックは、O1 の強化された推論能力と適応性を示し、複雑な業界固有のソフトウェア開発タスクを効果的に処理できるようになります。

SWEベンチ

SWE-bench はプリンストン大学の NLP チームによって開発されましたが、SWE-bench Verified は OpenAI の準備チームによって手動で検証された SWE-bench のサブセットです。

AI モデルが現実世界のソフトウェア問題を解決する能力をより確実に評価できます。

この 500 個の検証済みタスク セットは、正解のスコアリングが不正確、問題ステートメントが未指定、単体テストが過度に具体的など、SWE ベンチのいくつかの問題を修正します。これにより、ベンチマークでモデルの機能性を正確に評価できるようになります。

すべてのモデルは候補パッチの生成を 5 回試行します。

上の図に示すように、o1-preview は GPT-4o と比較して SWE-bench でのパフォーマンスを 8.1% 向上させ、推論機能の大幅な向上を示しています。

トレーニング中に追加の RL 計算を適用することで、o1 はさらに 8.6% 改善されました。

注目すべきは、o1 よりもトレーニング用の計算リソースがはるかに多い o3 が、o1 と比較して 22.8% 向上しており、「非常に印象的」であるということです。

これらの結果は、推論モデルがソフトウェア エンジニアリングなどの実用的なタスクに大きな適用性と価値を持っていることを示しています。

もう一つ

OpenAIの従業員は、ミームはこの論文を完璧に要約できると述べた。

少々残念なことに、OpenAI の新しい研究は arXiv に投稿されているものの、論文というよりはレポートのようなものになっています。論文全体では方法論的な詳細についてはあまり明らかにされておらず、結果のみが示されているからです

しかし、そこに書かれていた内容は、依然としてネットユーザーの間で感情を呼び起こした。

測定できるものはすべて改善されます。

ペーパーエクスプレス:
https://arxiv.org/pdf/2502.06807

参考リンク:
[1https://x.com/arankomatsuzaki... [2]https://x.com/iScienceLuvr/st... [3]https://x.com/jennywxiao/stat...