618ZXW

o1/クロード、集団で失敗! テレンス・タオと60人以上の一流数学者が協力し、新たな数学のベンチマークを提案。

大規模モデルは集団的に失敗し、数学の問題の正解率はすべて 2% を下回りました。

著名な数学者カパシ氏の強い推奨により、大規模モデルの新しい数学的ベンチマークが大きな勢いで登場しています。

国際数学オリンピックで83%の合格率を達成したO1モデルは、初挑戦で敗退しました。さらに、Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Proなども、いずれも2%の壁を突破できませんでした。

それで、この新たな挑戦者はいったい誰なのでしょうか?

調べてみると、この新しい数学ベンチマークはFrontierMathと呼ばれ、非営利研究機関Epoch AIの招待を受けて、テレンス・タオ氏を含む60人以上の一流数学者によって提案されたことが判明しました。

このグループは今回、AIの難易度を上げることを決意し、極めて難しいオリジナルの数学問題を数百問作成しました

数論における計算集約的な問題から代数幾何学や圏論における抽象的な問題まで、現代数学の主要分野のほとんどを網羅しています。

これらの問題はどれほど難しいのでしょうか?数学者テレンス・タオ氏はこの研究を次のように評価しています。

大型モデルは少なくともあと数年は継続する必要があるでしょう。

同時に、カパシ氏はこの新しいベンチマークに対する大きな満足感を表明し、大型モデルが「失敗する」のを見て喜びさえ感じた。

このベンチマークが導入されたのは、大規模モデルが既存の数学ベンチマークを上回るパフォーマンスを発揮し始めたためです。

FrontierMath: AIの高度な数学的推論能力を評価するための新たなベンチマーク

今年に入ってから、大規模言語モデル (LLM) はさまざまな数学ベンチマークで高得点を獲得し始めており、精度率は 90% を超えることが多くなりました。

人々はあまりにも多くのプロパガンダを目にしてきたため、それに麻痺し、自らの行動を反省し始めました。

現在のベンチマークは「汚染」される必要があります (たとえば、トレーニング フェーズ中に AI にベンチマークの質問を事前に学習させるなど)。

これに応えて、非営利研究機関のEpoch AIは、合計14個のIMO金メダルを獲得した60人以上のトップ数学者と協力して、FrontierMathを立ち上げました。

この新しいベンチマークには、大規模なモデルではこれまで見たことのない数百もの数学的な問題が含まれており、非常に困難です。

通常、プロの数学者が何時間、あるいは何日もかけて取り組む必要があります。

予想通り、一連の実地試験の結果、トップクラスの大規模モデル(Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Proなど)の多くが不合格となり、解決率は2%未満でした

さらに、思考時間の延長(10,000 トークン)、Python アクセス、実験実行機能があっても、成功率は依然として 2% 未満です。

次に、FrontierMathについて詳しく紹介します。この最初のレベルでは、主に数学問題の独創性に重点が置かれています。

これらの数学者は、次の 3 つの主要原則に従って問題を設計するように求められました。

  • データの汚染を防ぐために、すべての質問は新しく未公開です。
  • ソリューションは自動的に検証可能であり、効率的な評価を可能にします。
  • この問題は「推測不可能」であり、正しい推論なしに解決できる可能性は低いことを意味します。

新たな質問を導入することに加えて、組織はデータの汚染を防ぐために他の対策も講じています。

たとえば、問題や解決策がオンラインで拡散するリスクを最小限に抑えるために、組織ではすべての提出を安全で暗号化されたチャネルを通じて行うことを推奨しています。

具体的には、組織は暗号化された通信プラットフォームを使用して寄稿者と調整し、オンラインで保存されるすべての書面資料(暗号化されたドキュメントなど)を暗号化することを要求します。

同時に、同機関は、数学者中心のチームによる専門家によるレビューという独自の確認方法に頼って、自動化システムが見逃す可能性のある潜在的な類似点を特定しています(専門家は機械よりもこれらの研究の詳細に精通しています)。

もちろん、完全に人間の手による作業に頼っているわけではありません。さらに独創性を高めるために、組織ではQuetextやCopyscapeなどの盗作検出ツールも活用し、問題点を検証しています。

最終的に、数学者は、数論における計算集約的な問題から代数幾何学や圏論における抽象的な問題まで、現代数学の主要分野のほとんどを網羅する数百の独自の問題を提案しました。

数論と組合せ論が最も多く、MSC2020(数学科目分類システム2020年版)の全エントリの約34%を占めました。

次に、FrontierMath 問題における大規模モデルのパフォーマンスを評価するために、フレームワークが開発されました。

つまり、このフレームワークがタスクを実行する際の具体的なプロセスは次のとおりです。

  • 問題分析: モデルはまず与えられた数学の問題を分析します。
  • 戦略を提案する: モデルは可能な解決策戦略を提案します。
  • コードを実装して実行する: これらの戦略を実行可能な Python コードに変換し、自動的に実行します。
  • フィードバックを受信する: 出力やエラー メッセージなど、コード実行の結果からのフィードバックを受信します。
  • 改善方法: 実験結果に基づいて、モデルは中間結果を検証し、推測をテストし、潜在的なエラーを修正するために推論プロセスを改善する場合があります。

このフレームワークは 2 つの送信方法をサポートしています。1 つは、モデルが問題に対する最終的な回答を直接提供できる方法です。もう 1 つは、最終的な回答を送信する前に、モデルがまずコード実行を通じて実験を行い、そのソリューションの有効性を検証できる方法です。

ただし、最終的な回答を提出する際には、モデルが何らかの標準化された形式に従う必要があることに注意してください。

例えば、回答には「#これが最終回答です」というコメントを含め、結果はPythonのpickleモジュールに保存する必要があります。同時に、提出されたコードは自己完結的であり、以前の計算に依存していないことを確認する必要があります。

要約すると、この評価プロセスは、モデルが正しくフォーマットされた最終回答を送信するか、事前に設定されたトークン制限に達するまで(調査では 10,000 トークンに設定されています)継続されます。

モデルがラベル付け制限に達する前に最終回答を送信しない場合は、最終回答をすぐに送信することを要求する最終プロンプトが表示されます。

モデルがこのプロンプトを受け取った後も正しい形式の最終回答を提供できない場合、試行は不正解としてマークされます。

テレンス・タオでさえそれは難しいと言っていました。

FrontierMathの難しさをさらに検証するために、同組織は4人のトップクラスの数学者にもインタビューした。

フィールズ賞受賞者のテレンス・タオ (2006 年)、ティモシー・グールド (1998 年)、リチャード・ボハーツ (1998 年)、そして IMO コーチのエヴァン・チェンは皆、これらの問題が非常に難しいことに同意しています。

Epoch AI は、以下の 4 つの分野で進歩を続ける予定です。

  • これらの主要な大規模モデルを定期的に評価し、時間の経過と規模の拡大に伴って高度な数学的推論機能がどのように向上するかを観察します。
  • 難易度を維持しながら、FrontierMath にさらに多くの問題を追加します。
  • 今後数か月以内に、誰もが研究し議論できるように、より代表的な質問が公開される予定です。
  • 専門家によるレビューの拡大、エラー数の増加、ピアレビュープロセスの改善により品質管理を強化する。

これは Capasi 氏の希望にも合致していました。特に「簡単」と思われるものの評価を作成するために、こうした新しいベンチマークがもっと必要だと彼は考えていたからです。

このベンチマークを導入した理由は、大規模モデルが既存の数学ベンチマークをますます圧倒しているからです。興味深いのは、大規模モデルが徐々に多くの分野(例えば数学やコーディング)でトップクラスのエキスパートになりつつあるにもかかわらず、最も些細なタスクを彼らに任せる代わりに、大規模モデルを雇う人はいないということです

問題をきちんと説明して皿の上に載せれば、複雑な閉じた問題を解決することができますが、人間にとっては非常に簡単な、長くて自律的な問題解決のシーケンスをつなぎ合わせるのは困難です。

これはモラベックのパラドックスのバリエーションであり、彼は 30 年以上前に、人間にとって簡単なこと/難しいことは、コンピュータにとって簡単なこと/難しいこととは直感的ではない形で大きく異なる可能性があると観察しました。

たとえば、人間はコンピュータがチェスをプレイするのを見て感銘を受けますが、チェスは離散的なアクション空間や完全な観測可能性などを備えた閉じた決定論的なシステムであるため、コンピュータにとって簡単です。

逆に、人間は特に考えなくても靴ひもを結んだりシャツを畳んだりすることができますが、これはハードウェアとソフトウェアの両方の技術が要求される極めて複雑な動作検知タスクです。

これはOpenAIが最近公開したルービックキューブに似ています。多くの人は、ロボットの手でキューブの片面を回すという極めて難しいタスクよりも、キューブ自体を解くこと(これは簡単なことです)に重点を置いています。

したがって、私はこのFrontierMathベンチマークを非常に気に入っており、もっと多くのベンチマークを作成するべきだと考えています。しかし同時に、「簡単」と思われているものの実際には難しいものすべてについて評価を作成することは、興味深い挑戦だとも思っています。

長期的な文脈、一貫性、自律性、常識、効果的なマルチモーダルな入出力…どうすれば「ジュニアジョブ」の評価を効果的に確立できるでしょうか?それは、チーム内のジュニアインターンに期待されるものと全く同じです。

ネットユーザーらはまた、このようなベンチマークテストで高得点を達成できる大規模モデルは大きな利益をもたらすだろうと述べた。

テレンス・タオの夢は、LEAN (Microsoft Research が開発した定理証明器) に接続して、数学者が編集者やコンサルタントとして機能し、時々本当に難しい部分に取り組む一方で、残りの部分は自動化され、正しいことが証明されるというものです。

このベンチマークテストで 80% を達成した LLM が数学者にとって役に立たないとは言い難い。

これについてどう思いますか?