|
大規模モデルは集団的に失敗し、数学の問題の正解率はすべて 2% を下回りました。 著名な数学者カパシ氏の強い推奨により、大規模モデルの新しい数学的ベンチマークが大きな勢いで登場しています。 国際数学オリンピックで83%の合格率を達成したO1モデルは、初挑戦で敗退しました。さらに、Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Proなども、いずれも2%の壁を突破できませんでした。 それで、この新たな挑戦者はいったい誰なのでしょうか? 調べてみると、この新しい数学ベンチマークはFrontierMathと呼ばれ、非営利研究機関Epoch AIの招待を受けて、テレンス・タオ氏を含む60人以上の一流数学者によって提案されたことが判明しました。 このグループは今回、AIの難易度を上げることを決意し、極めて難しいオリジナルの数学問題を数百問作成しました。 数論における計算集約的な問題から代数幾何学や圏論における抽象的な問題まで、現代数学の主要分野のほとんどを網羅しています。 これらの問題はどれほど難しいのでしょうか?数学者テレンス・タオ氏はこの研究を次のように評価しています。 大型モデルは少なくともあと数年は継続する必要があるでしょう。 同時に、カパシ氏はこの新しいベンチマークに対する大きな満足感を表明し、大型モデルが「失敗する」のを見て喜びさえ感じた。 このベンチマークが導入されたのは、大規模モデルが既存の数学ベンチマークを上回るパフォーマンスを発揮し始めたためです。 FrontierMath: AIの高度な数学的推論能力を評価するための新たなベンチマーク今年に入ってから、大規模言語モデル (LLM) はさまざまな数学ベンチマークで高得点を獲得し始めており、精度率は 90% を超えることが多くなりました。 人々はあまりにも多くのプロパガンダを目にしてきたため、それに麻痺し、自らの行動を反省し始めました。 現在のベンチマークは「汚染」される必要があります (たとえば、トレーニング フェーズ中に AI にベンチマークの質問を事前に学習させるなど)。 これに応えて、非営利研究機関のEpoch AIは、合計14個のIMO金メダルを獲得した60人以上のトップ数学者と協力して、FrontierMathを立ち上げました。 この新しいベンチマークには、大規模なモデルではこれまで見たことのない数百もの数学的な問題が含まれており、非常に困難です。 通常、プロの数学者が何時間、あるいは何日もかけて取り組む必要があります。 予想通り、一連の実地試験の結果、トップクラスの大規模モデル(Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Proなど)の多くが不合格となり、解決率は2%未満でした。 さらに、思考時間の延長(10,000 トークン)、Python アクセス、実験実行機能があっても、成功率は依然として 2% 未満です。 次に、FrontierMathについて詳しく紹介します。この最初のレベルでは、主に数学問題の独創性に重点が置かれています。 これらの数学者は、次の 3 つの主要原則に従って問題を設計するように求められました。
新たな質問を導入することに加えて、組織はデータの汚染を防ぐために他の対策も講じています。 たとえば、問題や解決策がオンラインで拡散するリスクを最小限に抑えるために、組織ではすべての提出を安全で暗号化されたチャネルを通じて行うことを推奨しています。 具体的には、組織は暗号化された通信プラットフォームを使用して寄稿者と調整し、オンラインで保存されるすべての書面資料(暗号化されたドキュメントなど)を暗号化することを要求します。 同時に、同機関は、数学者中心のチームによる専門家によるレビューという独自の確認方法に頼って、自動化システムが見逃す可能性のある潜在的な類似点を特定しています(専門家は機械よりもこれらの研究の詳細に精通しています)。 もちろん、完全に人間の手による作業に頼っているわけではありません。さらに独創性を高めるために、組織ではQuetextやCopyscapeなどの盗作検出ツールも活用し、問題点を検証しています。 最終的に、数学者は、数論における計算集約的な問題から代数幾何学や圏論における抽象的な問題まで、現代数学の主要分野のほとんどを網羅する数百の独自の問題を提案しました。 数論と組合せ論が最も多く、MSC2020(数学科目分類システム2020年版)の全エントリの約34%を占めました。 次に、FrontierMath 問題における大規模モデルのパフォーマンスを評価するために、フレームワークが開発されました。 つまり、このフレームワークがタスクを実行する際の具体的なプロセスは次のとおりです。
このフレームワークは 2 つの送信方法をサポートしています。1 つは、モデルが問題に対する最終的な回答を直接提供できる方法です。もう 1 つは、最終的な回答を送信する前に、モデルがまずコード実行を通じて実験を行い、そのソリューションの有効性を検証できる方法です。 ただし、最終的な回答を提出する際には、モデルが何らかの標準化された形式に従う必要があることに注意してください。 例えば、回答には「#これが最終回答です」というコメントを含め、結果はPythonのpickleモジュールに保存する必要があります。同時に、提出されたコードは自己完結的であり、以前の計算に依存していないことを確認する必要があります。 要約すると、この評価プロセスは、モデルが正しくフォーマットされた最終回答を送信するか、事前に設定されたトークン制限に達するまで(調査では 10,000 トークンに設定されています)継続されます。
テレンス・タオでさえそれは難しいと言っていました。FrontierMathの難しさをさらに検証するために、同組織は4人のトップクラスの数学者にもインタビューした。 フィールズ賞受賞者のテレンス・タオ (2006 年)、ティモシー・グールド (1998 年)、リチャード・ボハーツ (1998 年)、そして IMO コーチのエヴァン・チェンは皆、これらの問題が非常に難しいことに同意しています。 Epoch AI は、以下の 4 つの分野で進歩を続ける予定です。
これは Capasi 氏の希望にも合致していました。特に「簡単」と思われるものの評価を作成するために、こうした新しいベンチマークがもっと必要だと彼は考えていたからです。
ネットユーザーらはまた、このようなベンチマークテストで高得点を達成できる大規模モデルは大きな利益をもたらすだろうと述べた。
これについてどう思いますか? |
o1/クロード、集団で失敗! テレンス・タオと60人以上の一流数学者が協力し、新たな数学のベンチマークを提案。
関連するおすすめ記事
-
Andrew Ngが参加し、最新のPythonパッケージをオープンソース化
-
大学との協働学習活動「OPEN AI 基礎教育講座」受講登録受付開始!
-
COSCon'24のメディアパートナーおよびコミュニティパートナーの皆様にご参加いただきました。ご協力ありがとうございました!
-
TuSimple の自動運転車はあらゆる状況に反応します。AIGC ゲームに変身するのは生き残るためです。
-
ByteDance の SeedEdit ユニバーサル画像編集モデルがテスト用にリリースされ、ユーザーはたった 1 つの文で簡単に画像を編集できるようになりました。
-
DeepSeek を家庭教師として雇うために 1699 ドルを支払う価値はあるでしょうか?