|
OpenAI の O1 シリーズのリリースにより、従来の数学ベンチマークでは不十分であることが判明しました。 本格的なO1モデルであるMATH-500は94.8点を獲得した。 さらに難しいAIME 2024数学コンテストでも、o1は83.3%の正解率を達成しました。 既存の数学評価セットが徐々に習得されるにつれて、人々は疑問を抱かずにはいられなくなります。大規模なモデルは、より難しい数学コンテスト、さらには国際数学オリンピックにも対応できるのでしょうか? この目的のために、北京大学とアリババの研究チームが共同で、数学競技に特化したオリンピック評価ベンチマーク「Omni-MATH」を作成した。 Omni-MATHは、オリンピックレベルの大規模言語モデルの数学的推論能力を評価するために特別に設計されています。評価セットには、競技レベルの問題が4,428問含まれています。これらの問題は33(以上)のサブドメインを網羅し、10段階の難易度に細分化されており、様々な数学分野や複雑さのレベルにわたってモデルのパフォーマンスを詳細に分析できます。 最新のランキングでは激しい競争が見受けられます。 API をまだリリースしていない o1 のフルバージョンを除けば、小型モデルである o1-mini が最高のパフォーマンスを発揮し、平均スコアは o1-preview よりも約 8% 高くなりました。 最高のオープンソース モデルは Qwen2-MATH-72b であり、これは GPT-4o のパフォーマンスを上回ります。 要約すると、いくつかの機能のみに焦点を当て、広範囲にわたるグローバルな知識の保存を放棄するという o1-mini アプローチの利点が、再び検証されました。 Omni-MATH: 高い難易度と幅広い範囲数学オリンピックのベンチマークとして、Omni-MATH には 3 つの重要な特徴があります。 人間による回答の信頼性の検証: 4,428 個の評価問題は、さまざまな数学コンテストやフォーラムから収集され、人間が関与して回答の正確性を検証しています。また、オリンピックレベルの質問に対する回答の多様性を考慮して、GPT4o に基づく評価方法と評価モデルが提供され、ワンクリックで簡単に評価できます。 明確で合理的な難易度区分:評価セットは概して難易度が高く、難易度の幅も非常に広いです。CEMC(プレオリンピアードレベル4)から、IMO、IMC、パトナムといった数学オリンピックのトップレベル(T0)まで、幅広いレベルを網羅しています。これらの競技会では、参加者は確固たる数学的基礎だけでなく、卓越した論理的推論力と創造性も求められます。データによると、これらの競技会で優れた成績を収められるのは、エリート級のIQを持つごく少数の人々に限られています。 問題の種類は非常に幅広く、数学の問題には33以上のサブドメインが存在します。数学ドメインの特性に基づき、チームはツリー状のドメイン分類システムを作成しました。各問題は1つ以上のドメイン(つまり複数のツリーパス)に関係しており、これにより、様々な数学分野と難易度にわたってモデルのパフォーマンスを詳細に分析することが可能になりました。 評価セットOmni-MATHの構築データ構築研究チームはまず、国内外の数学オリンピックの基礎的な大会について詳細な調査を実施しました。その結果、生徒は最初の準備段階から最高レベルの競技に至るまで、複数の選考ラウンドを経なければならないことがわかりました。 たとえば、英国のシステムでは、選考プロセスには、JMC → IMC → SMC → BMO 1 → BMO 2 → IMO という一連の選考プロセスが含まれます (この IMC (中級数学チャレンジ) は、前述の IMC (国際大学生数学コンテスト) と同じコンテストではありません)。 ただし、米国のシステムでは、選択には AMC 8 → AMC 10 → AMC 12 → AIME → USA(J)MO → IMO という一連の選択階層を通過する必要があります。 この結果を受けて、研究チームはモデル評価のために同様の難易度を設定することを検討しました。そこで研究チームは、オリンピックレベルの数学テストという枠組みの中でもOmni-MATHの難易度が多様であることを確認するため、世界中の様々な難易度のコンテストを調査しました。 さらに、オリンピックレベルの数学試験は、実際には数学の幅広い分野を網羅しています。研究チームは、モデルの学習中に異なる分野のデータ間で相乗効果が生じるかどうかを検討しました。例えば、分野Aのデータが分野Bへのモデルの汎化性を向上させるかどうかなどです。このようなデータエンジニアリングは非常に有意義です。 この方向の研究の基礎を築くために、研究者は関連する競争の教科書を参考にして、数論、代数、幾何学などの主要な数学のカテゴリから、これらのドメイン内の特定のサブドメインや知識ポイントに至るまで、この評価セットのデータドメインを非常に詳細に分割しました。 評価データセットは主に2つの情報源から得られます。1つは様々なコンテストの問題と解答、もう1つは有名な数学ウェブサイト「Art of Problem Solving」です。参加を希望するコンテストでは、問題の解答から解答を見つけることを優先しています。 希望するコンテストに公開されている解決策がない場合、チームはAoPSウェブサイトのフォーラムから回答を収集しました。回答は実際のユーザーによって書かれたものであるため、問題のある回答が含まれている可能性が高く、厳格な審査が必要でした。 研究チームは、AoPSウェブサイトから回答パターンが一貫している候補質問を3つ以上選び、最終的に同一の回答を持つ3つの質問を基準として選定しました。さらに、正確性をさらに高めるため、質問を手作業で選別しました。 データ処理データ処理自体: 開発者はPDFの解答をスクレイピングした後、Mathpixを使用してLaTeX形式に変換しました。フォーラムの回答をスクレイピングした後、まずGPT-4oを使用してフォーマットし直し、構造化された返信を作成し、その後、元の回答と一致するかどうかを手動で確認しました。 どちらのタイプのデータについても、チームは最終的に手動チェックを使用して、データ ソースの情報との一貫性を確保しました。 難易度分類: 問題の難易度分類は AoPS の Web サイトを参照しました。 具体的には、競技会のレベルによって問題の難易度は根本的に異なります。例えば、CEMCとIMOの問題は大きく異なります。さらに、同じ競技会でも問題の内容は様々です。例えば、IMOの競技会では簡単な問題と難しい問題が混在することがあります。そのため、評価セットの難易度分類は、AoPSウェブサイトに記載されている難易度係数(1~10、主に整数、0.5や0.25などの値も含む)に厳密に従います。 ウェブサイトに掲載されていないコンテンツについては、チームはウェブページのコンテンツを少数の質問にまとめ、GPT4oを用いて問題の難易度をラベル付けしました。全体的な難易度分布と、異なる競技における問題の分布は以下のとおりです。 ドメイン分類: 従来の数学テストのベンチマークとは異なり、オリンピックの数学の問題はより多くの分野をカバーし、より広い範囲の知識を扱います。 国際数学オリンピック(IMO)の問題をより整理・統一し、異なる数学分野にまたがるデータ間の関係性をより深く探求するため、研究チームはより包括的なツリー型の分類システムを構築しました。研究チームは関連する競技教科書を参照し、IMO関連分野を幾何学、代数学、数論、応用数学などの分野に分類しました。そして、これらの分野を出発点として、各分野をさらに細分化し、より詳細な知識ポイントへと細分化しました。 このツリー状の分類システムは、様々な質問と、異なるドメインにおけるモデルのパフォーマンスとの関係を理解するのに役立ちます。チームはこのツリー状の分類システムをテンプレートとして使用し、コンペティションガイドブックの例と組み合わせて、少数のショットでのヒントを構築しました(具体的なツリー構造とヒントの内容は、記事末尾のコードリポジトリで確認できます)。 次に、チームは GPT-4o を使用して、各質問を 1 つ以上のカテゴリに分類しました。 オープンソースの回答検証ツール Omni-Judgeは、Llama3-Instructを微調整した検証ツールで、テスト問題の解答が与えられた解答と一致するかどうかを検証するために使用されます。数学オリンピックレベルの問題は解答の種類が非常に多様であるため、ルールベースの評価は実質的に非常に困難です。モデルの予測値を取得した後、モデルの出力が標準的な解答と一致するかどうかを判断する必要があります。評価にはGPT-4oを使用するだけでなく、より簡便な評価方法も提供しています。GPT-4oモデル評価中に生成されたCOTデータを用いてLlama3-Instructを微調整することで、GPT-4oと同等の評価一致率95%を誇るオープンソース検証ツールを実現します。 参考リンク: プロジェクトページ: https://omni-math.github.io/ |
北京大学 AI 数学オリンピックの評価では、O1-Mini は O1-Preview よりも高いスコアを獲得しました。
関連するおすすめ記事
-
5人で設立されたスタートアップが、国産AI検索エンジンで大ヒット!小紅書やRedditでプロモーション中!創業者は「Perplexityよりもリテンション率が高い」と断言。
-
miHoYoとバーガーキングの類似性の背後では、技術的な予測がすでに現実のものとなっている。
-
AlphaFold がノーベル賞を受賞。DeepMind CEO の受賞スピーチ: AI に取り組む最高の科学者は素晴らしい成果を成し遂げるでしょう。
-
アリババクラウド天池大学の学生コンテストが開始、賞金22万人民元!
-
AIによるストーリーテリングは、まるで人間の話術に匹敵します!Doubaoの音声モデルは、コンテキスト理解能力が強化され、さらに進化しました。
-
GPT-4oは大きくリードしましたが、Googleの新モデルに敗北しました。ChatGPT公式アカウント:皆さん、深呼吸をしてください。