618ZXW

数学におけるAIの神話は打ち砕かれました!FrontierMathはLLM学生にほとんど進歩をもたらしませんでした。正解率は2%未満です。

データホエール

データホエールの共有

概要: 大規模モデル + 数学; 出典: AI Cambrian

大規模言語モデル (LLM) は最近、さまざまな数学ベンチマークでスコアを積み重ねており、90% を超える精度を達成することが多く、数学の世界を席巻しようとしているように見えます。

しかし、Epoch AI はこれ以上我慢できず、60 人以上のトップクラスの数学者とチームを組み、強力なソリューションを考案しました。それが、LLM 学生の反対意見を抑えるために設計されたまったく新しい数学的推論テスト、FrontierMath です。

結果は悲惨でした。LLMプログラムは完全不合格となり、正解率は2%未満でした!🤡

Epoch AI がどのようにそれを実現するか見てみましょう。

FrontierMath は、人工知能の高度な数学的推論能力を評価するためのベンチマーク テストです。

これは、Epoch AI が 60 人以上の一流数学者と協力して作成した、独創的で非常に難しい数学の問題数百問で構成されています。

FrontierMath は、数論における計算集約的な問題から代数幾何学や圏論における抽象的な問題まで、現代数学の主要分野のほとんどをカバーし、現代数学の概要を捉えることを目的としています。

経験豊富な数学者でも、これを解くのに頭を悩ませ、何時間、あるいは何日も費やす必要があります。

FrontierMath には 3 つの主要な設計原則があります。

1) データの汚染を防ぐため、すべての質問は新規かつ未公開です。

2) ソリューションは自動的に検証可能であり、効率的な評価が可能になります。

3) この問題は「推測不可能」であり、正しい推論なしに解決できる可能性は非常に低いことを意味します。

評価結果

o1、Claude 3.5 Sonnet、GPT-4o、Grok、Gemini 1.5 Proを含む6つの主要モデルが評価されました。思考時間の延長(10,000トークン)、Pythonアクセス、実験実行機能を備えていたにもかかわらず、成功率は2%未満でした。

それに比べて、従来のベンチマークテストでは成功率が 90% を超えました。

Epoch AIは、GSM8KやMATHといった既存の数学ベンチマークはLLMの学生にずっと以前に追い抜かれており、高得点は主にデータ汚染によるものだと指摘している。

はっきり言って、LLM の学生は「過去の試験問題」を大量に暗記することでスコアを上げ、実際の試験がずっと簡単になります!

一方、FrontierMathは全く異なります。すべての問題は新しく未発表なので、LLMの学生がカンニングをする機会はありません!これは当然のことながら、LLMの学生の真のレベルを明らかにします。

フィールズ賞受賞者も感銘を受けています。

FrontierMath の難しさをさらに検証するために、Epoch AI は、テレンス・タオ (2006 年)、ティモシー・グールド (1998 年)、リチャード・ボヘルツ (1998 年)、IMO コーチのエヴァン・チェンなど、フィールズ賞 (数学界最高の栄誉) 受賞者数名にもインタビューしました。

これらの専門家は全員一致で、FrontierMath の問題は非常に難しく、解決するには深い専門知識と強力な推論スキルが必要であると同意しました。

FrontierMathに関する専門家の視点:LLM評価におけるモラベックのパラドックス

モラベックのパラドックスは、人工知能とロボット工学の研究者によって発見された、常識に反する現象です。従来の想定とは異なり、人間特有の高次知能(推論など)は計算能力をほとんど必要としませんが、無意識のスキルや直感は膨大な計算能力を必要とします。この考えは、ハンス・モラベック、ロドニー・ブルックス、マービン・ミンスキーらによって1980年代に提唱されました。モラベックは、「コンピューターに大人のようにチェスをさせるのは比較的簡単ですが、1歳児のような知覚と行動をコンピューターに持たせるのは、不可能ではないにしても、非常に困難です」と述べています。

Andrej Karpathy对这个新的前沿数学基准测试(LLM仅解决了2%)的反应:

このベンチマークを導入した理由は、大規模モデルが既存の数学ベンチマークをますます圧倒しているからです。興味深いのは、大規模モデルが徐々に多くの分野(例えば数学やコーディング)でトップクラスのエキスパートになりつつあるにもかかわらず、最も単純な仕事でさえも、彼らを雇うことを選択する人はいないということです。

問題をきちんと説明して皿の上に載せれば、複雑な閉じた問題を解決することができますが、人間にとっては非常に簡単な、長くて自律的な問題解決のシーケンスをつなぎ合わせるのは困難です。

人間にとって簡単なこと/難しいことは、コンピュータや常識にとって簡単なこと/難しいこととは大きく異なる場合があります。

たとえば、人間はコンピュータがチェスをプレイするのを見て感銘を受けますが、チェスは離散的なアクション空間や完全な観測可能性などを備えた閉じた決定論的なシステムであるため、コンピュータにとって簡単です。

逆に、人間は特に考えなくても靴ひもを結んだりシャツを畳んだりすることができますが、これはハードウェアとソフトウェアの両方の技術が要求される極めて複雑な動作検知タスクです。

これはOpenAIが最近公開したルービックキューブに似ています。多くの人は、ロボットの手でキューブの片面を回すという極めて難しいタスクよりも、キューブ自体を解くこと(これは簡単なことです)に重点を置いています。

結論

いずれにせよ、数学は複雑な推論を評価するための他に類を見ない理想的な環境を提供します。数学には創造性と精密な論理の連鎖が求められ、多くの場合、綿密な計画と実行を要する複雑な証明が伴いますが、結果の客観的な検証も可能でなければなりません。

人工知能が創造的な問題を解決し、複数のステップにわたって正確な推論を維持する能力を測定することは、科学的研究に不可欠な体系的かつ革新的な思考の進歩についての洞察を得るのに役立つ可能性があります。

FrontierMathを探索:

https://epochai.org/frontiermath では、詳細な回答、専門家のコメント、研究論文が付いたサンプル問題が公開されています。

いいね (3件のいいね!)↓