|
データホエール データホエールの共有 概要: 大規模モデル + 数学; 出典: AI Cambrian 大規模言語モデル (LLM) は最近、さまざまな数学ベンチマークでスコアを積み重ねており、90% を超える精度を達成することが多く、数学の世界を席巻しようとしているように見えます。 しかし、Epoch AI はこれ以上我慢できず、60 人以上のトップクラスの数学者とチームを組み、強力なソリューションを考案しました。それが、LLM 学生の反対意見を抑えるために設計されたまったく新しい数学的推論テスト、FrontierMath です。 結果は悲惨でした。LLMプログラムは完全不合格となり、正解率は2%未満でした!🤡 Epoch AI がどのようにそれを実現するか見てみましょう。 FrontierMath は、人工知能の高度な数学的推論能力を評価するためのベンチマーク テストです。 これは、Epoch AI が 60 人以上の一流数学者と協力して作成した、独創的で非常に難しい数学の問題数百問で構成されています。 FrontierMath は、数論における計算集約的な問題から代数幾何学や圏論における抽象的な問題まで、現代数学の主要分野のほとんどをカバーし、現代数学の概要を捉えることを目的としています。 経験豊富な数学者でも、これを解くのに頭を悩ませ、何時間、あるいは何日も費やす必要があります。 FrontierMath には 3 つの主要な設計原則があります。 1) データの汚染を防ぐため、すべての質問は新規かつ未公開です。 2) ソリューションは自動的に検証可能であり、効率的な評価が可能になります。 3) この問題は「推測不可能」であり、正しい推論なしに解決できる可能性は非常に低いことを意味します。 評価結果 o1、Claude 3.5 Sonnet、GPT-4o、Grok、Gemini 1.5 Proを含む6つの主要モデルが評価されました。思考時間の延長(10,000トークン)、Pythonアクセス、実験実行機能を備えていたにもかかわらず、成功率は2%未満でした。 それに比べて、従来のベンチマークテストでは成功率が 90% を超えました。 Epoch AIは、GSM8KやMATHといった既存の数学ベンチマークはLLMの学生にずっと以前に追い抜かれており、高得点は主にデータ汚染によるものだと指摘している。 はっきり言って、LLM の学生は「過去の試験問題」を大量に暗記することでスコアを上げ、実際の試験がずっと簡単になります! 一方、FrontierMathは全く異なります。すべての問題は新しく未発表なので、LLMの学生がカンニングをする機会はありません!これは当然のことながら、LLMの学生の真のレベルを明らかにします。 フィールズ賞受賞者も感銘を受けています。 FrontierMath の難しさをさらに検証するために、Epoch AI は、テレンス・タオ (2006 年)、ティモシー・グールド (1998 年)、リチャード・ボヘルツ (1998 年)、IMO コーチのエヴァン・チェンなど、フィールズ賞 (数学界最高の栄誉) 受賞者数名にもインタビューしました。 これらの専門家は全員一致で、FrontierMath の問題は非常に難しく、解決するには深い専門知識と強力な推論スキルが必要であると同意しました。 FrontierMathに関する専門家の視点:LLM評価におけるモラベックのパラドックス モラベックのパラドックスは、人工知能とロボット工学の研究者によって発見された、常識に反する現象です。従来の想定とは異なり、人間特有の高次知能(推論など)は計算能力をほとんど必要としませんが、無意識のスキルや直感は膨大な計算能力を必要とします。この考えは、ハンス・モラベック、ロドニー・ブルックス、マービン・ミンスキーらによって1980年代に提唱されました。モラベックは、「コンピューターに大人のようにチェスをさせるのは比較的簡単ですが、1歳児のような知覚と行動をコンピューターに持たせるのは、不可能ではないにしても、非常に困難です」と述べています。 このベンチマークを導入した理由は、大規模モデルが既存の数学ベンチマークをますます圧倒しているからです。興味深いのは、大規模モデルが徐々に多くの分野(例えば数学やコーディング)でトップクラスのエキスパートになりつつあるにもかかわらず、最も単純な仕事でさえも、彼らを雇うことを選択する人はいないということです。 問題をきちんと説明して皿の上に載せれば、複雑な閉じた問題を解決することができますが、人間にとっては非常に簡単な、長くて自律的な問題解決のシーケンスをつなぎ合わせるのは困難です。 人間にとって簡単なこと/難しいことは、コンピュータや常識にとって簡単なこと/難しいこととは大きく異なる場合があります。 たとえば、人間はコンピュータがチェスをプレイするのを見て感銘を受けますが、チェスは離散的なアクション空間や完全な観測可能性などを備えた閉じた決定論的なシステムであるため、コンピュータにとって簡単です。 逆に、人間は特に考えなくても靴ひもを結んだりシャツを畳んだりすることができますが、これはハードウェアとソフトウェアの両方の技術が要求される極めて複雑な動作検知タスクです。 これはOpenAIが最近公開したルービックキューブに似ています。多くの人は、ロボットの手でキューブの片面を回すという極めて難しいタスクよりも、キューブ自体を解くこと(これは簡単なことです)に重点を置いています。 結論 いずれにせよ、数学は複雑な推論を評価するための他に類を見ない理想的な環境を提供します。数学には創造性と精密な論理の連鎖が求められ、多くの場合、綿密な計画と実行を要する複雑な証明が伴いますが、結果の客観的な検証も可能でなければなりません。 人工知能が創造的な問題を解決し、複数のステップにわたって正確な推論を維持する能力を測定することは、科学的研究に不可欠な体系的かつ革新的な思考の進歩についての洞察を得るのに役立つ可能性があります。 FrontierMathを探索: https://epochai.org/frontiermath では、詳細な回答、専門家のコメント、研究論文が付いたサンプル問題が公開されています。 いいね! (3件のいいね!)↓ |
数学におけるAIの神話は打ち砕かれました!FrontierMathはLLM学生にほとんど進歩をもたらしませんでした。正解率は2%未満です。
関連するおすすめ記事
-
学術情報共有 | データ不足にもめげず!上海交通大学ポスドク研究員の周子怡氏が、タンパク質言語モデルのための少数ショット学習法FSFPについて解説
-
Alibaba が自社開発したデコーダー Ali266 により、Qualcomm Snapdragon プラットフォームの AI PC で初めて H.266 超高解像度の再生を実現できるようになりました。
-
Black Myth の背後にいる 140 名: 華中科技大学の卒業生が率いるコア チームは、平均 10 年以上のコラボレーション実績を誇ります。
-
マスク氏:これは歴史に残る日となるでしょう!
-
BaiduがSoraの買収を断念した背景には何があるのでしょうか?同社のマルチモーダル戦略とはどのようなものなのでしょうか?
-
Ant Financial の革新的なクロスドメイン微調整フレームワーク ScaleOT が、世界トップクラスの AI カンファレンスである AAAI 2025 に選ばれました。