618ZXW

スタンフォードの大規模モデル数学問題が暴露されました。問題文のわずかな変更が総合的な知能の低下を引き起こし、O1 数学のスコアさえも不正確になります。

数学の問題の変数名を変更するだけで、大規模なモデルの全体的な知能が低下する可能性はありますか?

スタンフォード大学の新たな研究によると、同大学が新たに提案したPutnam-AXIOMテスト セットでは、元の質問の変数名と値の範囲を変更するだけで、モデルの精度が急落することがわかりました。

言い換えれば、大規模モデルの数学的推論能力は、問題解決のロジックを真に把握しているわけではなく、単にすでに保存されている問題を取得しているだけなのかもしれません...

最高のパフォーマンスを示した o1-preview モデルでもスコアが 50% から 33.96% に低下し、GPT-4o、Claude、Deepseek、Qwen などのモデルはほぼすべて失敗しました。

モデルの推論能力の堅牢性は、モデルがソリューションを本当に習得しているかどうかを反映するため、重要な指標であることを理解することが重要です。

あるネットユーザーはこう皮肉った。「『o1』の『o』は『overfitting』の『o』ですか?」(doge)

親切なネットユーザーの中には、モデルの検索空間は深さに応じて指数関数的に拡大し、検索時間が長くなるほど、検索が困難になるという説明をした人もいました。

まったく新しい、汚染のない数学テストのベンチマーク

複雑な数学問題におけるLLMの推論能力は、モデル開発における重要な課題となってきています。しかしながら、MMLU、MMMU、GSM8K、MATHといった既存の評価ベンチマークには多くの問題が存在します。

一方では、データの汚染により、モデルがトレーニング中に評価ベンチマークで問題に遭遇する可能性があるため、評価でモデルのパフォーマンスが誇張される可能性があります。

一方、最先端のモデルは多くの既存のベンチマークにおいて人間のレベルに到達またはそれを上回っており、これらのベンチマークは無価値になっています。

これに応えて、スタンフォード大学の研究チームは、複雑な数学的問題を解くモデルの能力を評価するために特別に設計されたPutnam-AXIOMベンチマークを提案しました。

このベンチマークの元のデータセットは、1985年から2023年までのウィリアム ローウェル パトナム数学コンテストの問題236問をカバーしています。

以下に、その感覚をつかんでいただくための簡単な例を示します。

これらの質問は数学の 11 の異なる分野をカバーしており、チームはまた、自動化しやすいボックス形式の回答が生成されることを確認するために質問を審査しました。

さらに、彼らはモデル評価に MATH データセットの手法を活用し、文字列の不一致問題と複雑な数学的等価性均質化問題を解決できる等価関数を設計しました。

さらに、モデルがトレーニング中にパトナムの原始問題に遭遇して評価バイアスが生じるのを防ぐために、チームは機能的突然変異も導入して突然変異データセットを構築しました。

突然変異は、変数の変更(数量の名前のみを変更する)と定数の変更(数値属性を変更する)の2つのカテゴリに分けられます。突然変異は、同じ難易度の新たな問題を無限に生み出す可能性があり、インターネット上にはこれらの問題に対する既成の解答は存在しません。

具体的な変更内容は次のようになります。

実験では、研究者らは 1985 年から 2023 年までの競争から 236 の問題を標準化し、LM ハーネス評価フレームワークを使用して複数のオープンソース モデルの最先端 (SOTA) LLM を評価しました。

サンプルには236のオリジナル問題と52の変形問題が含まれており、テストに使用されたモデルにはOpenAIのo1-preview、GPT-4o、Claude-3.5 Sonnetなどさまざまなモデルが含まれています。

質問が変わると、モデルたちは完全に困惑しました。

実験結果はいくぶん驚くべきものでした。モデルのパフォーマンスはあまり良くありませんでした。

まず、元のデータセットでモデルがどのように機能するかを見てみましょう。

ほとんどのモデルは10%未満の精度率を達成し、AI数学オリンピックのチャンピオンであるNuminaMathでさえ4.66%のスコアしか獲得できず、Putnam-AXIOMデータセットの極めて難しいことが示されました。

変異したデータセットでは、モデルの精度が大幅に低下しました。

たとえば、元のデータセットで最高のパフォーマンスを発揮する o1-preview の精度は 50% ですが、バリアント データセットでは 33.96% に低下します。

言い換えれば、O1 プレビュー モデルは、以前のスコアが実際の推論能力ではなく主に記憶に依存していたため、元の質問に対するパフォーマンスを過大評価していた可能性があります。

2位のClaudeは、元のデータセットでは26.40%の精度を達成しましたが、バリアントデータセットでは18.86%に低下しました。他のモデルのスコアも全体的に低下しました。

チームはOpenAI o1-previewとGPT-4oからの回答もさらに分析しました。

結果は、彼らの誤りがかなり重大であり、論理的推論と数学的厳密さに明らかな欠陥があることを示しました。

いくつかの例を見てみましょう。

例えば、o1-preview は質問への回答において十分な証明を提供できませんでした。m の上限が 2n であるという事実を根拠に、m の最大値は n であると主張しましたが、n と 2n の間の m の値がなぜ実現不可能なのかを説明していませんでした。

一方、GPT-4oには論理の飛躍や矛盾した推論が含まれています。例えば、以下の質問では、面積が最小の幾何学的形状は長方形であるという結論にすぐに飛びついていますが、この命題の妥当性を証明するのではなく、それが真実であると仮定しています。

DeepSeek のモデルも重要なステップで思考が飛躍し、最終結果に誤りが生じました。

大規模モデルの数学的機能の向上には、まだ長い道のりがあるようです。

しかし、このスタンフォード大学の論文の Putnam-AXIOM ベンチマークは、既存のベンチマークの飽和の問題を軽減します。

これは、モデルの数学的推論能力を評価するための非常に挑戦的な新しい方法を提供するだけでなく、完全に自動化された評価を実現し、豊富なバリアントデータセットを提供します。

研究チームはまた、変異データセットを生成するプロセスは現在複雑で時間がかかるが、将来的に変異生成方法を最適化することで、人間の推論に関する研究を加速させるのに役立つだろうと述べた。

論文: https://openreview.net/forum?...¬eId=yrsGpHd0Sf コード: https://anonymous.4open.scien...