618ZXW

Google AI は IMO の幾何学問題の 84% を解きましたが、O1 は 1 つ間違えました。Nature: AI は金メダリストの平均レベルを超えました。

Google DeepMind の最新の数学 AI は、2000 年から 2024 年にかけて IMO コンテストにおける幾何学問題の84% を解きました。

AlphaGeometry2 の論文が公開され、合計 50 問中 42 問が完了し、昨年の第 1 世代より 15 問増加したことが示されました。

対照的に、純粋言語モデル OpenAI o1 も Gemini Flash Thinking もこの問題を解決できません。

Nature誌は、DeepMindのAIが数学の問題を突破し、金メダリストのレベルに到達し、トップクラスの人間競技者に匹敵するようになったことを称賛する記事を掲載した。

たとえば、2024 年のコンテストの 4 番目の問題では、AlphaGeometry2 はわずか 19 秒で解くことができました

図に示すように、この問題では、∠KIL と ∠XPY の合計が 180° (青色) に等しいことを証明するように求めています。

AlphaGeometry2によって構築された補助線は赤で示されています。EはBIの延長線上にある点であり、∠AEB = 90°となります。点Eを通る相似三角形のペアが複数得られ、これで証明が完了します。

責任著者の Thang Luong 氏は、IMO Shortlist 2009 からさらにクレイジーな問題を共有しました。

Google が相談した IMO コーチによると、この問題にはこれまで数値解しかなかったそうです。

しかし、AlphaGeometry2 は複雑な補助構造 (赤で表示) を巧みに構築し、これらの補助点の位置がニューラル ネットワークによって予測されることを巧みに証明します。

AlphaGeometry2 4つの主要なアップグレード

論文によると、AlphaGeometry2 の大幅な改善は主に次の 4 つのアップグレードによるものです。

– 拡張されたドメイン固有言語– アップグレードされた記号推論エンジンDDAR2 – まったく新しい検索アルゴリズムSKEST – より強力な言語モデル

拡張幾何学ドメイン固有言語

AlphaGeometry1 のドメイン固有言語には、等式、垂直性、平行性、共線性、同循環性など、9 つの基本的な「述語」のみが含まれています。

これは、2000 年から 2024 年までの IMO 幾何学の問題全体の 66% をカバーするのに十分ですが、線形方程式、点/線/円の移動、および「角度の計算」などの一般的な問題を表すことはできません。

補充後、カバー率は66%から88%に増加しました。

AlphaGeometry システムは、ドメイン固有言語を使用して、概略図を自動的に形式化し、生成できます。

残るは、3D ジオメトリ、不等式、非線形方程式、および可算な多点問題を含む問題の 12% のみです。

これらの問題については、AI はそれらをスキップし、図で「未試行」としてマークすることしかできません。

より強力で高速な記号推論エンジンDDAR2

シンボリック エンジン推論は、DDAR (演繹データベース) として知られる AlphaGeometry のコア コンポーネントです。
算術的推論(演繹データベース算術的推論)。

一連の中核となる初期事実が与えられると、すべての演繹可能な事実のセットを計算し、固定された一連の演繹規則に従って、追加できなくなるまで新しい事実を反復的にセットに追加します。

DDAR は、言語モデルのトレーニング データの生成と、テスト中の推論ステップの検索の両方を担当します。

DDAR2 には主に 3 つの改良点があります。

名前は異なるが座標は同じである 2 つのポイントを処理する機能を追加しました。

より高速なアルゴリズム: すべての主要なルールを抽出してハードコードすることで、最悪の場合の時間計算量を 8 乗から 3 乗に削減します。角度と距離に関する明示的なルールを放棄し、代わりに自動的に完了します。

コード実装が高速化され、Python から C++ に切り替えた結果、AMD EPYC 7B13 64 コア CPU でパフォーマンスが最大 300 倍高速化されました。

新しい検索アルゴリズムSKEST

異なる構成を持つ複数の検索ツリーが並行して実行され、知識共有メカニズムを通じて相互に刺激し合い、より効率的に証明パスを見つけます。

各検索ツリーのノードには、補助構造の構築とシンボル エンジンの試行が 1 つ含まれます。

成功した場合、検索ツリー全体が終了します。

試行が失敗した場合、それが正常に証明されたという事実が共有ファクト ベースに記録され、その事実は同じ検索ツリー内の他のノードだけでなく、異なる検索ツリー内のノードにも役立つ可能性があります。

より強力な言語モデル:最新のGemini

AlphaGeometry2 の言語モデルは最新の Gemini アーキテクチャを使用し、次の 3 つのトレーニング方法を採用しています。

  • ドメイン固有言語用のカスタム トークナイザーで最初から事前トレーニング済み。
  • 自然言語処理を事前学習したGeminiの数学バージョンを微調整する
  • 追加の画像入力による、最初から行うマルチモーダル トレーニング。

実験の結果、次のような結論が得られました。

単語セグメンターもトレーニング データも重要な要素ではありません

  • より小規模な語彙セグメンテーションと一般的な Gemini セグメンテーションでは、同様の結果が得られました。
  • 自然言語トレーニングとドメイン固有言語トレーニングでは同様の結果が得られます。

幾何学の問題を解く上で、視覚情報や図は重要ではありません。幾何学の問題を解くための核心は、幾何学的推論ではなく、代数的推論にあります。

  • マルチモーダル モデルのみを使用しても、システムの機能は大幅に向上しませんでした。
  • マルチモーダルモデルによって生成される補助点は、他のモデルとは異なります。知識を共有し、他のモデルと組み合わせることで、全体的なパフォーマンスを向上させることができます。

もう一つ

2023年にはAIMO(AI数学コンペティション)が開始され、金メダルを獲得した最初のAIシステムには500万ドルの賞金が贈られますが、システムはオープンソースである必要があります。

AlphaGeometry2 は現在では金メダルを獲得できる能力を持っていますが、オープンソースではありません。

この分野に興味のあるチームにはまだチャンスがあります!

最後に、2025年のIMO大会は7月にオーストラリアで開催されます。

論文の宛先:
https://arxiv.org/pdf/2502.03544

参考リンク:
[1]https://x.com/lmthang/status/... [2]https://www.nature.com/articl...