|
Google DeepMind の最新の数学 AI は、2000 年から 2024 年にかけて IMO コンテストにおける幾何学問題の84% を解きました。 AlphaGeometry2 の論文が公開され、合計 50 問中 42 問が完了し、昨年の第 1 世代より 15 問増加したことが示されました。 対照的に、純粋言語モデル OpenAI o1 も Gemini Flash Thinking もこの問題を解決できません。 Nature誌は、DeepMindのAIが数学の問題を突破し、金メダリストのレベルに到達し、トップクラスの人間競技者に匹敵するようになったことを称賛する記事を掲載した。 たとえば、2024 年のコンテストの 4 番目の問題では、AlphaGeometry2 はわずか 19 秒で解くことができました。 図に示すように、この問題では、∠KIL と ∠XPY の合計が 180° (青色) に等しいことを証明するように求めています。 AlphaGeometry2によって構築された補助線は赤で示されています。EはBIの延長線上にある点であり、∠AEB = 90°となります。点Eを通る相似三角形のペアが複数得られ、これで証明が完了します。 責任著者の Thang Luong 氏は、IMO Shortlist 2009 からさらにクレイジーな問題を共有しました。 Google が相談した IMO コーチによると、この問題にはこれまで数値解しかなかったそうです。 しかし、AlphaGeometry2 は複雑な補助構造 (赤で表示) を巧みに構築し、これらの補助点の位置がニューラル ネットワークによって予測されることを巧みに証明します。 AlphaGeometry2 4つの主要なアップグレード論文によると、AlphaGeometry2 の大幅な改善は主に次の 4 つのアップグレードによるものです。 – 拡張されたドメイン固有言語– アップグレードされた記号推論エンジンDDAR2 – まったく新しい検索アルゴリズムSKEST – より強力な言語モデル 拡張幾何学ドメイン固有言語AlphaGeometry1 のドメイン固有言語には、等式、垂直性、平行性、共線性、同循環性など、9 つの基本的な「述語」のみが含まれています。 これは、2000 年から 2024 年までの IMO 幾何学の問題全体の 66% をカバーするのに十分ですが、線形方程式、点/線/円の移動、および「角度の計算」などの一般的な問題を表すことはできません。 補充後、カバー率は66%から88%に増加しました。 AlphaGeometry システムは、ドメイン固有言語を使用して、概略図を自動的に形式化し、生成できます。 残るは、3D ジオメトリ、不等式、非線形方程式、および可算な多点問題を含む問題の 12% のみです。 これらの問題については、AI はそれらをスキップし、図で「未試行」としてマークすることしかできません。 より強力で高速な記号推論エンジンDDAR2シンボリック エンジン推論は、DDAR (演繹データベース) として知られる AlphaGeometry のコア コンポーネントです。 一連の中核となる初期事実が与えられると、すべての演繹可能な事実のセットを計算し、固定された一連の演繹規則に従って、追加できなくなるまで新しい事実を反復的にセットに追加します。 DDAR は、言語モデルのトレーニング データの生成と、テスト中の推論ステップの検索の両方を担当します。 DDAR2 には主に 3 つの改良点があります。 名前は異なるが座標は同じである 2 つのポイントを処理する機能を追加しました。 より高速なアルゴリズム: すべての主要なルールを抽出してハードコードすることで、最悪の場合の時間計算量を 8 乗から 3 乗に削減します。角度と距離に関する明示的なルールを放棄し、代わりに自動的に完了します。 コード実装が高速化され、Python から C++ に切り替えた結果、AMD EPYC 7B13 64 コア CPU でパフォーマンスが最大 300 倍高速化されました。 新しい検索アルゴリズムSKEST異なる構成を持つ複数の検索ツリーが並行して実行され、知識共有メカニズムを通じて相互に刺激し合い、より効率的に証明パスを見つけます。 各検索ツリーのノードには、補助構造の構築とシンボル エンジンの試行が 1 つ含まれます。 成功した場合、検索ツリー全体が終了します。 試行が失敗した場合、それが正常に証明されたという事実が共有ファクト ベースに記録され、その事実は同じ検索ツリー内の他のノードだけでなく、異なる検索ツリー内のノードにも役立つ可能性があります。 より強力な言語モデル:最新のGeminiAlphaGeometry2 の言語モデルは最新の Gemini アーキテクチャを使用し、次の 3 つのトレーニング方法を採用しています。
実験の結果、次のような結論が得られました。 単語セグメンターもトレーニング データも重要な要素ではありません。
幾何学の問題を解く上で、視覚情報や図は重要ではありません。幾何学の問題を解くための核心は、幾何学的推論ではなく、代数的推論にあります。
もう一つ2023年にはAIMO(AI数学コンペティション)が開始され、金メダルを獲得した最初のAIシステムには500万ドルの賞金が贈られますが、システムはオープンソースである必要があります。 AlphaGeometry2 は現在では金メダルを獲得できる能力を持っていますが、オープンソースではありません。 この分野に興味のあるチームにはまだチャンスがあります! 最後に、2025年のIMO大会は7月にオーストラリアで開催されます。 論文の宛先: 参考リンク: |
Google AI は IMO の幾何学問題の 84% を解きましたが、O1 は 1 つ間違えました。Nature: AI は金メダリストの平均レベルを超えました。
関連するおすすめ記事
-
BYDの収益は初めてテスラを上回ったが、時価総額は依然として6分の1である。
-
[TVMチュートリアル] モバイルGPU向け畳み込みネットワークの自動チューニング
-
投資家たちの熱狂は非常に高く、Pony.aiはIPOで追加株を発行し、総額33億元を調達した。
-
歴史上、アリババのオープンソースモデル「Qwen」の派生モデルの数がLlamaを上回りました。
-
Nature:「量子インターネット」に一歩近づきました!オックスフォード大学が分散型量子コンピューティングの実現可能性を確認しました。
-
DeepSeek の 2 番目のオープンソースリリース: MoE と EP 向けにカスタマイズされた通信ライブラリ。現在は NVIDIA グラフィック カードに関連付けられています。