618ZXW

DeepSeek の力で、北京大学の幾何学モデルは IMO の金メダルレベルに到達しました。問題をフルパワーで解くには、32 個の CPU コアと 1 個の 4090 だけで十分です。

国産の AI ジオメトリモデルが IMO 金メダルのパフォーマンスを達成し、Google DeepMind の最新の AlphaGeometry シリーズに匹敵します。

TongGeometry は、 DeepSeek-Coderの微調整されたバージョンから派生したポリシー ネットワークと値ネットワークを使用します。

IMO-AG-30 の全 30 問と IMO-AG-50 の 42 問を解くことができますが、人間の金メダリストの平均スコアはそれぞれ 25.9 と 40.9 です

たとえば、以下は TongGeometry によって提案された IMO 2024 幾何学問題に対する解答であり、標準的な解答と完全に一致しています。

TongGeometry は問題を解決するだけでなく、問題を生成することもできます。生成された問題は権威ある数学コンテストでも認められています。

昨年、TongGeometryは北京で開催された全国高校数学リーグの予選で幾何学問題を作成しました。IMO競技コーチングチームが主催するアメリカのアマチュア数学コンテスト「USUSEMO」でも、TongGeometryが作成した2つの幾何学問題が最終候補に選ばれました。

TongGeometryは北京総合人工知能研究所によって開発されました。詳細は以下をご覧ください。

DeepSeekはニューラルネットワークの基盤を活用している

国際数学オリンピック(IMO)は、世界200カ国以上の高校生が参加する、最も影響力のある数学コンテストです。このコンテストでは、代数、数論、幾何学、組合せ論という4種類の問題に対する深い理解が求められます。中でも特に幾何学の問題は、その美しいグラフの性質から、参加者や数学愛好家の間でしばしば議論の的となります。

△テボーの定理は、2003年以前は西洋では証明するのが最も難しい幾何学の定理の1つと考えられていました。

このコンテストで自国を代表し、金メダルを獲得することは、数学研究者としてのキャリアにおいて大きな栄誉であると、業界では広く信じられています。フィールズ賞受賞者のテレンス・タオ教授は、かつてこのコンテストで最年少の金メダリストでした。

△テレンス・タオ教授のIMO競技会参加実績

競技における幾何学の問題の課題は、補助点、補助線、補助円を用いて、本来は推論が困難であった結論を導き出すために、いかに補助線を適切に加えるかにあります。こうした推論の橋渡しを構築することが、この種の問題を解く鍵となります。

通常、非常に難しい問題では、定理の証明を完了するためにいくつかの補助線を追加する必要があります。

Google の DeepMind AlphaGeometry は、この種の問題に対処するために言語モデルとロジック エンジンを組み合わせたソリューションを初めて提案しました。

彼らのアプローチでは、言語モデルが可能な補助線を提案する役割を担い、推論エンジンは補助線を追加することで生成された結論が求めているものかどうかを検証します。証明すべき定理が依然としてその中に含まれていない場合、システムは補助線構築の可能なスキームを探索し続ける必要があります。

AlphaGeometry は最新の研究で、IMO-AG-30 データセットの 30 問すべてと IMO-AG-50 データセットの 42 問を解くことができ、オリンピックの金メダリストの平均レベルを超えたと主張しています。

人間の金メダリストの平均スコアはそれぞれ 25.9 と 40.9 です。

△データセットにおけるAlphaGeometryシリーズのパフォーマンス

AlphaGeometry の最新作の発表に続き、北京総合人工知能研究所の TongGeometry の作品も公開されました。

AlphaGeometry1/2 と比較して、TongGeometry には次の改善点があります。

  • 算術的推論 (AR) を放棄し、帰納的データベース手法(DD) のみを使用します。
  • 幾何学的形状の美しさを確保するために、対称的な図形を厳密に構築します
  • マルコフ連鎖を使用してツリー状の検索構造が構築され人間のデータを使用してツリーを生成するための検索方向が刺激されます。
  • ポリシーおよび価値ネットワークとビーム検索の組み合わせを使用して問題を解決します。

純粋に帰納的なデータベースアプローチ

AlphaGeometry と比較すると、TongGeometry は DD+AR アプローチを放棄し、代わりに DD のみを使用します。

AR法は計算速度が遅く、効率が低いため、実際のテストではパフォーマンスに深刻な影響を与えることが知られています。TongGeometryはDD法を採用しており、このDD法にはAlphaGeometryで使用されるものと同様の10個のコア述語が含まれています。共線性(equine)、円形度(eqcircle)、等長度(cong)、中点(midp)、平行度(para)、垂直度(perp)、等角度(eqangle)、等比度(eqratio)、相似度(simtri)、合同度(contri)です。

この述語表現ロジックのセットは、IMO 2000-2024 のすべての幾何学問題の 86.8% をカバーできます。

△帰納的データベース手法

幾何学的形状が美しく保たれるように、対称的な図形を構築します。

ランダムな構成スキームのみを使用するAlphaGeometryと比較して、TongGeometryは問題探索の設計において対称図形を優先します。このアプローチはオープンソースプロジェクトGeoGenに由来します。公式競技では、多数の対称図形が頻繁に登場します。

したがって、対称的な方法を使用してデータを生成すると、データが限られている場合でも、可能な限りデータが問題の分布に準拠することが保証されます。

△TongGeometryによって生成された対称図形

人間のデータを使って検索の方向性を導き出す

TongGeometry は、問題を構築するときに対称構造を優先するだけでなく、人間のデータから取得した分布を使用して、問題を生成するときにデータ生成の方向を導きます。

TongGeometryは、過去のIMO、CMO、その他主要なコンペティションから合計196の問題を収集し、この小規模なデータセットを用いてデータを構築しました。その結果、この手法によって、既存のIMO問題よりも数倍難しい構成を多数生成できることが示されました。

△ 人間のデータをインスピレーションとして利用し、TongGeometry は既存の IMO 問題よりも数倍難しいデータを生成します。

政策ネットワークと価値ネットワークを用いた共同探索

この問題を解決するために、TongGeometry は強化学習に似た 2 つのネットワーク、ポリシーと値を使用します。

ポリシーネットワークは、問題を解決するための可能な探索方向を提案するために使用されます。バリューネットワークは、ポリシーネットワークによって提案されたすべての可能な探索方向から、最も有用な方向を絞り込むために使用されます。

Beam Search とバックエンドのロジック推論エンジンを組み合わせることで、TongGeometry の問題解決戦略は閉ループを形成できます。

△戦略ネットワークと価値ネットワークを用いた共同探索問題解決

さらに、TongGeometryは、ポリシーネットワークと値ネットワークの両方に、DeepSeek-Coderの微調整版を使用しています。DeepSeekはTongGeometryの開発に静かに貢献してきたと言えるでしょう。

△TongGeometryのニューラルネットワーク基盤として機能するDeepSeek-Coderが含まれています。

パフォーマンス テストでは、TongGeometry の技術レポートによると、TongGeometry は IMO-AG-30 の 30 の問題すべてを解決できます。

北京総合人工知能研究所の最新の発表によると、TongGeometryはIMO-AG-50で42の問題を解くことができました。TongGeometryの技術レポートは2024年12月に発表される予定であり、これが人間の金メダリストの平均レベルを超える最初の幾何学問題解決ツールとなるかどうかはまだ分かりません。

△2024年12月に公開されたTongGeometryの技術レポートからのパフォーマンス指標

問題解決と問題設定の両方に精通している

TongGeometryは問題解決の専門家であるだけでなく、問題創造のコーチでもあります。TongGeometryのトレーニングデータには、鏡面対称性や回転対称性を備えた美しい構成を多数含む、多くの貴重な幾何学的関係の発見が含まれています。

報告書によれば、これらの問題は既存のIMOの競争問題よりも数倍困難である可能性がある

さらに、TongGeometryが作成した問題は数学コンテストでも高い評価を得ており、北京で開催された2024年全国高校数学リーグ予選では、TongGeometryが作成した幾何学問題が公式に出題されました。

△全国高校数学リーグ(北京版)と米国国際数学オリンピックでTongGeometryが採用されました。

昨年、北京で行われた試験では、受験者はAIが実施した試験を知らないうちに受けていた可能性があります。さらに、IMOコーチングチームが主催するアメリカの独立系数学コンテストUSEMOでも、幾何学の問題が2問出題されていました。

△ 北京試験問題幾何学セクションの記録

非常に効率的な推論、パフォーマンスが 18 倍向上しました。

AlphaGeometry では、90 分で問題を解決するために 246 個の CPU コアと 4 つの NVIDIA V100 高性能コンピューティング クラスターが必要ですが、TongGeometry では、フルパワー ソリューションを実現するために 32 個の CPU コアと 1 つの 4090 のみが必要です。

この構成では、TongGeometry にかかる時間は最大でも 38 分だけです

△AlphaGeometry では、90 分で復調を完了するために、246 個の CPU コアと 4 つの NVIDIA V100 プロセッサを備えた高性能コンピューティング クラスターが必要です。

AlphaGeometryは1分あたり246×90コアを使用するのに対し、TongGeometryは1分あたり32×38コアしか必要とせず、18倍以上のパフォーマンスを実現します。この構成であれば、Black Myth PCを幾何学の学習に使用できます。

△TongGeometry は、32 個の CPU コアと 1 個の 4090 のみを使用して、38 分以内に問題を解決できます。

論文リンク: https://arxiv.org/pdf/2412.10673