618ZXW

TeleAI の「複雑推論大規模モデル」は、O1 プレビューよりも高いスコアを獲得し、競争レベルの数学的パフォーマンスを達成しました。

中国電信のTeleAI研究所は先日、「複雑推論大規模モデル」であるTeleAI-t1-previewを正式にリリースしました。このモデルはまもなく中国電信AIオープンプラットフォームで利用可能になります。TeleAI-t1-previewは強化学習のトレーニング手法を採用し、探索や反射といった思考パラダイムを導入することで、数学的導出や論理的推論といった複雑な問題におけるモデルの精度を大幅に向上させます。

1500年以上前、数学者の祖崇志は著書『新代法暦難論』の中で、複雑な物事の運行を支配する法則は超自然現象ではなく、実際の観察とデータ推論を通じて厳密に導き出せるものであると指摘しました。

数学的知識の体系的かつ相互に関連した性質、そして推論を通して問題の根本原因を見つける能力は、数千年にわたって数学の発展における中心的なテーマであり続けてきました。大規模モデルにおける革新もまた、厳密な思考プロセスを用いて幻想の罠から抜け出すことで、この目標にますます近づいています。

スコアはO1プレビューを超え、競技レベルの数学的パフォーマンスに達しました。

TeleAI-t1-previewは、権威ある数学ベンチマークであるAIME 2024とMATH500において、それぞれ60と93.8というスコアを達成し、OpenAI o1-previewやGPT-4oといったベンチマークモデルを大幅に上回りました。大学院レベルの質問応答テストであるGPQA Diamondでは、TeleAI-t1-previewはGPT-4oを上回り、Claude 3.5 Sonnetの性能レベルに匹敵しました。

次の2024年度全国高校数学コンクールの問題では、TeleAI-t1-previewは三角関数の複雑な方程式に直面し、複数の仮説的な試みと修正を経て、元の複雑な方程式を簡素化した方程式に解き明かし、論理的に明確な公式の導出を経て、最終的に正解を提供します。

ご覧のとおり、TeleAI-t1-preview は質問に答える際に単に結論を提示するだけでなく、思考プロセスと分析の全体像も提示します。これにより、学生は問題を解きながら、問題の背後にある論理と思考方法をより深く理解することができます。

例えば、確率論の大学院入試問題では、「ポアソン分布」という概念が出題されました。TeleAI-t1-preview はまずこの概念を紹介・解説し、その後、解答方法と最終的な解答を提示しました。

古代中国の数学は長い歴史と多くの古典文献を有していますが、その古典中国語の言語はしばしば難解です。大規模なモデルでさえ、人々を困惑させ、答えを出せないことがあります。

TeleAI-t1-preview に「九章算術」の問題を与えると、まず古典中国語のテキストを理解して簡略化し、現代中国語に変換してから、数学的な導出と解答を提供します。

このプロセスにおいて、TeleAI-t1-previewは視覚的思考と抽象的思考を組み合わせ、ユーザーが関連するシナリオを視覚化し、問題の理解を支援します。また、古代単位と現代単位の変換を厳密に実行することで、スムーズな合格を保証します。

数学コンテストや大学院入試の問題は通常の人間の思考と一致しているかもしれませんが、極めて難しい戦略的推論問題に直面した場合、従来のモデルでは適切な答えを提供できず、罠に陥ってしまうことがよくあります。

次の質問を例に挙げてみましょう。ゲームのルールを理解するだけでも大変なのに、どこから答えを出せばいいのかわからなくなるのは、なおさらです。しかし、TeleAI-t1-previewは、大胆な仮定を立て、綿密な分析を行うことで、瞬き一つせずに素早く問題を解決しました。

TeleAI-t1-previewは、問題解決プロセスにおいて、ゲームルールの理解、シーンと小道具の分析、長所と短所の分析を概説し、問題解決戦略と有効性の検証を提供します。さらに、起こりうる特殊なケースも考慮します。

革新的な「トレーニング」戦略により、効果的な「推論」が保証されます。

人類のAGIへの道のりは、パラダイムシフトの真っ只中にあります。既存の高品質なデータが化石燃料のように減少し、大規模モデルの「ブラックボックス化」に対する懸念が残る中、複雑な推論モデルの重要性はますます高まっています。

TeleAI は、思考および推論プロセスの正確性と有効性を確保するために、TeleAI-t1-preview トレーニングのさまざまな段階に革新的なトレーニング戦略を導入しました。

データ準備段階:

私たちは、モデルがさまざまな種類の推論タスクに適応できるように、数学を中核とし、複数の分野を補足として高品質の推論データセットを収集および構築しました。

審査員モデル(評価モデル)

ジャッジ モデルは、モデルの長い思考プロセスの正確性を分析および評価し、モデルの反映とエラー修正のガイダンスを提供するように特別にトレーニングされました。

SFT(教師あり微調整)フェーズ:

MCTS(モンテカルロ木探索)を用いて、高品質な長距離推論データを構築します。各ステップの精度と解の長さを組み合わせることで、最適な完全パスが選択されます。これにより、推論結果の精度を確保しながら思考プロセスを効果的に長くすることができ、よりきめ細かな推論プロセスが実現します。同時に、ジャッジモデルを用いて推論プロセス中の精度の低いパスを分析し、モデルが誤った推論ステップを振り返り、修正するように導きます。このプロセスにより、SFTトレーニングのための高品質な思考連鎖データが生成されます。

強化学習フェーズ:

十分に正確な報酬信号を提供するために追加のルールベースの報酬モデルが構築され、モデルの論理的推論能力はオンライン強化学習アルゴリズムを通じてさらに向上しました。

思考プロセスを直感的に提示することで、推論プロセスをより明確に追跡し、推論の正確さを検証しやすくなり、モデルの解釈可能性と透明性が大幅に向上します。

TeleAI は推論モデルの分野の研究と探求を継続し、人工知能が人間の「既知」に基づいて望ましい「未知」を推論できるようにします。