最強の数理モデルがついに登場！アリババの1000 Questions新モデルはGPT-40を上回る性能を誇り、ネットユーザーからは「これぞ真の『ストロベリー』モデル！」と絶賛の声も！

最も強力な数学モデルの所有者が変わりました。

AlibabaのQianwen Big ModelチームがリリースしたQwen2-Mathモデルは、Llama 3.1-405Bを上回るだけでなく、GPT-4oやClaude 3.5などの一連のクローズドソースモデルよりも優れた性能を発揮します。

さらに、競技レベルの問題を解くことも可能です。GPT-4では1問しか正解できないAIME 24において、Qwen2-Mathは2桁もの問題を正解しています。

Qwen2-Math には、パラメータ数が異なる 72B、7B、1.5B の 3 つのバージョンがあります。

最強バージョンである 72B は、MATH データセットで GPT-4o よりも 7 ポイント高いスコアを獲得し、比例して 9.6% 高くなりました。

バージョン 7B では、パラメータ数が 10 分の 1 未満となり、オープンソースの数学モデルNuminaMathのパラメータ数 72B を超えています。

さらに、この NuminaMath には非常に印象的な経歴があり、その 7B バージョンは、有名な数学者 Terence Tao 氏によって世界初の AIMO で賞を受賞しました。

アリババの上級アルゴリズム専門家である林俊陽氏は、QianwenチームがQwen2モデルを数学のマスターに変えたと興奮気味に発表した。

fast.ai の創設者ジェレミー・ハワード氏は、これを見て「すごい！」と叫んだ。

ネットユーザーたちは驚き、 「これは本物の『ストロベリー』（有機肥料の一種を指す）であり、オープンソースの勝利であり、みんなの勝利だ」と言った。

GPT4oを超えて、競技レベルの問題を解決できる

前述のように、Qwen2-Math には 72B、7B、1.5B の 3 つのパラメータスケールがあり、これらは対応するスケールの Qwen2 基本モデルから変更されています。

チームはベースモデルを基に、綿密に設計された数学コーパスを用いてモデルの事前学習を行いました。学習データには、大規模で高品質な数学ネットワークテキスト、書籍、コード、試験問題、そしてQwen2モデルによって合成された数学事前学習データが含まれていました。

その結果、GSM8KやMATHなどの古典的な数学テストセットでは、Qwen2-Math-72Bの数学的能力は405BのLlama-3.1の能力を上回りました。

これらのデータセットは、代数、幾何学、計数と確率、数論など、幅広い問題をカバーしています。

これらの英語のデータセットに加えて、Qwen2-Math は中国語のデータセット CMATH や大学入試問題にも特化しています。

中国のデータセットでは、バージョン 1.5B がバージョン 70B の Llama 3.1 を上回り、同じサイズの Qwen2 ベースモデルに相当する 3 つのバージョンすべてで大幅なパフォーマンスの向上が見られました。

Qianwen チームは、Qwen2-Math をベースにして Instruct バージョンも微調整しました。

具体的には、研究チームはQwen2-Math-72Bに基づいて数学特有の報酬モデルを訓練し、報酬信号と正解/不正解の判断信号を学習ラベルとして組み合わせ、次に拒否サンプリングを通じて教師あり微調整（SFT）データを構築し、最後にGRPO法を使用してSFTモデルを最適化しました。

MATH データセットでのゼロショットテストでは、 1.5B Instruct が 70% の精度を達成し、これは 70B Llama 3.1 よりも高いことが示されています。

さらに研究チームは、OlympiadBench、CollegeMath、大学入試問題の英語版など、より難易度の高いテストセットも導入した。

著者らはQwen2-Mathに、貪欲法、RM@8、Maj@8の3つの戦略を採用させました。どの戦略を採用したかに関わらず、Qwen2-Mathは同規模のLlama 3.1を一貫して上回りました。

中国のデータセットに関しては、Qwen2-Math は今年の最新の中学・高校入試問題にも取り組み、Llama 3.1 に対して大きな優位性を示しました。

注目すべきは、「誇張された」テスト結果を減らすために、Qianwen チームが、テストセットと重複するトレーニングデータセットのすべての部分を具体的に削除したことです。

完全一致に加えて、より厳密な 13 グラム重複排除戦略が使用され、最長共通シーケンス比が 0.6 を超えるシーケンスが削除されます。

同じことがトレーニング後のプロセスにも当てはまり、Aqua や SAT Math などテストのスコアに表示されないデータセットも含め、関連するすべてのデータセットがデータから削除されます。

さらに、Qwen2-Math-Instruct はすでにいくつかの簡単な競技レベルの問題を解くことができます。

たとえば、AIME 24 の 30 問のうち、Qwen2-Math-72B-Instruct は、rm@256 戦略を使用して11 回正しく解くことができます。

GPT-4 Turbo、Claude 3 Opus、Gemini 1.5 Pro などの上級モデルでは、正解できるのは 1 つか 2 つの質問だけです。

さらに、最小バージョン 1.5B でも、rm@256 設定で 5 つの問題を正しく解くことができ、これら 3 つのモデルのパフォーマンスを上回ります。

さらに、Gemini 1.5 Proには数学タスクに特化したバージョンもありますが、正解できるのは7問か8問だけです。Qwen2-Math-72B-Instructは、2桁の正解数を達成した最初のモデルです。

公式ドキュメントでは、Qianwen チームは、数学オリンピックレベルの数学テストセットの問題など、いくつかの例も示しました。

この問題には、組合せ論とグラフ理論が関係しており、具体的には完全グラフや二部グラフなどの概念が含まれます。

さらに、これらの概念を特定の特性を持つ構造の構築にどのように適用するかを理解する必要があり、そのためには強力な抽象的思考能力とグラフ理論構造の深い理解が必要です。

Qwen2-Math のソリューションは次のようになります。これは、実際にグラフ理論の手法を活用していることを示しています。

最終的に、Qwen2-Math は質問に正しく答えました。

△中国語翻訳は機械翻訳であり、参考のみを目的としています。

ただし、現在リリースされているQwen2-Mathは主に英語圏のシナリオ向けであり、バイリンガル（中国語と英語）バージョンは後でリリースされる予定です。

さらに、Qwen2-Math ライセンス契約によれば、このモデルはほとんどのユーザーが無料で商用利用できますが、バージョン 72B の場合、月間アクティブユーザー数が 1 億人を超えると、Qwen2 チームにライセンスを申請する必要があります。

プロジェクトホームページ:
参考リンク：https://qwenlm.github.io/zh/b...
https://x.com/JustinLin610/st...