618ZXW

わからないところはスキャンして!世界最強の数理モデルが公開されました。デモ版は誰でも試すことができます。Alibabaのマルチモーダルモデルを搭載し、中国語版もご用意しています。

今、最も強力な数学モデルを誰でも試すことができます。

目が覚めたら、Alibaba の Qwen2-Math デモが、オンラインでプレイ可能な Qwen2 モデルのチームによってリリースされていた。

驚くべきことに、数式を入力するのが面倒な場合は、聞きたい質問をスクリーンショットまたはスキャンしてアップロードすることで回答を得ることができます。

セットアップするのはとても便利です。

デモインターフェースには、「このデモインターフェースの OCR 機能は Alibaba の Qwen2-VL 大規模モデル チームによってサポートされており、数学的推論機能は Qwen2-Math によってサポートされています」と明記されています。

アリババの上級アルゴリズム専門家であるリン・ジュンヤン氏は、Twitterのコメント欄でさらに説明した。

現在、Qwen2-VL と Qwen2-Math がそれぞれ一部を担当しています。
しかし、近い将来、マルチモーダル機能と数学的推論能力を 1 つのモデルに統合する予定です

多くのネットユーザーは、このインタラクション モードに非常に好意的です。

すごい!画像をアップロードして、より大きなモデルが問題を解決するのを待つなんて、すごいですね!

では、最も強力な数学モデルである Qwen2-Math は、実際にどれくらいのパフォーマンスを発揮するのでしょうか?

結果はどうでしたか? もう一ラウンドプレイしてみましょう。

Qwen2-Mathがすべての障害を克服する時が来ました!

まずは、興味をそそられる簡単な計算問題をいくつか解いてみましょう。

Qwen2-Math を体験する際、計算中に結果が表示されるのではなく、計算が完了した直後にプロセスと結果が表示されることに事前に注意してください。

(そして、より多くの人々がプレイし始めたため、生成時間が徐々に長くなったと考えられます。)

質問 1: 「AxA+A=240 における A の値を計算しなさい」という質問で、A の値を求めます。

Qwen2-Math は正しい答えを出します: A=14 または A=-16。

質問 2: 'a' の値が与えられた場合、方程式の結果を計算します。

Qwen2-Math の計算では答えが 0 であることが示され、これも正解です。

質問3: (A+3)(A+4)(A+5)=120 で、Aの値を求めます。

ビンゴ!答えは1です。

さあ、ウォーミングアップは終わり。Qwen2-Mathに少し挑戦してみましょう。

大規模(数学的)モデル評価のための標準テストから始めましょう。

9.9 と 9.11 ではどちらが大きいでしょうか?

Qwen2-Mathは自信を持って答えました。

9.9 は 9.11 より大きいです!

もっと難しくしてみよう!

これまでのところ、GPT-4o だけが正しく答えている質問を投げかけてみましょう。

*エイリアンが地球に到着した場合、次の 4 つのタスクのいずれかを選択する可能性は同等です。
1. 自己破壊。
2. 2人のエイリアンに分裂する。
3. 3つのエイリアンに分裂しました。
4.何もしない。
それ以降毎日、各エイリアンは選択を行いますが、これらの選択は互いに独立しています。
将来、地球上に地球外生命体が存在しなくなる確率を求めなさい。

Qwen2-Math がこの質問に答えるのに約 30 秒かかりました: 1.

残念ながら、答えは間違っています。正解は√2から1を引いた数です。

さまざまなプラットフォームのコメント欄を閲覧したところ、計算ミス以外にも間違った答えが出る理由が他にもあることが分かりました。

つまり、Qwen2-VL自体が質問を認識する際にミスを犯したことになります。

間違いは最初のステップにあります。そうでなければ、大規模なモデルは間違いなく正しい答えを生成しません。

一方、リン・ジュンヤンもネットユーザーのコメント欄でコメントした。

私たちの Qwen2-Math プログラムはまだ幾何学の問題を解くことができません

中国語で質問できます。

この記事の主題は、Tongyi Qianwenオープンソース大規模言語モデルQwen2をベースに開発され、10日前にAlibaba Qianwen大規模モデルチームによってリリースされたQwen2-Mathです。

数学の問題を解くために特別に設計されており、競争レベルの問題を解くことができます。

Qwen2-Math には、合計パラメータ数が異なる 3 つのバージョンがあります。

72B、7B、1.5B。

Qwen2-Math-72B をベースに、Qianwen チームは Instruct バージョンも微調整しました。

これはQwen2-Mathのフラッグシップモデルでもあります。報酬信号と正解/不正解判定信号を学習ラベルとして組み合わせ、棄却サンプリングによって教師あり微調整(SFT)データを構築し、最後にGRPO法を用いてSFTモデルを最適化する、数学的に特化された報酬モデルです。

Qwen2-Math-72B-Instruct は、代数、幾何学、計数と確率、数論など、さまざまな数学の問題を 84% の精度で扱います。

そして、リリースされるやいなや、数学モデルで「王座に就き」、MATHデータセット上のGPT-4oよりも7ポイント高いスコアを獲得し、比例して9.6%も高いスコアを獲得しました。

これは、オープンソースの Llama 3.1-405B やクローズドソースの GPT-4o、Claude 3.5 などを直接上回ります。

記事執筆時点で、Hugface 上の「Qwen2-Math-72B-Instruct」のダウンロード数は 13.2k を超えています。

そして、最近発見されたことがあります。

チームは、Qwen2-Mathは現在主に英語のシナリオ向けに設計されていると主張していますが、中国語の質問にも答えることができます

私はただ英語で答えていただけです。

Qwen2-Mathのバイリンガル版(中国語と英語)が後日リリースされる予定です。

参考リンク:
[1]https://huggingface.co/spaces... [2]https://x.com/Alibaba\_Qwen/status/1825559009497317406 [3]https://x.com/JustinLin610/st...