618ZXW

杭州が杭州を超える:アリババのQwen2.5-MaxがDeepSeek-V3を追い抜く!ネットユーザー:中国のAIは急速に差を縮めている。

ちょうど今、大型模型アリーナのリーダーボードにもう一つの国産モデルが加わりました。

AlibabaのQwen2.5-MaxはDeepSeek-V3を上回り、合計スコア1332で総合7位にランクインしました。

また、Claude 3.5 SonnetやLlama 3.1 405Bなどのモデルも上回りました。

特にプログラミングと数学に優れており、Fullblood O1 や DeepSeek-R1 と並んで第 1 位にランクされています。

Chatbot Arenaは、LMSYS Orgが立ち上げた大規模なモデル性能テストプラットフォームです。現在190以上のモデルを統合し、2対2のモデルペアリングシステムを用いたブラインドテストを実施しています。ユーザーは、実際の対話体験に基づいてモデルの能力に投票します。

このため、Chatbot Arena LLM リーダーボードは、世界トップクラスの大規模モデルにとって最も権威があり重要なアリーナです。

Qwen2.5-Max は、新たに開始された Web アプリケーション開発のWebDevランキング リストでもトップ 10 にランクインしました。

これに対し、LMsysは「中国のAIは急速に差を縮めている」と公式コメントした。

さらに、個人的に使用したネットユーザーによると、Qwen は比較するとより安定したパフォーマンスを発揮するそうです。

Qwen がすぐにシリコンバレーの一般的なモデルをすべて置き換えるだろうと言う人もいます。

トップに到達するための4つの個々の能力

総合ランキングでは、Google の Gemini ファミリーが 1 位と 2 位を獲得し、GPT-4o と DeepSeek-R1 が 3 位タイとなりました。

Qwen2.5-Max は、本格的な o1 よりわずかに遅れて、o1-preview と並んで 7 位です。

次に、Qwen2.5-Maxの各カテゴリーのパフォーマンスを見てみましょう。

論理的に要求される数学的タスクとコーディングタスクでは、Qwen2.5-Max が o1-mini を上回り、本格的な o1 および DeepSeek-R1 と並んで 1 位を獲得しました。

さらに、数学リーダーボードで 1 位を獲得したモデルの中で、Qwen2.5-Max は唯一の非推論モデルです。

具体的な試合記録を詳しく見てみると、コーディング能力の面では、Qwen2.5-Max が本格的な o1 に対して 69% の勝率を達成していることがわかります。

複雑なプロンプト単語タスクでは、Qwen2.5-Maxとo1-previewが2位タイでした。英語に限定すれば、o1-preview、DeepSeek-R1などと同等の1位になるでしょう。

さらに、Qwen2.5-Max のマルチターン ダイアログ機能は DeepSeek-R1 と並んで 1 位にランクされています。長いテキスト(500 トークン以上) は o1-preview を上回り 3 位にランクされています。

さらに、アリババは技術レポートの中で、いくつかの古典的なチャート上でのQwen2.5-Maxのパフォーマンスも紹介しました。

命令モデルの比較では、Qwen2.5-Max は、Arena-Hard (人間の好みに近い) や MMLU-Pro (大学レベルの知識) などのベンチマークにおいて、GPT-4o や Claude 3.5-Sonnet と同等かそれ以上のレベルにあります。

オープンソースのペデスタル モデルの比較では、Qwen2.5-Max は DeepSeek-V3 を全面的に上回り、Llama 3.1-405B をはるかに上回りました。

ベースモデルに関しては、Qwen2.5-Max もほとんどのベンチマークテストで大きな優位性を示しました (クローズドソースのベースモデルはアクセスできず、オープンソースモデルとのみ比較できます)。

コード/推論が強調表示され、アーティファクトをサポート

Qwen2.5-Maxが発売された後、多くのネットユーザーがそれをテストしに来ました。

コードや推論などの分野で優れていることがわかっています。

たとえば、JavaScript を使用してチェス ゲームを作成します。

アーティファクト機能を備えているため、たった 1 つの文で開発された小さなゲームをすぐにプレイできます。

生成されるコードは多くの場合、よりシンプルで読みやすく、使いやすくなります。

複雑な手がかりを含む推論問題の場合、Qwen2.5-Max は高速かつ正確です。

チームは顧客のリクエストを次の 3 つのステップで処理します。

データ収集 (フェーズ A): 各リクエストには 5 分かかります。
処理 (フェーズ B): 各リクエストには 10 分かかります。
検証 (フェーズ C): 各リクエストには 8 分かかります。

チームは現在、逐次的に作業を進めていますが、並列ワークフローの導入を検討しています。各ステージに2人ずつ担当者を配置し、並列ワークフローを導入すると、1時間あたりの生産性が20%向上します。しかし、並列ワークフローを追加すると、運用上のオーバーヘッドが15%増加します。時間とコストを考慮すると、効率を最適化するために並列ワークフローを導入すべきでしょうか?

Qwen2.5-Max は、推論プロセス全体を 30 秒未満で完了し、プロセス全体を現在のワークフロー分析、並列ワークフロー分析、コストの影響、コスト効率のトレードオフ、結論の 5 つのステップに明確に分割します。

すぐに並列ワークフローを使用する必要があるという結論に達しました。

同じく非推論モデルである DeepSeek-V3 と比較すると、Qwen2.5-Max はより簡潔で高速な応答を提供します。

あるいは、ASCII 数字で構成された回転球を生成することもできます。この場合、視聴者に最も近い数字は純白で、最も遠い数字は黒い背景に対して徐々に灰色に変わります。

単語内の特定の文字の数を数えるのは簡単です。

ご自身で試してみたい方は、Qwen2.5-Max が Qwen Chat プラットフォームで利用可能になっており、無料で体験できます。

企業ユーザーは、Alibaba Cloud Bailian 上の Qwen2.5-Max モデルの API を呼び出すことができます。

興味のある学生さん、ぜひ体験してみてください!