618ZXW

Qwen2.5がオープンソースの世界王座に昇格!72BがLIama3 405Bを打ち負かし、GPT-4o-miniを楽々と上回ります。

LIama3を破る!Qwen2.5が世界オープンソースの王座に就く。

後者は、パラメータサイズがわずか 5 分の 1 ですが、マルチタスクでは LIama3 405B を上回ります。

さまざまなタスクにおけるパフォーマンスも、同じカテゴリの他のモデルをはるかに上回っています。

以前の世代と比較すると、特に一般的なタスク、数学、コーディングにおいて、ほぼ包括的な改善が達成されました。

注目すべきは、この Qwen オープンソース プロジェクトはこれまでで最大のもので、6 つまたは 7 つの数学モデルとコード モデルを含む 7 つのパラメーター モデルが基本モデルから直接リリースされていることです。

14B、32B、軽量の Turbo などのモデルは、GPT-4o-mini よりも優れた性能を発揮します。

3B モデルと 72B モデルを除き、すべてのオープン ソース モデルは Apache 2.0 ライセンスに基づいてライセンスされます。

  • Qwen2.5: 0.5B、1.5B、3B、7B、14B、32B、72B
  • Qwen2.5-Coder: 1.5B、7B、32B(近日リリース予定)
  • Qwen2.5-Math: 1.5B、7B、72B。

あまりにも素晴らしいので、すでに一部のネットユーザーが使い始めています。

Qwen2.5 72BはLIama3.1 405Bに匹敵します。

Qwen2 シリーズと比較して、Qwen2.5 シリーズにはいくつかのアップグレードがあります。

まず、完全にオープンソースです

調査によると、ユーザーは、生産用の 10B ~ 30B のパラメータ範囲とモバイル アプリケーション用の 3B スケールのモデルに強い関心を持っていることがわかりました。

そのため、既存のオープンソースモデルと同じサイズ(0.5/1.5/7/72B)に加えて、14B、32B、3Bのモデルが追加されました。

一方、TongyiはQwen-PlusとQwen-Turboバージョンもリリースしており、これらはAlibaba Cloud Big Model Service PlatformのAPIサービスを通じて体験できる。

ご覧のとおり、モデルの半数以上が 128K のコンテキストをサポートしており、最大 8K のコンテキストを生成できます。

包括的な評価では、すべてのモデルが前世代と比較して飛躍的な性能向上を達成しました。例えば、Qwen2.5-32BはQwen2-72Bを、Qwen2.5-14BはQwen2-57B-A14Bをそれぞれ上回りました。

第二に、事前トレーニング データセットはより大きく、より高品質になり、元の 7 兆トークンから最大 18 兆トークンに拡張されます。

さらに、より多くの知識の獲得、数学的なコーディング能力、人間の好みへの適合など、さまざまな面で強化が図られています。

さらに、命令のトレース、長いテキストの生成 (1K から 8K トークン以上)、構造化データの理解 (テーブルなど)、構造化出力の生成 (特に JSON) にも大きな改善が見られます。

実際の結果を見てみましょう。

表の理解

JSON出力を生成する

さらに、Qwen2.5 モデルは一般にシステムプロンプトの多様性に適応性が高く、チャットボットのロールプレイング機能と条件設定機能を強化します。

モデルの具体的な機能を見てみましょう。

前述のとおり、フラッグシップ モデルはさまざまなタスクで大幅な改善を示しています。

0.5B、1.5B、3B などの小型モデルの場合、パフォーマンスはおおよそ次のようになります。

注目すべきは、Qwen2.5-0.5B モデルがさまざまな数学タスクやコーディングタスクにおいて Gemma2-2.6B よりも優れていることです。

さらに、Qwen2.5は命令チューニング後のモデルのパフォーマンスも実証しました。72B命令は、特に数学(MATH:83.1)、コーディング(LiveCodeBench:55.5)、チャット(Arena-Hard:81.2)において、より大型のLlama-3.1-405Bを上回りました。

32B-Instruct、14B-Instruct、Qwen2.5-Turbo などの他のモデルは、GPT-4o-mini に匹敵する機能を備えています。

Qwen史上最大のオープンソースプロジェクト

Qwen は基本モデルに加えて、コードと数学モデルもリリースしました。

Qwen2.5-Coder は、1.5B、7B、32B バージョン (近日提供開始) の 3 つのモデル サイズを提供します。

主な改善点は、コードトレーニングデータの規模が拡大され、コーディング機能が強化されたという 2 つです。

Qwen2.5-Coder は、ソース コード、テキスト コード ベース データ、合成データなど、合計 5.5 兆トークンの大規模なコード データ データセットでトレーニングされます。

128Kのコンテキストをサポートし、92のプログラミング言語をカバーしています。オープンソースの7Bバージョンは、DeepSeek-Coder-V2-LiteやCodestralといったより大規模なモデルを凌駕し、現在利用可能な最も強力な基盤コードモデルの1つとなっています。

数学モデルの面では、Qwen2.5-Math は主に CoT と TIR を通じて英語と中国語の数学問題の解決をサポートします。

現時点では、このシリーズのモデルを他のタスクに使用することはお勧めしません。

Qwen2.5-Mathシリーズには、基本モデルのQwen2.5-Math-1.5B/7B/72B、命令調整モデルのQwen2.5-Math-1.5B/7B/72B-Instruct、数学報酬モデルのQwen2.5-Math-RM-72Bが含まれます。

英語の数学問題を解くために Chain of Reasoning (CoT) の使用のみをサポートする Qwen2-Math シリーズとは異なり、Qwen2.5-Math シリーズは Chain of Reasoning と Tool Integrated Reasoning (TIR) を使用して中国語と英語の両方の数学問題を解決できるようにサポートを拡張しています。

基本モデルのアップグレードでは、前バージョンと比較して、主に次の3つのことを行いました。

Qwen2-Math-72B-Instruct モデルを使用して、追加の高品質な数学的事前トレーニング データを合成します。

オンライン リソース、書籍、コードから、複数の期間にわたる高品質の数学データ、特に中国語データをさらに収集します。

パラメータ初期化に Qwen2.5 シリーズの基本モデルを使用することで、より強力な言語理解、コード生成、テキスト推論機能を発揮します。

最終的には能力の向上につながり、例えば大学入試数学の一問一答では、1.5B/7B/72Bのスコアがそれぞれ3.4、12.2、19.8ポイント向上しました。

さて、これで「史上最大規模」とも言える完全なオープンソース プロジェクトである Qwen 2.5 シリーズは終了です。

それはストロベリーではなく、キウイと呼ばれます。

Alibaba Tongyi Open Sourceの責任者であるLin Junyang氏も、舞台裏の詳細をいくつか共有しました。

彼はまず、Qwen2 がオープンソース化された瞬間に Qwen2.5 プロジェクトが始まったと述べました。

その過程で、彼らは多くの問題と間違いを認識しました。

例えば、事前トレーニングに関しては、誰もがよく知っている多くの方法を使用して、事前トレーニングデータの質と量の向上にのみ重点を置きました。

たとえば、テキスト分類器を使用して高品質のデータを呼び出し、LLM スコアラーを使用してデータをスコアリングすることで、品質と量のバランスを実現します。

チームは専門家モデルの作成に加えて、それを使用して合成データも生成しました。

トレーニングの後半段階では、ユーザーからのフィードバックによって問題が一つずつ解決され、RLHF メソッド、特にオンライン学習方法も模索されました。

その後のアップグレードやアップデートに関しては、O1 に刺激を受け、推論能力を深く研究する必要があると考えていると述べました。

注目すべきは、Qwen2.5 の発売前プロモーション中に、そのチームが、この商品はストロベリーではなくキウイと呼ばれる予定であることを明らかにしたことです。

さて、これでキウイフルーツをすぐに使えるようになります。

参考リンク: [1]https://x.com/JustinLin610/st... [2]https://x.com/Alibaba_Qwen/status/1836449414220779584 [3]https://qwenlm.github.io/blog...

[4]https://qwenlm.github.io/blog...

[5]https://qwenlm.github.io/blog...

[6]https://qwenlm.github.io/blog...