618ZXW

GPT-4o を超える!Alibaba Cloud の最強オープンソース コード モデル、Qwen2.5-Coder。

11月12日、アリババクラウドのTongyi Big Modelチームは、6つのQwen2.5-Coderモデルを含むTongyi Qianwenコードモデルシリーズ全体をオープンソース化しました。関連評価では、6つのコードモデルすべてが同じサイズで業界をリードするパフォーマンスを達成したことが示されています。主力の32バイトコードモデルは、10を超えるベンチマークテストでオープンソースモデルの中で最高の結果を達成し、世界最強のオープンソースコードモデルとなりました。さらに、このモデルは、コード生成を含むいくつかの主要な機能において、クローズドソースモデルのGPT-4oを上回っています。Qwen2.5-Coderをベースにすることで、AIプログラミングのパフォーマンスと効率が大幅に向上し、プログラミング初心者でもウェブサイト、データチャート、履歴書、ゲームなど、さまざまなアプリケーションを簡単に作成できます。

プログラミング言語は高度に論理的かつ構造化されています。コードモデルは、これらの複雑な論理関係と構造を理解、生成、処理する必要があり、大規模モデルの論理的機能の基本的な源泉の一つとみなされることが多く、大規模モデルの全体的な推論能力を向上させる上で非常に重要です。Qwen2.5-Coderは、Qwen2.5の基本大規模モデルに基づいて初期化され、ソースコード、テキストとコードの混合データ、合成データを含む5.5TBのトークンを使用して継続的にトレーニングされ、コード生成、コード推論、コード修復などのコアタスクにおいて大幅なパフォーマンス向上を実現します。

中でも、新たにリリースされたフラッグシップモデルであるQwen2.5-Coder-32B-Instructは、EvalPlus、LiveCodeBench、BigCodeBenchなど、10を超える主要なコード生成ベンチマークにおいて、オープンソースモデルのスコア記録を更新しました。また、コード修復能力を評価するAiderや、マルチプログラミング言語対応能力を評価するMcEvalなど、9つのベンチマークにおいてGPT-4oを上回り、オープンソースモデルによるクローズドソースモデル追い越しを達成しました。

コード推論において、Qwen2.5-Coder-32B-InstructはCRUXEval-Oベンチマークにおいてオープンソースモデルとして最高の記録を打ち立てました。Qwen2.5-Coder-32B-Instructは40以上のプログラミング言語で非常に優れたパフォーマンスを発揮し、McEvalベンチマークにおいてすべてのオープンソースモデルの中で最高スコアを達成しました。また、複数のプログラミング言語のコード修復能力を評価するMdEvalベンチマークにおいて、オープンソースチャンピオンに輝きました。

このオープンソースリリースにより、Qwen2.5-Coderは0.5B、1.5B、3B、7B、14B、32Bの6つのサイズで幅広いモデルを提供します。各サイズにおいて、BaseモデルとInstructモデルの両方がオープンソース化されています。Baseモデルでは開発者がモデルを微調整でき、Instructモデルはすぐに使用できる公式アライメントモデルです。Qwen2.5-Coderのすべてのモデルは、同一サイズにおいて最先端(SOTA)性能を達成しています。

Qwen2.5-Coderシリーズ全体はオープンソースであり、より多くのアプリケーションシナリオに適応できます。エッジでもクラウドでも、大規模なAIモデルを活用して開発者のプログラミング開発をより効果的に支援できます。プログラミング初心者でも、Qwen2.5-Coderに搭載されているコードアシスタントと可視化ツールを使えば、自然言語対話を通じてウェブサイト、データチャート、履歴書、ゲームなど、様々なアプリケーションを作成できます。

Qwen 2.5はこれまでに100を超える大規模言語モデル、マルチモーダルモデル、数理モデル、コードモデルをオープンソース化しており、ほぼすべてのモデルがそれぞれの規模において最高のパフォーマンスを達成しています。Qwenシリーズをベースに開発された派生モデルの数は、9月末までに全世界で74,300を超え、Llamaシリーズの派生モデル72,800を超え、Qwenは世界最大の生成言語モデルファミリーとなりました。

(以上)