|
一夜にして、AI プログラミング モデルのオープン ソースの王座が交代しました。 Qwen2.5-Coder-32B が正式にリリースされ、複数の主流ベンチマーク テストで最先端 (SOTA) スコアを達成し、世界最強のオープン ソース プログラミング モデルとしての地位を確固たるものにしました。 さらに重要なことは、Qwen2.5-Coder-32B がコード機能に関する 12 の主要ベンチマークのうち9 つでGPT-4o に勝利し、クローズドソース プログラミング モデルの絶対的な優位性を覆したことです。 コードを 1 行も書かずに、最も直接的かつ詳細な自然言語プロンプトを入力するだけで、完全なセットが提供されます。 プログラミングの知識が全くない初心者でも簡単に始めることができます。例えば、簡単な文章一つで計算機を生成してみました。 すぐに完了し、計算機が使用できるようになりました。 20 秒以内に音楽プレーヤーを生成するなど、他にも楽しく実用的なアプリケーションが数多くあります。 履歴書の作成は簡単です。 開発者が、 4o を超え、Sonnet や O1 と競合できるほど恐ろしいと言っているのも不思議ではありません。 さらに素晴らしいのは、この Qwen2.5-Coder リリースには、0.5B、1.5B、3B、7B、14B、32B の 6 つのサイズのオープンソース モデルがすべて含まれており、各サイズがそれぞれのカテゴリで最先端のパフォーマンスを実現していることです。 さらに、ほとんどのバージョンでは、非常に寛容なApache 2.0 ライセンスが使用されています。 △青色は新しくリリースされたバージョンを示します。 CodeQwen 1.5 のリリース以降、このモデル シリーズは開発者コミュニティで最も注目されるオープン ソース プログラミング モデルの 1 つになったことは注目に値します。 9月にリリースされたQwen2.5-Coder-7Bバージョンはさらに優れており、多くの人が、主な日常的なツールとしてGPT-4とSonnet 3.5を置き換えるのに十分だと言っています。 当時、32Bのリリースも発表され、それ以来、ネットユーザーたちはさらなるアップデートを強く求めてきました。 今回、32B以上のサイズを含むQwen2.5-Coderの全シリーズが、お約束通り登場しました。あらゆるものをコードで作成できる、一見最強のオープンソースコードモデルであるこの製品が、なぜこれほどまでに素晴らしいのでしょうか? GPT-4o を超え、誰でもアクセス可能。まず、なぜプログラミング モデルに焦点を当てるのでしょうか。それは、大規模モデルでの推論にはコード機能が不可欠であり、大規模モデルのコード理解はその論理機能の基本的な源泉の 1 つとみなされることが多いためです。 思考プログラムは、複雑な問題を実行可能なコード スニペットに分解し、コード エグゼキュータを使用してサブ問題を段階的に解決します。これにより、大規模な言語モデルに基づく推論機能が大幅に向上します。 DeepMind、スタンフォード大学、カリフォルニア大学バークレー校が共同で発表した研究によると、コードのチェーンを使用すると、モデルのコードベースの推論能力が向上するだけでなく、モデルの自然言語タスクや数学的計算にもプラスの影響を与える可能性があることが示唆されています。 △ https://arxiv.org/abs/2312.04474 Qwen2.5-Coderも同様の原理を採用しています。Qwen2.5の基本大規模モデルに基づいて初期化され、ソースコード、テキストとコードの混合データ、合成データを含む5.5Tトークンを使用して継続的に学習することで、コード生成、コード推論、コード修復といったコアタスクにおいて大幅なパフォーマンス向上を実現しています。 最新リリースのQwen2.5-Coder シリーズには、それぞれベース バージョンと Instruct バージョンの両方を含む、異なるサイズの 6 つのオープン ソース モデルが含まれています。 ベース モデルは開発者が自分で微調整できる基本モデルですが、Instruct モデルはチャットで直接使用できる公式のアライメント モデルです。 チームは、すべてのデータセットでさまざまなサイズの Qwen2.5-Coder のパフォーマンスを評価し、同じスケール (オープンソースかクローズド ソースかに関係なく) で最高のパフォーマンスを達成し、スケーリング法則が依然として機能していることも検証しました。 その中で、 Qwen2.5-Coder-32B-Instruct は、今回のオープンソースリリースにおけるフラッグシップモデルです。 大規模プログラミング モデルが重点を置く 5 つの主要領域すべてにおいて、GPT-4o を上回っています。
まず、プログラミング モデルの中核機能であるコード生成について見てみましょう。 Qwen2.5-Coder-32B-Instruct は、いくつかの一般的なコード生成ベンチマークで最先端 (SOTA) のオープンソース パフォーマンスを達成しました。 さらに、HumanEval、McEval、Spider、EvalPlus、BigCodeBench などのベンチマークでは、クローズドソースの GPT-4o や Claude 3.5 Sonnet を上回っています。 次に、コード修正の点では、Qwen2.5-Coder-32B-Instruct は、主流のベンチマーク Aider で GPT-4o をわずかに上回ります。 3 番目に、コード推論の点では、32B バージョンは CRUXEval ベンチマークで 7B バージョンよりも大幅に改善され、GPT-4o や Claude 3 Opus に匹敵するレベルに達しました。 4つ目に、複数のプログラミング言語への対応力という点では、Qwen2.5-Coderは92のプログラミング言語をサポートしています。Qwen2.5-Coder-32B-Instructは、そのうち40以上の言語で非常に優れたパフォーマンスを発揮します。 HaskellやRacketなどの言語で非常に優れたパフォーマンスを発揮し、 4oなどのクローズドソースモデルを上回り、非常に高いスコアを達成しています。 事前トレーニング段階で独自のデータクリーニングと割り当てを採用することで、McEval で 65.9 というスコアを達成しました。 また、マルチプログラミング言語コード修復ベンチマーク MdEval でも非常に優れたパフォーマンスを発揮し、75.2 ポイントを獲得して、すべてのオープンソース モデルの中で第 1 位を獲得しました。 最後に、 Qwen2.5-Coder-32B-Instructのアライメント性能を人間の好みの観点から検証するため、Tongyi Qianwenチームは内部アノテーションに基づくコード嗜好評価ベンチマーク「Code Arena」も構築しました。これは、大規模なプログラミングモデルアリーナと捉えることができます。 このセクションでは、Qwen2.5-Coder-32B-Instructモデルとクローズドソースモデルを直接比較します。同じ問題で2つのモデルを対戦させ、最終的な勝敗比を計算してモデルのパフォーマンスを評価します。 実験結果によると、Claude 3.5 Sonnet が最も優れたパフォーマンスを示し、Qwen2.5-Coder-32B-Instruct と GPT-4o は同等で、勝率は 68.9% でした。 全体的に、Qwen2.5-Coder-32B-Instruct は間違いなく最高のオープンソース コードであり、いくつかの面では最も強力なコード機能を備えたクローズド ソース モデルに匹敵、あるいはそれを上回っています。 実際のアプリケーションでは、Tongyi Qianwen チームは Qwen2.5-Coder 上に構築されたインテリジェント コード アシスタントをデモンストレーションし、 Artifacts アプリケーションを起動しました。 現在、インテリジェント コード アシスタントの分野では主にクローズド ソース モデルが主流ですが、Qwen2.5-Coder は開発者にオープン ソース オプションを提供します。 モデル支援プログラミングを評価できるいくつかのベンチマーク (CrossCodeEval、CrossCodeEval、CrossCodeLongEval、RepoEval、SAFIM) で最先端 (SOTA) の結果を達成しました。 新しい Qwen2.5-Coder はプログラミング初心者にとっても非常に使いやすく、たった 1 行のコードで小さなアプリケーションやゲームを開発できます。 例えば、2048 のミニゲームをその場で自動的に作成し、数十秒で完了してすぐにプレイすることができます。 あるいは、写真とテキストを含む英語の語彙フラッシュカード ページを生成することもできます。どちらも非常に高速です。 世界中の開発者が求める中国のオープンソースモデルQwen2.5-Coder-32B の急速なリリースは、まさに誰もが待ち望んでいたものでした。 つい最近、Reddit に「なぜバージョン 32B はまだリリースされていないのか」という投稿がありました。 結局のところ、9 月にオープンソース化された Qwen2.5-Coder-1.5B および 7B バージョンをベースに、非常に人気のあるアプリケーションを多くの人が作成しています。 例えば、 Qwen Code Interpreter 。これはChatGPTに似たコードインタープリターで、ローカルマシン/ブラウザ上で完全に実行でき、Qwen2.5-Coder-1.5Bをベースに構築されています。 小型モデルのみを使用してこのような優れた結果が達成されたという事実は、すぐに多くのネットユーザーの注目を集め、何気ない推奨投稿には1000件近くの「いいね!」が寄せられました。 Qwen2.5-Coder をベースにRust 言語専用のプログラミング アシスタントを作成した人もいます。 Qwen2.5-Coderは最も人気のあるオープンソース・プログラミング・モデルであると言っても過言ではありません。実際、Qwenプログラミング・モデルの各世代はオープンソースの最高レベルを体現しており、常にその時点で最も強力なクローズドソース・モデルと競合しています。 今年4月にはCodeQwen 1.5-7Bがリリースされました。基本的なコード生成能力において、より大規模なモデルを上回るポテンシャルを示し、オープンソースモデルとGPT-4間のプログラミング能力の差を縮めました。 その後、YunqiカンファレンスでQwen2.5-Coder-1.5B/7Bがリリースされました。Qwen2.5ファミリーの一員として、Qwen2.5-Coder-7Bは、当時より規模が大きかったDeepSeek-Coder-V2-LiteやCodestral-20Bを打ち負かし、最強の基本プログラミングモデルの一つとなりました。 この基盤の上に、Qwen2.5-Coder-32Bのリリースにより、規模は数百億のパラメータへと桁違いに拡大し、その能力はさらに開花し、GPT-4oを凌駕し、クローズドソースモデルの王者Claude 3.5 Sonnetに徐々に近づいてきました。 クローズドソースモデルは数ヶ月ごとに所有者が変わる一方、オープンソースのQwenは成長を止めず、オープンソースモデルとクローズドソースモデルの差が縮まっていることをさらに証明しています。オープンソースモデルはクローズドソースモデルを置き換える機会と可能性を秘めており、世界中の開発者にとってよりアクセスしやすくオープンなAI機能を提供します。 AIアプリケーションが進化し、より多くの分野や業界がAIに参入するにつれて、AIモデルに対するパフォーマンス、開発コスト、そして学習曲線への要求はますます高まっていくでしょう。一方で、使いやすいオープンソースモデルは、このトレンドを牽引する大きな原動力となるでしょう。 Qwenシリーズの爆発的な人気は、この好循環の最も顕著な証拠の一つです。9月末時点で、Qwenシリーズをベースとした派生モデルは世界中で74,300台を超え、Llamaシリーズの派生モデル72,800台を上回りました。 Qwen は世界最大の生成言語モデル ファミリーになりました。 クラウドコンピューティングとAIの分野で世界をリードするアリババの支援を受けるQwenは、強力な技術サポートとリソースサポートを受けており、オープンソース開発とアップグレードの継続を保証しています。さらに、アリババ自身のビジネスニーズと開発ニーズが内部ループを形成し、Qwenは新たな高みへと成長を続けています。 しかし、オープンソース モデルの最大の価値は、依然として開発者にあります。 AIの登場により、開発が難しくないアプリケーションの開発が可能になりました。 Qwen は中国を代表するオープンソースの大型モデルとして、世界中の開発者に幅広い選択肢を提供し、世界の大型モデル競争の舞台で中国の革新力を代表し、ますます認知度を高めています。 うーん... たとえば、ミストラルが少し前にリリースしたエッジモデルは、少し批判を受けた Qwen2.5 とは比べものになりませんでした (doge)。 ちなみに、 Qwen3はすでに開発中とのことで、数ヶ月以内に発売される予定です。楽しみに待っていてください! Qwen2.5-Coder の詳細については、以下のリンクを参照してください。 GitHub アドレス: https://github.com/QwenLM/Qwe... 技術レポート: https://arxiv.org/abs/2409.12186 速報: Qwenの様々なシナリオへの応用を探求するため、Tongyi QwenはModaコミュニティおよびAlibaba Cloud開発者コミュニティと共同でエッセイコンテストを開催しました。エージェントアプリケーション、微調整/展開、業界アプリケーション、Qwen-coderアプリケーションに関する技術的な実践に関する記事を投稿することで、賞金総額10万元を山分けするチャンスがあります! |
最強のオープンソースCodeLLMモデルが深夜に登場!320億のパラメータを持つ新しいQwen2.5-Coderモデルは、GPT-4oを凌駕します。
関連するおすすめ記事
-
今週の金曜日に北京でお会いしましょう!
-
テレンス・タオ氏の最新スピーチ:AI時代には、数学研究は前例のない規模に突入するだろう。
-
「大規模モデル ホワイト ボックス構築ガイド」を卒業すると、必要なビデオ メモリは 2GB のみで、LLM に関するすべてをゼロから作成できます。
-
重慶ターミナルは、AIoT銘柄の第一人者を目指しています。3年間で29億人民元の売上高を達成し、その60%以上がAIによるデジタル変革によるものです。
-
OpenAIを去った後、Weng Liのブログが初めて更新され、多くのネットユーザーが視聴して学びました。
-
Qujing TechnologyはGL VenturesとZ Fundからの投資を主導し、数千万元の資金調達ラウンドを完了した。