618ZXW

Claude 3.5やGPT-4oなどのトップのクローズドソースモデルを上回り、AlibabaのオープンソースモデルQwen2.5がOpenCompassベンチマークで優勝しました。

10月17日、Sinan OpenCompass大規模言語モデル評価リストの9月のランキングが発表されたことが分かりました。アリババのオープンソースモデルQwen2.5-72B-Instructは、Claude 3.5やGPT-4oなどのクローズドソースモデルを破り、オープンソースモデルとして初めてランキングを制覇しました。9月末には、Qwenシリーズのオープンソースモデルの派生モデル数が初めてLlamaを上回り、世界最大のオープンソースモデル群となったことが分かりました。

Sinan OpenCompassは、上海人工知能研究所が開発した大規模モデル評価プラットフォームです。OpenAI、Alibaba、Zhipu AI、Meta、Zero1Wanwuなどの企業による100を超える主流の大規模モデルの評価が含まれており、中国で最も影響力と権威のある第三者評価ランキングリストとなっています。Sinan OpenCompassは独自に構築した評価ランキングリストを毎月更新し、言語、推論、知識、コード、数学、指示追従、インテリジェントエージェントという7つの能力次元と10以上のサブタスクにわたって、最新の主流モデルの包括的な評価と分析を提供しています。

2024年9月のOpenCompassリーダーボードでは、オープンソースのQwen2.5-72Bが70.3点で1位を獲得し、Claude 3.5やGPT-4oといったトップのクローズドソースモデルを初めて上回りました。Qwen2.5-72B-Instructは、このリーダーボードの複数の能力評価で上位にランクインしました。コーディング能力の点では、Qwen2.5-72B-Instructは74.2点で優勝し、コードを正確に完成させるだけでなく、その機能とロジックの詳細な説明も提供しました。数学的能力の点では、Claude 3.5は72.1点、GPT-4oは70.6点で、Qwen2.5-72B-Instructの77点を大きく下回りました。

SiNan OpenCompassは、「Qwen 2.5がトップの座を獲得したことは、オープンソースコミュニティがモデル分野において急速に進歩したことを示すものだ」とコメントしました。最新の技術革新を経て、Qwen 2.5に代表される国内主流メーカーのモデルの性能は大幅に向上し、国際的なトップモデルとの差は急速に縮まっており、国産モデルの強力な競争力を証明しています。

Qwen2.5-72B-Instructは9月末に早くもChatbot Arenaの大規模モデルブラインドテストランキングでトップ10入りを果たし、トップ10入りを果たした唯一の中国製大規模モデルとなりました。Qwenシリーズのオープンソースモデルは、大規模言語モデル、マルチモーダルモデル、数学モデル、そして様々な規模のコードモデルを網羅し、ほぼ全てのモデルにおいてスケール最高のパフォーマンスを達成しました。9月末現在、世界中の開発者がQwenシリーズをベースに開発した派生モデルの数は74,300を超え、Llamaの72,800を超え、世界最大のオープンソースモデル群となっています。

(以上)