|
10月17日、Sinan OpenCompass大規模言語モデル評価リストの9月のランキングが発表されたことが分かりました。アリババのオープンソースモデルQwen2.5-72B-Instructは、Claude 3.5やGPT-4oなどのクローズドソースモデルを破り、オープンソースモデルとして初めてランキングを制覇しました。9月末には、Qwenシリーズのオープンソースモデルの派生モデル数が初めてLlamaを上回り、世界最大のオープンソースモデル群となったことが分かりました。 Sinan OpenCompassは、上海人工知能研究所が開発した大規模モデル評価プラットフォームです。OpenAI、Alibaba、Zhipu AI、Meta、Zero1Wanwuなどの企業による100を超える主流の大規模モデルの評価が含まれており、中国で最も影響力と権威のある第三者評価ランキングリストとなっています。Sinan OpenCompassは独自に構築した評価ランキングリストを毎月更新し、言語、推論、知識、コード、数学、指示追従、インテリジェントエージェントという7つの能力次元と10以上のサブタスクにわたって、最新の主流モデルの包括的な評価と分析を提供しています。 2024年9月のOpenCompassリーダーボードでは、オープンソースのQwen2.5-72Bが70.3点で1位を獲得し、Claude 3.5やGPT-4oといったトップのクローズドソースモデルを初めて上回りました。Qwen2.5-72B-Instructは、このリーダーボードの複数の能力評価で上位にランクインしました。コーディング能力の点では、Qwen2.5-72B-Instructは74.2点で優勝し、コードを正確に完成させるだけでなく、その機能とロジックの詳細な説明も提供しました。数学的能力の点では、Claude 3.5は72.1点、GPT-4oは70.6点で、Qwen2.5-72B-Instructの77点を大きく下回りました。 SiNan OpenCompassは、「Qwen 2.5がトップの座を獲得したことは、オープンソースコミュニティがモデル分野において急速に進歩したことを示すものだ」とコメントしました。最新の技術革新を経て、Qwen 2.5に代表される国内主流メーカーのモデルの性能は大幅に向上し、国際的なトップモデルとの差は急速に縮まっており、国産モデルの強力な競争力を証明しています。 Qwen2.5-72B-Instructは9月末に早くもChatbot Arenaの大規模モデルブラインドテストランキングでトップ10入りを果たし、トップ10入りを果たした唯一の中国製大規模モデルとなりました。Qwenシリーズのオープンソースモデルは、大規模言語モデル、マルチモーダルモデル、数学モデル、そして様々な規模のコードモデルを網羅し、ほぼ全てのモデルにおいてスケール最高のパフォーマンスを達成しました。9月末現在、世界中の開発者がQwenシリーズをベースに開発した派生モデルの数は74,300を超え、Llamaの72,800を超え、世界最大のオープンソースモデル群となっています。 (以上) |
Claude 3.5やGPT-4oなどのトップのクローズドソースモデルを上回り、AlibabaのオープンソースモデルQwen2.5がOpenCompassベンチマークで優勝しました。
関連するおすすめ記事
-
世界最速のAI動画ジェネレーターが話題沸騰。わずか5秒でイーロン・マスクとのハグ動画を生成。中国製。
-
浙江大学とアリババの新しい顔プライバシー保護ソリューションは、ハッカーによる顔の再構築を防ぎます。
-
AAAI'25 の締め切りは今日です! SD コアメンバーは、Midjourney よりもさらに強力なテキストベースのグラフ モデルをオープンソース化し、ワンクリックで起動できるようになりました。
-
「なぜ最も強力なオープンソース CPU は中国製なのか?」シリコンバレーの著名なインフルエンサーがこの考えさせられる質問を投げかけ、50 万人のオンライン視聴者の注目を集めました。
-
BYDとファーウェイが協力し、従来の自動車の最後の砦を突破する
-
Tsinghua NLP オープンソース RAG フレームワークはすぐに使用でき、モデル選択の手間をかけずに知識ベースに自動的に適応します。