|
10月17日、Sinan OpenCompass大規模言語モデル評価リストの9月のランキングが発表されたことが分かりました。アリババのオープンソースモデルQwen2.5-72B-Instructは、Claude 3.5やGPT-4oなどのクローズドソースモデルを破り、オープンソースモデルとして初めてランキングを制覇しました。9月末には、Qwenシリーズのオープンソースモデルの派生モデル数が初めてLlamaを上回り、世界最大のオープンソースモデル群となったことが分かりました。 Sinan OpenCompassは、上海人工知能研究所が開発した大規模モデル評価プラットフォームです。OpenAI、Alibaba、Zhipu AI、Meta、Zero1Wanwuなどの企業による100を超える主流の大規模モデルの評価が含まれており、中国で最も影響力と権威のある第三者評価ランキングリストとなっています。Sinan OpenCompassは独自に構築した評価ランキングリストを毎月更新し、言語、推論、知識、コード、数学、指示追従、インテリジェントエージェントという7つの能力次元と10以上のサブタスクにわたって、最新の主流モデルの包括的な評価と分析を提供しています。 2024年9月のOpenCompassリーダーボードでは、オープンソースのQwen2.5-72Bが70.3点で1位を獲得し、Claude 3.5やGPT-4oといったトップのクローズドソースモデルを初めて上回りました。Qwen2.5-72B-Instructは、このリーダーボードの複数の能力評価で上位にランクインしました。コーディング能力の点では、Qwen2.5-72B-Instructは74.2点で優勝し、コードを正確に完成させるだけでなく、その機能とロジックの詳細な説明も提供しました。数学的能力の点では、Claude 3.5は72.1点、GPT-4oは70.6点で、Qwen2.5-72B-Instructの77点を大きく下回りました。 SiNan OpenCompassは、「Qwen 2.5がトップの座を獲得したことは、オープンソースコミュニティがモデル分野において急速に進歩したことを示すものだ」とコメントしました。最新の技術革新を経て、Qwen 2.5に代表される国内主流メーカーのモデルの性能は大幅に向上し、国際的なトップモデルとの差は急速に縮まっており、国産モデルの強力な競争力を証明しています。 Qwen2.5-72B-Instructは9月末に早くもChatbot Arenaの大規模モデルブラインドテストランキングでトップ10入りを果たし、トップ10入りを果たした唯一の中国製大規模モデルとなりました。Qwenシリーズのオープンソースモデルは、大規模言語モデル、マルチモーダルモデル、数学モデル、そして様々な規模のコードモデルを網羅し、ほぼ全てのモデルにおいてスケール最高のパフォーマンスを達成しました。9月末現在、世界中の開発者がQwenシリーズをベースに開発した派生モデルの数は74,300を超え、Llamaの72,800を超え、世界最大のオープンソースモデル群となっています。 (以上) |
Claude 3.5やGPT-4oなどのトップのクローズドソースモデルを上回り、AlibabaのオープンソースモデルQwen2.5がOpenCompassベンチマークで優勝しました。
関連するおすすめ記事
-
AIGCブームの中、中国企業は海外市場で成功する可能性をいかに高めることができるか? | 海外専門家の洞察
-
PLMにおける大きな進歩!上海交通大学と上海AIラボの最新の成果がNeurIPS 24に選出されました。ProSSTはタンパク質構造情報を効果的に統合します。
-
Tencent Yuanbao PC版の実世界テスト:本格的なDeepSeekを搭載したAI PCです。
-
テレンス・タオは、現在大ヒットとなっているハーバード大学のリバース学習法「AI に教えることで自分自身を学ぶ」を強く推奨しています。
-
Mafengwo の AI エージェントは、DeepSeek と統合された最初の観光業界アプリケーションになります。
-
最新のFSDテスト結果:ドライバー介入ゼロで100分。テスラが新型「モデルQ」を予告