|
9月29日、ベンチマークプラットフォーム「Chatbot Arena」は、大規模言語モデルの最新のブラインドテストランキングを発表しました。10日前にリリースされたアリババのオープンソースモデル「Qwen2.5」が、再び世界トップ10入りを果たしました。同社の大規模言語モデル「Qwen2.5-72B-Instruct」は、LLMリーダーボードで10位にランクインし、トップ10入りを果たした唯一の中国製大規模言語モデルとなりました。また、Qwenシリーズのビジュアル言語モデル「Qwen2-VL-72B-Instruct」は、Visionリーダーボードで9位にランクインし、オープンソースの大規模言語モデルの中で最高得点を獲得しました。 同時に、世界中のオープンソースコミュニティによって開発されたQwenシリーズに基づく派生モデルの数は74,300を超え、Llamaシリーズの派生モデル72,800を超えました。Qwenシリーズは世界最大の生成言語モデルファミリーへと成長しました。Hugging Faceコミュニティの権威あるオープンソースモデルランキングであるOpen LLM Leaderboardでは、Qwenシリーズとその派生モデルが上位10位をすべて占めています。 モデルのパフォーマンスからエコシステムへの影響まで、Qwen は中国のオープンソース大規模モデルの歴史を築きました。 Qwen2.5-72B-Instruct は、Chatbot Arena の大規模言語モデル リストで 10 位にランクされています。 Chatbot Arenaは、オープンリサーチ組織LMSYS Orgが立ち上げた大規模モデルの性能評価プラットフォームです。2023年5月の立ち上げ以来、世界トップクラスの大規模モデルにとって最も重要なアリーナとなっています。現在、このプラットフォームは世界中から70以上の大規模モデルを統合しており、匿名方式を用いて大規模モデルをペアリングし、ユーザーがブラインドテストを実施できるようにしています。ユーザーは、実際の対話体験に基づいてモデルの能力に投票します。 9月19日にリリースされたQwen2.5は、急速にリーダーボードを駆け上がりました。主力モデルであるQwen2.5-72B-Instructは、LLMリーダーボードでOpenAIのo1とGPT-4oに次ぐ10位にランクインし、中国の大規模モデルとしては最高スコアを獲得しました。同日、オープンソースの視覚言語モデルであるQwen2-VL-72B-Instructは、Visionリーダーボードで9位にランクインし、GPT-4oやGemini-1.5-Proなどのクローズドソースモデルにわずかに遅れをとり、最高スコアのオープンソースモデルとなりました。これ以前にも、QwenシリーズのオープンソースモデルがいくつかChatbot Arenaリーダーボードにランクインしていました。 Chatbot Arenaは、Qwen2-VL-72B-Instructがオープンソースのビジュアル言語モデルの中で最高ランクであると正式に発表しました。 Qwen 2.5のリリースは、国内外のオープンソースコミュニティに大きな熱狂を巻き起こしました。このオープンソースモデルスイートは、大規模言語モデル、マルチモーダルモデル、数理モデル、そして様々な規模のコードモデルを網羅し、ほぼすべての規模のモデルにおいて業界最高水準のパフォーマンスを実現しています。リリースから10日間で150万回以上のダウンロード数を記録しました。一部の国際的な開発者は、Qwen 2.5を真の「オープンAI」プラットフォームと称賛しました。ユーザーレビューによると、Qwen 2.5は0.5Bから72Bまで最先端(SOTA)パフォーマンスを維持しており、「よく使われているどのモデルをQwen 2.5に置き換えましたか?」という議論が巻き起こりました。 大規模ブラインドテストで世界トップ10入り 海外のオープンソースコミュニティがQwen 2.5を高く評価 |
歴史上、アリババのオープンソースモデル「Qwen」の派生モデルの数がLlamaを上回りました。
関連するおすすめ記事
-
国産電気自動車は勢いを増しており、BMWとメルセデス・ベンツが提携し、わずか2年で1,000ヶ所のスーパーチャージステーションが開設された。
-
Meta初のマルチモーダル大規模モデルがワンクリックで起動できます!3万枚以上の画像を含む、初のマルチニードル刺繍データセットがオンラインになりました。
-
長城汽車の NOA (騒音認識) システムにより全国での運転が可能に。新型ブルーマウンテンが広州モーターショーでデビュー。
-
10月29日に上海のアリババでお会いしましょう!
-
30 年にわたる努力を経て、MIT は次世代のリチウムイオン電池に着目し、生成 AI を活用して固体電解質の大きな進歩を達成しました。
-
コストが 90% 削減されました! Claude は、Gemini に似た新しいプロンプト ワード キャッシュを導入し、コードベース全体を一度に記憶します。