|
9月29日、ベンチマークプラットフォーム「Chatbot Arena」は、大規模言語モデルの最新のブラインドテストランキングを発表しました。10日前にリリースされたアリババのオープンソースモデル「Qwen2.5」が、再び世界トップ10入りを果たしました。同社の大規模言語モデル「Qwen2.5-72B-Instruct」は、LLMリーダーボードで10位にランクインし、トップ10入りを果たした唯一の中国製大規模言語モデルとなりました。また、Qwenシリーズのビジュアル言語モデル「Qwen2-VL-72B-Instruct」は、Visionリーダーボードで9位にランクインし、オープンソースの大規模言語モデルの中で最高得点を獲得しました。 同時に、世界中のオープンソースコミュニティによって開発されたQwenシリーズに基づく派生モデルの数は74,300を超え、Llamaシリーズの派生モデル72,800を超えました。Qwenシリーズは世界最大の生成言語モデルファミリーへと成長しました。Hugging Faceコミュニティの権威あるオープンソースモデルランキングであるOpen LLM Leaderboardでは、Qwenシリーズとその派生モデルが上位10位をすべて占めています。 モデルのパフォーマンスからエコシステムへの影響まで、Qwen は中国のオープンソース大規模モデルの歴史を築きました。 Qwen2.5-72B-Instruct は、Chatbot Arena の大規模言語モデル リストで 10 位にランクされています。 Chatbot Arenaは、オープンリサーチ組織LMSYS Orgが立ち上げた大規模モデルの性能評価プラットフォームです。2023年5月の立ち上げ以来、世界トップクラスの大規模モデルにとって最も重要なアリーナとなっています。現在、このプラットフォームは世界中から70以上の大規模モデルを統合しており、匿名方式を用いて大規模モデルをペアリングし、ユーザーがブラインドテストを実施できるようにしています。ユーザーは、実際の対話体験に基づいてモデルの能力に投票します。 9月19日にリリースされたQwen2.5は、急速にリーダーボードを駆け上がりました。主力モデルであるQwen2.5-72B-Instructは、LLMリーダーボードでOpenAIのo1とGPT-4oに次ぐ10位にランクインし、中国の大規模モデルとしては最高スコアを獲得しました。同日、オープンソースの視覚言語モデルであるQwen2-VL-72B-Instructは、Visionリーダーボードで9位にランクインし、GPT-4oやGemini-1.5-Proなどのクローズドソースモデルにわずかに遅れをとり、最高スコアのオープンソースモデルとなりました。これ以前にも、QwenシリーズのオープンソースモデルがいくつかChatbot Arenaリーダーボードにランクインしていました。 Chatbot Arenaは、Qwen2-VL-72B-Instructがオープンソースのビジュアル言語モデルの中で最高ランクであると正式に発表しました。 Qwen 2.5のリリースは、国内外のオープンソースコミュニティに大きな熱狂を巻き起こしました。このオープンソースモデルスイートは、大規模言語モデル、マルチモーダルモデル、数理モデル、そして様々な規模のコードモデルを網羅し、ほぼすべての規模のモデルにおいて業界最高水準のパフォーマンスを実現しています。リリースから10日間で150万回以上のダウンロード数を記録しました。一部の国際的な開発者は、Qwen 2.5を真の「オープンAI」プラットフォームと称賛しました。ユーザーレビューによると、Qwen 2.5は0.5Bから72Bまで最先端(SOTA)パフォーマンスを維持しており、「よく使われているどのモデルをQwen 2.5に置き換えましたか?」という議論が巻き起こりました。 大規模ブラインドテストで世界トップ10入り 海外のオープンソースコミュニティがQwen 2.5を高く評価 |