618ZXW

アリババは旧正月の大晦日に、DeepSeek V3を超え、たった一文でミニゲームの開発を可能にしたQwen2.5-Maxをリリースした。

昨夜も杭州巨模型は夜更かしして皆様に新年のご挨拶を送りました!

春節祝賀会がちょうど生放送されていた頃、アリババの同義質問文は新年の贈り物の第3弾をリリースした

Qwen2.5-Maxが登場し、複数のベンチマーク テストで新星 DeepSeek V3 を上回りました。

Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamondなどのベンチマークで最高スコアを達成しました。Qwen2.5-Maxは、DeepSeek V3、Llama-3.1-405B、クローズドソースモデルGPT-4oを上回り、Claude-3.5-Sonnetに匹敵する性能を示しました。

ベースモデルの比較では、Qwen2.5-Max は DeepSeek V3 や Llama-3.1-405B よりも優れたパフォーマンスを発揮し、モデルの知識理解と推論能力を評価する MMLU-Pro などのベンチマークでも非常に優れたパフォーマンスを発揮しました。

AIコミュニティからさらに注目を集めているのは、Qwen2.5-MaxがDeepSeek V3と同様に、20兆トークンを超える事前トレーニングデータと慎重に設計されたSFT + RLHF事後トレーニングスキームを使用してトレーニングされた大規模なMoEモデルであるということです。

Qwen2.5-Maxの春節ギフトパッケージはネットユーザーの間であっという間に完売しました。DeepSeekに続き、今度はAli Tongyi Qwenが登場。ネットユーザーたちはUltramanのタグも忘れていませんでした。

皆様、特にサムさん、新年おめでとうございます。

モデルがリリースされた後も、アリババの研究者たちは徹夜で働き、自らを熱狂的に推進した。

アリババの上級アルゴリズム専門家であるリン・ジュンヤン氏は次のように語る。

Qwen2.5-Maxはベンチマークテストで優れたパフォーマンスを発揮しました。ぜひ皆さんもお試しください。新年あけましておめでとうございます!

以前、アリババの大規模モデル従業員996人の勤務スケジュールを公開した斌元氏が再び登場した。

外では花火が空を照らしていたが、私はパソコンの前に座っていた。

マルチモーダル機能のデモンストレーション

以下は、4 つのユースケースにおける Qwen2.5-Max のデモンストレーションです。

まず、オンライン検索機能があり、各文の出典が明確に示されており、全体的な操作が非常にスムーズです。

コーディング機能の面では、Qwen2.5-Max はユーザーがさまざまな視覚的作品を完成させるのに役立ちます。1 行のコードで、次に示すような回転する球体を作成できます。

あるネットユーザーは球体を改造し、中に跳ねる黄色いボールを3つ追加した。

最初の試みで成功し、3 つの小さなボールは最後まで大きなボールの中に留まり、衝突を正しく処理しました。

Qwen2.5-Max にはアーティファクト機能もあり、1 行のコードだけでさまざまな小さなアプリケーションやゲームを開発できます。

たとえば、クリックするだけですぐにプレイできるマインスイーパ ゲームを作成できます。

さらに、Qwen2.5-Max は単語内の特定の文字数をカウントすることもできます。

Qwen2.5-MaxがQwenチャットで利用可能になりました。

さらに、Hugging Face のデモ版をプレイできるほか、Any Chat がリリースされ、Alibaba Cloud サービスを通じて API も利用できるようになります。

興味のある学生はぜひ試してみてください!

参考リンク: [1]https://qwenlm.github.io/blog... [2]https://x.com/JustinLin610/st... [3]https://x.com/\_akhaliq/status/1884278071093502253 [4]https://x.com/huybery/status/...