|
張龍飛(Datawhale)によるオリジナル Datawhaleのヒント 著者:Zhang Longfei、Datawhaleのティーチングアシスタント 昨日の早朝、アリババは新しい推論モデル QwQ-32B をオープンソース化しました。 公式アナウンスによると、このモデルの性能は本格的なDeepSeek-R1(671B)に匹敵するとのこと! 公式レビュー画像からもわかるように、QwQ-32Bは5つのベンチマークテストで本格的なDeepSeek R1 (671B)とほぼ同じスコアを記録し、同サイズのR1蒸留モデルをはるかに上回っています。 これらのメッセージを見た後、私は徹底的なテストを始めました。 QwQ-32B オープンソースリンク: ModelScope オープンソース リンク: https://modelscope.cn/models/... Huggingface オープンソース リンク: https://huggingface.co/Qwen/Q... オンライン体験アドレス: https://chat.qwen.ai/?models=... ローカル展開:ステップバイステップガイド 私は AutoDL から 4090 をレンタルし、QwQ-32B-AWQ 量子化バージョンをローカルに展開しました。 ステップバイステップのデプロイメントチュートリアルを作成しました。長さの制限があるため、必要に応じて参照してください。 チュートリアル リンク: https://datawhaler.feishu.cn/... コマンドライン出力を見ると、モデルが4090 GPUで完璧に動作していることがわかります。最近話題になっている問題でテストしてみました。 9.11 と 9.9 ではどちらが大きいでしょうか? 推論には合計 21.39 秒かかり、結果は次のとおりです。 実際のテストでは、QwQ-32B-AWQ の量子化バージョンは 18 GB 未満のビデオ メモリを使用しますが、これは単一の 4090 には十分すぎるほどです。QwQ の 32B バージョンは、コンシューマー グレードのハードウェアにも最適です。 パフォーマンステスト QwQ-32B のパフォーマンスについては、コーディング能力、数学的能力、論理的能力の 3 つの側面で評価しました。 まず、コーディング能力に関しては、「回転する六角形の中でボールが跳ねる様子を表すPythonスクリプトを書いてください。ボールは重力と摩擦の影響を受け、回転する壁からリアルに跳ね返る必要があります。」という課題を出題しました。 ご覧のとおり、球体全体の跳ね返りや衝撃は信じられないほどリアルで、小さなボールが大きなフレームを動かす効果まで再現され、リアルな物理シーンを完璧に再現しています。 Grok-3 はこの問題で爆発し、ボールは自由落下しました。 次に、数学の能力をテストしました。大学院入試の結果が出たばかりだったので、数学1の試験問題2問を使ってテストしました。 質問 1: 答えは完全に正解です。 質問2: 答えは完全に正解です。 数学とコードがまさに QwQ-32B の主な焦点であり、その結果は素晴らしいものでした。 最終的な論理的推論能力テストは、unlock-deepseek プロジェクト グループから提供されました。 非常に興味深い質問があります。 以下は多肢選択式の数学の問題です。正しい答えを選択してください。問題情報は次のとおりです。 次の記述のうち正しいものはどれですか? A: 走り幅跳びで測定される距離は、2 点間の最短距離は直線であるという原理に基づいています。 B: 2 つの点が直線を形成するため、走り高跳びのバーは落ちません。 C: 複数のトラックの間でショートカットを見つけることは、最短距離は垂直線分であるという原則に基づいています。 D: 同じ交差点にある白い横断歩道は平行です。なぜなら、与えられた直線の外側の点を通る、与えられた直線に平行な直線は 1 本だけだからです。 この質問はどれくらい難しいでしょうか?ぜひご自身で試してみてください。モデルの思考プロセスは実に魅力的で、7分間に渡って左脳と右脳の戦いを繰り広げます。 しかし、QwQ は正しい答えを出しました。 QwQ は、数学、コード、論理的推論の 3 つの側面にわたる実際のテストに基づいて、高性能パラメータを備えたいくつかの主流の推論モデルに簡単に匹敵する優れた機能を発揮します。 エージェント関連の機能: 関数呼び出し QwQ-32Bはエージェント関連の機能も統合しており、関数呼び出しもサポートしています。そこで、実際に試して株価データ分析エージェントを構築してみました。 結果ショーケース: 関数呼び出しのサポートにより、モデルの実際のアプリケーション機能が向上するだけでなく、ツールを使用しながら批判的に考え、環境からのフィードバックに基づいて推論プロセスを調整することもできます。 結論は 全体的に、今回TongyiがリリースしたQwQ-32B推論モデルは非常に優れています。
現在、O1 モデルのリリースからわずか 5 か月で、推論モデルの分野は多様性が繁栄する新しい時代を迎えています。 少し前までは、誰もが「フルパワー」のDeepSeek-R1の使い方をオンラインで探していましたが、ついに小型ながらもパワフルなQwQ-32Bモデルが登場しました。このサイズはローカルへの導入を容易にし、Alibaba Cloudプラットフォーム上のQwQ APIを用いた開発を可能にします。起業家、小規模チーム、あるいはプロフェッショナルなAIアプリケーションの開発を目指す企業にとって、これはコストを大幅に削減します。 2023年8月以来、同益千文は200以上のモデルをオープンソース化してきました。彼らは目立たない存在ではありますが、真摯に取り組み、大規模モデル技術の普及と応用を真摯に促進し、国内の大規模モデルエコシステムの繁栄を育んでいます。 同義前文チームに敬意を表します。 いいね!(3件のいいね!)↓ |
QwQ-32B のレビューとユーザー ガイドが登場しました。
関連するおすすめ記事
-
物質探索の新時代!清華大学の徐勇氏と段文輝氏率いるチームがニューラルネットワーク密度汎関数フレームワークをリリースし、物質の電子構造予測のブラックボックスを切り開きました!
-
スカーレット・ヨハンソンが中国風ポロシャツを宣伝、イーロン・マスクがレッドカーペットでジーンズを着用!新しいバーチャル試着システムが大流行。
-
DeepSeek-R1 + カーソルが完全統合!Wuwen Chip Domeがフル機能のAPIサービスを開始、国内主要7社のコンピューティングパワーがサポート。
-
第一弾ゲストが決定しました!李開復氏と周志華氏の両名が登壇します!MEET2025 Intelligent Future Conferenceへの参加登録受付を開始しました。
-
テスラ サイバートラック:マスク氏が生産停止を命令?
-
Google が AI による山火事検出で画期的成果: 新しい衛星群が小規模の山火事をより早く検出。