618ZXW

QwQ-32B のレビューとユーザー ガイドが登場しました。

張龍飛(Datawhale)によるオリジナル

Datawhaleのヒント

著者:Zhang Longfei、Datawhaleのティーチングアシスタント

昨日の早朝、アリババは新しい推論モデル QwQ-32B をオープンソース化しました。

公式アナウンスによると、このモデルの性能は本格的なDeepSeek-R1(671B)に匹敵するとのこと!

公式レビュー画像からもわかるように、QwQ-32Bは5つのベンチマークテストで本格的なDeepSeek R1 (671B)とほぼ同じスコアを記録し、同サイズのR1蒸留モデルをはるかに上回っています。

これらのメッセージを見た後、私は徹底的なテストを始めました。

QwQ-32B オープンソースリンク:

ModelScope オープンソース リンク: https://modelscope.cn/models/...

Huggingface オープンソース リンク: https://huggingface.co/Qwen/Q...

オンライン体験アドレス:

https://chat.qwen.ai/?models=...

ローカル展開:ステップバイステップガイド

私は AutoDL から 4090 をレンタルし、QwQ-32B-AWQ 量子化バージョンをローカルに展開しました。

ステップバイステップのデプロイメントチュートリアルを作成しました。長さの制限があるため、必要に応じて参照してください。

チュートリアル リンク: https://datawhaler.feishu.cn/...

コマンドライン出力を見ると、モデルが4090 GPUで完璧に動作していることがわかります。最近話題になっている問題でテストしてみました。

9.11 と 9.9 ではどちらが大きいでしょうか?

推論には合計 21.39 秒かかり、結果は次のとおりです。

実際のテストでは、QwQ-32B-AWQ の量子化バージョンは 18 GB 未満のビデオ メモリを使用しますが、これは単一の 4090 には十分すぎるほどです。QwQ の 32B バージョンは、コンシューマー グレードのハードウェアにも最適です。

パフォーマンステスト

QwQ-32B のパフォーマンスについては、コーディング能力、数学的能力、論理的能力の 3 つの側面で評価しました。

まず、コーディング能力に関しては、「回転する六角形の中でボールが跳ねる様子を表すPythonスクリプトを書いてください。ボールは重力と摩擦の影響を受け、回転する壁からリアルに跳ね返る必要があります。」という課題を出題しました。

ご覧のとおり、球体全体の跳ね返りや衝撃は信じられないほどリアルで、小さなボールが大きなフレームを動かす効果まで再現され、リアルな物理シーンを完璧に再現しています。

Grok-3 はこの問題で爆発し、ボールは自由落下しました。

次に、数学の能力をテストしました。大学院入試の結果が出たばかりだったので、数学1の試験問題2問を使ってテストしました。

質問 1: 答えは完全に正解です。

質問2: 答えは完全に正解です。

数学とコードがまさに QwQ-32B の主な焦点であり、その結果は素晴らしいものでした。

最終的な論理的推論能力テストは、unlock-deepseek プロジェクト グループから提供されました。

非常に興味深い質問があります。

以下は多肢選択式の数学の問題です。正しい答えを選択してください。問題情報は次のとおりです。

次の記述のうち正しいものはどれですか?

A: 走り幅跳びで測定される距離は、2 点間の最短距離は直線であるという原理に基づいています。

B: 2 つの点が直線を形成するため、走り高跳びのバーは落ちません。

C: 複数のトラックの間でショートカットを見つけることは、最短距離は垂直線分であるという原則に基づいています。

D: 同じ交差点にある白い横断歩道は平行です。なぜなら、与えられた直線の外側の点を通る、与えられた直線に平行な直線は 1 本だけだからです。

この質問はどれくらい難しいでしょうか?ぜひご自身で試してみてください。モデルの思考プロセスは実に魅力的で、7分間に渡って左脳と右脳の戦いを繰り広げます。

しかし、QwQ は正しい答えを出しました。

QwQ は、数学、コード、論理的推論の 3 つの側面にわたる実際のテストに基づいて、高性能パラメータを備えたいくつかの主流の推論モデルに簡単に匹敵する優れた機能を発揮します。

エージェント関連の機能: 関数呼び出し

QwQ-32Bはエージェント関連の機能も統合しており、関数呼び出しもサポートしています。そこで、実際に試して株価データ分析エージェントを構築してみました。

 import os

結果ショーケース:

関数呼び出しのサポートにより、モデルの実際のアプリケーション機能が向上するだけでなく、ツールを使用しながら批判的に考え、環境からのフィードバックに基づいて推論プロセスを調整することもできます。

結論は

全体的に、今回TongyiがリリースしたQwQ-32B推論モデルは非常に優れています。

  • まず、32Bの小さなパラメータモデルの性能は、超大きなパラメータ推論モデルに匹敵し、パフォーマンスを確保しながらコンピューティングリソースへの依存度を低減し、より環境に優しく持続可能なAI技術の発展を実現します。
  • 第二に、応答速度も非常に良好で、サーバーの過負荷の問題に遭遇することはありません。
  • 3 番目に、モデル開発にとって非常に重要なfunction callをサポートします。

現在、O1 モデルのリリースからわずか 5 か月で、推論モデルの分野は多様性が繁栄する新しい時代を迎えています。

少し前までは、誰もが「フルパワー」のDeepSeek-R1の使い方をオンラインで探していましたが、ついに小型ながらもパワフルなQwQ-32Bモデルが登場しました。このサイズはローカルへの導入を容易にし、Alibaba Cloudプラットフォーム上のQwQ APIを用いた開発を可能にします。起業家、小規模チーム、あるいはプロフェッショナルなAIアプリケーションの開発を目指す企業にとって、これはコストを大幅に削減します。

2023年8月以来、同益千文は200以上のモデルをオープンソース化してきました。彼らは目立たない存在ではありますが、真摯に取り組み、大規模モデル技術の普及と応用を真摯に促進し、国内の大規模モデルエコシステムの繁栄を育んでいます。

同義前文チームに敬意を表します。

いいね!(3件のいいね!)↓