618ZXW

DeepSeek-R1 のフルパワー バージョンに匹敵するパフォーマンスを備えた QwQ-32B のワンクリック デプロイメント チュートリアルが利用可能になりました。

アリババクラウドは昨日、新たな推論モデル「Tongyi Qianwen QwQ-32B」をオープンソース化し、大きな発表を行いました。わずか32Bのパラメータ数で、複数の主要ベンチマークテストにおいて、OpenAI-o1-miniを凌駕し、671Bのパラメータ数を持つ本格的なDeepSeek-R1に匹敵する性能を示しました。QwQ -32Bは優れた性能を誇るだけでなく、高いパフォーマンスを維持しながら導入コストを大幅に削減します。さらに、コンシューマーグレードのグラフィックカードにローカルで導入できるため、パワーとコスト効率を両立したモデルとなっています。

複数のベンチマークテストにおけるQwQ-32BとDeepSeek-R1-671Bなどの推論モデルのパフォーマンス比較

技術的には、QwQ-32Bはコールドスタートに基づく2段階強化学習アプローチを採用しています。第1段階では、数学的バリデータとコードサンドボックスを用いて、モデルの論理的推論能力を強化し、数学的タスクとコーディングタスクに重点を置きます。

第2段階では、従来の報酬モデルを解答検証メカニズムに置き換えます。数学の問題では、結果の正しさに基づいてフィードバックが提供されます。プログラミングタスクでは、テストケースが実行され、サーバーがリアルタイム評価を提供することで、全体的な能力が向上します。さらに、QwQ-32Bはエージェント関連機能を統合し、環境からのフィードバックに基づいて推論プロセスを柔軟に調整することで、モデルの自律性と適応性を大幅に向上させます。

「vLLMを用いたQwQ-32Bのデプロイ」がHyperAIウェブサイトの「チュートリアル」セクションで公開されました。小さなパラメータで大きな効果を実感してください。ぜひご自身でご確認ください。

チュートリアルアドレス:

https://go.hyper.ai/1YmGY

デモ実行中

1. hyper.ai にログインし、「チュートリアル」ページで「vLLM を使用して QwQ-32B をデプロイする」を選択し、「このチュートリアルをオンラインで実行」をクリックします。

2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。

3. 「NVIDIA A6000-2」と「vllm」イメージを選択します。OpenBayesは新しい課金方法を導入しました。ニーズに合わせて「従量課金制」または「日次/週次/月次サブスクリプション」をお選びいただけます。「続行」をクリックしてください。下記の招待リンクから新規登録された方には、RTX 4090を4時間分無料でご利用いただけるほか、CPUを5時間分無料でご利用いただけます。

HyperAI 限定招待リンク (コピーしてブラウザに貼り付けると開きます):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. リソースの割り当てをお待ちください。最初のクローン作成には約2分かかります。ステータスが「実行中」に変わったら、「APIアドレス」の横にあるジャンプ矢印をクリックしてデモページに移動します。APIアドレスアクセス機能を使用する前に、実名認証を完了する必要がありますのでご注意ください。

効果のデモンストレーション

1. QwQ-32BとDeepSeekのどちらが優れているかというオンライン上の議論は白熱しています。QwQ-32Bに聞いて、その答えを聞いてみましょう。

2. ご覧のとおり、QwQ-32B は完全な思考プロセスを示し、複数の視点から客観的な分析を提供します。