|
DeepSeek-R1は国内外で人気を博していますが、推論サーバーが頻繁にクラッシュし、GPU時間単位で課金される専用バージョンの高額なコストにより、中小規模のチームには手が届きません。 市場に出回っているいわゆる「ローカル展開」ソリューションのほとんどは、パラメータを90%削減しただけのシンプルなバージョンです。これは、671B MoEアーキテクチャのビデオメモリ要件が非常に高く、A100カードを8枚搭載しても処理が困難であるためです。そのため、小規模なローカルハードウェア構成で真のDeepSeek-R1を実行することは事実上不可能と考えられています。 しかし、つい最近、清華大学の KVCache.AI チームと TrendForce が共同でリリースしたKTransformersオープンソース プロジェクトが更新されました。 24GBのGPUメモリを搭載し、DeepSeek-R1およびV3のフル機能版(671B)をローカルで実行できます。前処理速度は最大286トークン/秒、推論生成速度は最大14トークン/秒に達します。 実際、DeepSeek-V2 の時代に、このプロジェクトは「エキスパート アンインストール」テクノロジですでに大きな注目を集めていました。このテクノロジにより、236 バイトの大規模なモデルを 24GB のビデオ メモリのみを搭載したコンシューマー グレードのグラフィック カードでスムーズに実行できるようになり、ビデオ メモリの要件が 10 分の 1 に削減されました。 △HuggingFaceのオープンソースリーダーからの賛辞 DeepSeek-R1 のリリースにより、コミュニティの需要が急速に高まり、GitHub 上でサポートを求める問題が数百件発生しました。 バージョンアップデートのリリース後、多くの開発者が3090グラフィックカードと200GBのメモリを搭載した実環境テストを実施しました。Unslothとの最適化の組み合わせにより、Q2_K_XLモデルの推論速度は9.1トークン/秒に達し、まさに兆レベルモデルの「ファミリーライク」を実現しました。 さらに、KTransformersチームはv0.3プレビュー版のパフォーマンスメトリクスも公開しました。Intel AMX命令セットの統合により、 CPUの事前充填速度は最大286トークン/秒に達し、llama.cppの約28倍の高速化を実現しています。数万トークンのコンテキストを処理する必要がある長いシーケンスタスク(大規模なコードベース分析など)の場合、これは「分単位の待機」から「秒単位の応答」へと瞬時に移行することに相当し、CPUのコンピューティングパワーの潜在能力を完全に解き放ちます。 さらに、KTransformersはHugginface Transformersと互換性のあるAPIとChatGPTスタイルのWebインターフェースを提供しており、学習曲線を大幅に短縮します。さらに、YAMLベースのテンプレートインジェクションフレームワークにより、量子化戦略、カーネル置換、その他の最適化手法を柔軟に切り替えることができます。 現在、KTransformers は localLLaMa コミュニティのトレンド リストで常に 1 位にランクされており、開発者間で何百もの議論が行われています。 チームは、プロジェクトの背後にある技術的な側面についても詳細な説明を提供しました。 MoEアーキテクチャのスパース性を活用するDeepSeek-R1/V3はどちらもMoE(ハイブリッドエキスパート)アーキテクチャを採用しています。このアーキテクチャの中核は、モデル内のタスクをそれぞれ特定の種類のタスクに特化した複数のエキスパートモジュールに分散させることです。MoE構造のモデルは強いスパース性を示し、推論タスクを実行する際には、モデルパラメータのサブセットのみが一度に有効になります。 したがって、MoE アーキテクチャでは大量のストレージ スペースが必要になりますが、コンピューティング リソースはそれほど必要ありません。 これを基に、チームは GPU/CPU の異種コンピューティング分割戦略を採用しました。共有されない部分のスパース MoE マトリックスのみを CPU/DRAM に配置して llamafile が提供する高速演算子を使用して処理し、残りの密な部分を GPU に配置して Marlin 演算子を使用して処理しました。 この場合、同じ 4 ビットの量子化を使用すると、GPU のパラメータに必要なビデオ メモリは 24 GB のみとなり、このような消費は 1 つの 4090 で対応できます。 さらに、この組み合わせにより、全体的な推論パフォーマンスが大幅に向上し、事前入力速度 286 トークン/秒、生成速度 14 トークン/秒が達成され、これは llama.cpp よりも 28 倍高速です。 具体的な技術的実装に関しては、計算強度ベースのオフロード戦略、高性能 CPU および GPU オペレーター、CUDA グラフ アクセラレーションなど、推論速度を高速化するためのさまざまな方法を採用しました。 計算強度に基づくオフロード戦略Attentionの中核には、DeepSeekがGPUのコンピューティングパワーを最大限に活用し、効率を大幅に向上させる新しいMLA演算子が導入されています。しかし、公式オープンソース版v2では、MLA演算子は計算のためにMLAをMHAに拡張します。この処理はKVキャッシュサイズを増加させるだけでなく、推論パフォーマンスを低下させます。 MLAの性能を最大限に引き出すために、チームはKTransformers推論フレームワーク内のq_projとout_projの重みに行列を直接組み込みました。そのため、圧縮表現ではアテンション機構を計算するために解凍する必要はありません。 この調整により、KV キャッシュ サイズが大幅に削減され、演算子の演算能力が向上し、GPU コンピューティング能力の利用が大幅に最適化されます。 計算において、MLAとExpertの計算負荷は数千倍も異なります。そのため、チームは計算負荷に基づいてパーティショニング戦略を決定し、計算負荷の高いコンポーネントをGPUに優先的に配置しました(MLA > Shared Expert > Routed Expert)。これは、GPUが対応できないほど負荷の高いコンポーネントを配置することを意味します。 CPUとGPU向けの高性能演算子CPUオペレータでは、チームはCPUコアとしてllamafileを使用し、エキスパート並列処理などの最適化を駆使して、高性能オペレータフレームワークCPUInferを構築しました。さらに、マルチスレッド、タスクスケジューリング、負荷分散、NUMA認識といった最適化も追加されました。 GPU演算子の利用に関しては、チームはGPUコンピューティングの中核としてMarlin演算子を導入しました。Marlin演算子は量子化行列計算を非常に効率的に実行できます。量子化行列乗算を実行するTorchなどのライブラリと比較して、Marlin演算子を用いてGPU上で計算を完了すると、約3.87倍の理想的な高速化を実現できます。 CUDA Graph の改善と最適化推論パフォーマンスとフレームワーク自体の使いやすさおよびスケーラビリティのバランスをとるには、Python に基づいて KTransformers フレームワークを構築し、CUDA Graph を使用して Python 呼び出しのオーバーヘッドを削減することが避けられない選択です。 KTransformers は、CUDA Graph を使用するときに CPU/GPU 通信によって発生するブレークポイントを最小限に抑え、CPU 異種オペレータ通信を CUDA Graph に組み込み、最終的にデコード操作ごとに 1 つの完全な CUDA Graph 呼び出しのみが実行される結果を実現します。 柔軟で効率的な推論実験プラットフォームKTransformersは単なる固定された推論フレームワークではなく、DeepSeekモデルの推論に限定されていない点も注目に値します。KTransformersは幅広いMoEモデルや演算子と互換性があり、様々な演算子を統合して様々な組み合わせのテストを実行できます。 さらに、Windows および Linux プラットフォームもサポートしており、簡単に操作できます。 大規模モデルが進化を続ける中、KTransformerは異種コンピューティングを用いた新たな推論パスを切り開きます。これにより、研究者は莫大な予算をかけずにモデルの本質を探求できるようになります。 GitHub アドレス: https://github.com/kvcache-ai... - 以上- |
清華大学チームのオープンソース プロジェクトは、単一の 4090 GPU で DeepSeek-R1 のフルパワー バージョンを実行することにより、大規模モデル推論の壁を再び突破しました。
関連するおすすめ記事
-
ストーリーやキャラクターを自由にカスタマイズできる、大規模モデル生成RPGゲーム!Googleが開発し、作者の一人は上海交通大学の卒業生です。
-
ISC.AI 2024 での Zhou Hongyi 氏: 大規模なセキュリティ モデルを実装するための鍵は、「スター シナリオ」を特定することです。
-
清華大学のオープンソース混合精度推論システム MixQ は、大規模モデルのほぼロスレスな量子化を実現し、推論スループットを向上させます。
-
30 万キロメートルあたり 1 件の事故: この企業は AI ドライバーに迅速な反復処理の権限を与えています。
-
ポストオープンソース時代: オープンソースの作者はもはや乞食ではなく、受益者です。
-
ByteDanceと清華大学AIRが共同研究センターを設立し、大規模モデリングにおける産学研究協力を推進。