清華大学チームのオープンソースプロジェクトは、単一の 4090 GPU で DeepSeek-R1 のフルパワーバージョンを実行することにより、大規模モデル推論の壁を再び突破しました。

DeepSeek-R1は国内外で人気を博していますが、推論サーバーが頻繁にクラッシュし、GPU時間単位で課金される専用バージョンの高額なコストにより、中小規模のチームには手が届きません。

市場に出回っているいわゆる「ローカル展開」ソリューションのほとんどは、パラメータを90%削減しただけのシンプルなバージョンです。これは、671B MoEアーキテクチャのビデオメモリ要件が非常に高く、A100カードを8枚搭載しても処理が困難であるためです。そのため、小規模なローカルハードウェア構成で真のDeepSeek-R1を実行することは事実上不可能と考えられています。

しかし、つい最近、清華大学の KVCache.AI チームと TrendForce が共同でリリースしたKTransformersオープンソースプロジェクトが更新されました。

24GBのGPUメモリを搭載し、DeepSeek-R1およびV3のフル機能版（671B）をローカルで実行できます。前処理速度は最大286トークン/秒、推論生成速度は最大14トークン/秒に達します。

実際、DeepSeek-V2 の時代に、このプロジェクトは「エキスパートアンインストール」テクノロジですでに大きな注目を集めていました。このテクノロジにより、236 バイトの大規模なモデルを 24GB のビデオメモリのみを搭載したコンシューマーグレードのグラフィックカードでスムーズに実行できるようになり、ビデオメモリの要件が 10 分の 1 に削減されました。

△HuggingFaceのオープンソースリーダーからの賛辞

DeepSeek-R1 のリリースにより、コミュニティの需要が急速に高まり、GitHub 上でサポートを求める問題が数百件発生しました。

バージョンアップデートのリリース後、多くの開発者が3090グラフィックカードと200GBのメモリを搭載した実環境テストを実施しました。Unslothとの最適化の組み合わせにより、Q2_K_XLモデルの推論速度は9.1トークン/秒に達し、まさに兆レベルモデルの「ファミリーライク」を実現しました。

さらに、KTransformersチームはv0.3プレビュー版のパフォーマンスメトリクスも公開しました。Intel AMX命令セットの統合により、 CPUの事前充填速度は最大286トークン/秒に達し、llama.cppの約28倍の高速化を実現しています。数万トークンのコンテキストを処理する必要がある長いシーケンスタスク（大規模なコードベース分析など）の場合、これは「分単位の待機」から「秒単位の応答」へと瞬時に移行することに相当し、CPUのコンピューティングパワーの潜在能力を完全に解き放ちます。

さらに、KTransformersはHugginface Transformersと互換性のあるAPIとChatGPTスタイルのWebインターフェースを提供しており、学習曲線を大幅に短縮します。さらに、YAMLベースのテンプレートインジェクションフレームワークにより、量子化戦略、カーネル置換、その他の最適化手法を柔軟に切り替えることができます。

現在、KTransformers は localLLaMa コミュニティのトレンドリストで常に 1 位にランクされており、開発者間で何百もの議論が行われています。

チームは、プロジェクトの背後にある技術的な側面についても詳細な説明を提供しました。

MoEアーキテクチャのスパース性を活用する

DeepSeek-R1/V3はどちらもMoE（ハイブリッドエキスパート）アーキテクチャを採用しています。このアーキテクチャの中核は、モデル内のタスクをそれぞれ特定の種類のタスクに特化した複数のエキスパートモジュールに分散させることです。MoE構造のモデルは強いスパース性を示し、推論タスクを実行する際には、モデルパラメータのサブセットのみが一度に有効になります。

したがって、MoE アーキテクチャでは大量のストレージスペースが必要になりますが、コンピューティングリソースはそれほど必要ありません。

これを基に、チームは GPU/CPU の異種コンピューティング分割戦略を採用しました。共有されない部分のスパース MoE マトリックスのみを CPU/DRAM に配置して llamafile が提供する高速演算子を使用して処理し、残りの密な部分を GPU に配置して Marlin 演算子を使用して処理しました。

この場合、同じ 4 ビットの量子化を使用すると、GPU のパラメータに必要なビデオメモリは 24 GB のみとなり、このような消費は 1 つの 4090 で対応できます。

さらに、この組み合わせにより、全体的な推論パフォーマンスが大幅に向上し、事前入力速度 286 トークン/秒、生成速度 14 トークン/秒が達成され、これは llama.cpp よりも 28 倍高速です。

具体的な技術的実装に関しては、計算強度ベースのオフロード戦略、高性能 CPU および GPU オペレーター、CUDA グラフアクセラレーションなど、推論速度を高速化するためのさまざまな方法を採用しました。

計算強度に基づくオフロード戦略

Attentionの中核には、DeepSeekがGPUのコンピューティングパワーを最大限に活用し、効率を大幅に向上させる新しいMLA演算子が導入されています。しかし、公式オープンソース版v2では、MLA演算子は計算のためにMLAをMHAに拡張します。この処理はKVキャッシュサイズを増加させるだけでなく、推論パフォーマンスを低下させます。

MLAの性能を最大限に引き出すために、チームはKTransformers推論フレームワーク内のq_projとout_projの重みに行列を直接組み込みました。そのため、圧縮表現ではアテンション機構を計算するために解凍する必要はありません。

この調整により、KV キャッシュサイズが大幅に削減され、演算子の演算能力が向上し、GPU コンピューティング能力の利用が大幅に最適化されます。

計算において、MLAとExpertの計算負荷は数千倍も異なります。そのため、チームは計算負荷に基づいてパーティショニング戦略を決定し、計算負荷の高いコンポーネントをGPUに優先的に配置しました（MLA > Shared Expert > Routed Expert）。これは、GPUが対応できないほど負荷の高いコンポーネントを配置することを意味します。

CPUとGPU向けの高性能演算子

CPUオペレータでは、チームはCPUコアとしてllamafileを使用し、エキスパート並列処理などの最適化を駆使して、高性能オペレータフレームワークCPUInferを構築しました。さらに、マルチスレッド、タスクスケジューリング、負荷分散、NUMA認識といった最適化も追加されました。

GPU演算子の利用に関しては、チームはGPUコンピューティングの中核としてMarlin演算子を導入しました。Marlin演算子は量子化行列計算を非常に効率的に実行できます。量子化行列乗算を実行するTorchなどのライブラリと比較して、Marlin演算子を用いてGPU上で計算を完了すると、約3.87倍の理想的な高速化を実現できます。

CUDA Graph の改善と最適化

推論パフォーマンスとフレームワーク自体の使いやすさおよびスケーラビリティのバランスをとるには、Python に基づいて KTransformers フレームワークを構築し、CUDA Graph を使用して Python 呼び出しのオーバーヘッドを削減することが避けられない選択です。

KTransformers は、CUDA Graph を使用するときに CPU/GPU 通信によって発生するブレークポイントを最小限に抑え、CPU 異種オペレータ通信を CUDA Graph に組み込み、最終的にデコード操作ごとに 1 つの完全な CUDA Graph 呼び出しのみが実行される結果を実現します。

柔軟で効率的な推論実験プラットフォーム

KTransformersは単なる固定された推論フレームワークではなく、DeepSeekモデルの推論に限定されていない点も注目に値します。KTransformersは幅広いMoEモデルや演算子と互換性があり、様々な演算子を統合して様々な組み合わせのテストを実行できます。

さらに、Windows および Linux プラットフォームもサポートしており、簡単に操作できます。

大規模モデルが進化を続ける中、KTransformerは異種コンピューティングを用いた新たな推論パスを切り開きます。これにより、研究者は莫大な予算をかけずにモデルの本質を探求できるようになります。

GitHub アドレス: https://github.com/kvcache-ai...
詳細な技術情報については、https://zhuanlan.zhihu.com/p/... をご覧ください。

- 以上-

618ZXW

清華大学チームのオープンソースプロジェクトは、単一の 4090 GPU で DeepSeek-R1 のフルパワーバージョンを実行することにより、大規模モデル推論の壁を再び突破しました。

MoEアーキテクチャのスパース性を活用する

計算強度に基づくオフロード戦略

CPUとGPU向けの高性能演算子

CUDA Graph の改善と最適化

柔軟で効率的な推論実験プラットフォーム

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ