この CPU を使用すると、単一の GPU で DeepSeek-R1 をフルパワーで実行でき、Xeon + AMX により高速な事前入力速度が可能になります。

DeepSeek-R1は国内外で人気を博していますが、推論サーバーが頻繁にクラッシュし、GPU時間単位で課金される専用バージョンの高額なコストにより、中小規模のチームには手が届きません。

市場に出回っているいわゆる「ローカル展開」ソリューションのほとんどは、パラメータを90%削減しただけのシンプルなバージョンです。これは、671B MoEアーキテクチャのビデオメモリ要件が非常に高く、A100カードを8枚搭載しても処理が困難であるためです。そのため、小規模なローカルハードウェア構成で真のDeepSeek-R1を実行することは事実上不可能と考えられています。

しかし最近、清華大学のKVCache.AIチームはTrendForceと共同で、オープンソースプロジェクト「KTransformers」のアップデートをリリースしました。これは、24GBのGPUメモリを搭載したローカル環境で動作する、本格的な671B版DeepSeek-R1およびV3をサポートするものです。前処理速度は最大286トークン/秒、推論生成速度は最大14トークン/秒に達します。このプロジェクトのユニークな特徴は、革新的なヘテロジニアスプラットフォーム設計にあります。これにより、GPU使用量が大幅に削減され（必要なのは1枚のカードのみ）、これまでDeepSeekアクセラレーションではほとんど見られなかったCPUが真価を発揮できるようになります。

実際、DeepSeek-V2 の時代に、このプロジェクトは「エキスパートアンインストール」テクノロジですでに大きな注目を集めていました。このテクノロジにより、236 バイトの大規模なモデルを 24GB のビデオメモリのみを搭載したコンシューマーグレードのグラフィックカードでスムーズに実行できるようになり、ビデオメモリの要件が 10 分の 1 に削減されました。

△HuggingFaceのオープンソースリーダーからの賛辞

DeepSeek-R1 のリリースにより、コミュニティの需要が急速に高まり、GitHub 上でサポートを求める問題が数百件発生しました。

バージョンアップデートのリリース後、多くの開発者が3090グラフィックカードと200GBのメモリを搭載した実環境テストを実施しました。Unslothとの最適化の組み合わせにより、Q2_K_XLモデルの推論速度は9.1トークン/秒に達し、まさに兆レベルモデルの「ファミリーライク」を実現しました。

さらに、KTransformersチームはv0.3プレビュー版のパフォーマンスメトリクスも公開し、CPU構成が2つの第4世代Xeonスケーラブルプロセッサで構成されていることを明らかにしました。この世代から、XeonはCPUの「Tensor Core」とも呼ばれるAdvanced Matrix Extensions（AMX）命令セットを統合しています。統合されたIntel AMX命令セットのアクセラレーション機能により、公開されたパフォーマンスメトリクスにおけるCPUのプリフィル速度は最大286トークン/秒に達し、llama.cppの約28倍の速度となっています。数万トークンのコンテキスト処理を必要とする長いシーケンスタスク（大規模なコードベース分析など）の場合、これは「分単位の待機」から「秒単位の応答」への飛躍に相当し、CPUのコンピューティングポテンシャルを完全に解き放ちます。

さらに、KTransformersはHugginface Transformersと互換性のあるAPIとChatGPTスタイルのWebインターフェースを提供しており、学習曲線を大幅に短縮します。さらに、YAMLベースのテンプレートインジェクションフレームワークにより、量子化戦略、カーネル置換、その他の最適化手法を柔軟に切り替えることができます。

現在、KTransformers は localLLaMa コミュニティのトレンドリストで常に 1 位にランクされており、開発者間で何百もの議論が行われています。

チームは、プロジェクトの背後にある技術的な側面についても詳細な説明を提供しました。

MoEアーキテクチャのスパース性を活用する

DeepSeek-R1/V3はどちらもMoE（ハイブリッドエキスパート）アーキテクチャを採用しています。このアーキテクチャの中核は、モデル内のタスクをそれぞれ特定の種類のタスクに特化した複数のエキスパートモジュールに分散させることです。MoE構造のモデルは強いスパース性を示し、推論タスクを実行する際には、モデルパラメータのサブセットのみが一度に有効になります。

したがって、MoE アーキテクチャでは大量のストレージスペースが必要になりますが、コンピューティングリソースはそれほど必要ありません。

これを基に、チームは GPU/CPU の異種コンピューティング分割戦略を採用しました。共有されない部分のスパース MoE マトリックスのみを CPU/DRAM に配置して llamafile が提供する高速演算子を使用して処理し、残りの密な部分を GPU に配置して Marlin 演算子を使用して処理しました。

この場合、同じ 4 ビットの量子化を使用すると、GPU のパラメータに必要なビデオメモリは 24 GB のみとなり、このような消費は 1 つの 4090 で対応できます。

さらに、この組み合わせにより、全体的な推論パフォーマンスが大幅に向上し、事前入力速度 286 トークン/秒、生成速度 14 トークン/秒が達成され、これは llama.cpp よりも 28 倍高速です。

具体的な技術的実装に関しては、計算強度ベースのオフロード戦略、高性能 CPU および GPU オペレーター、CUDA グラフアクセラレーションなど、推論速度を高速化するためのさまざまな方法を採用しました。

計算強度に基づくオフロード戦略

Attentionの中核には、DeepSeekがGPUのコンピューティングパワーを最大限に活用し、効率を大幅に向上させる新しいMLA演算子が導入されています。しかし、公式オープンソース版v2では、MLA演算子は計算のためにMLAをMHAに拡張します。この処理はKVキャッシュサイズを増加させるだけでなく、推論パフォーマンスを低下させます。

MLAの性能を最大限に引き出すために、チームはKTransformers推論フレームワーク内のq_projとout_projの重みに行列を直接組み込みました。そのため、圧縮表現ではアテンション機構を計算するために解凍する必要はありません。

この調整により、KV キャッシュサイズが大幅に削減され、演算子の演算能力が向上し、GPU コンピューティング能力の利用が大幅に最適化されます。

計算において、MLAとExpertの計算負荷は数千倍も異なります。そのため、チームは計算負荷に基づいてパーティショニング戦略を決定し、計算負荷の高いコンポーネントをGPUに優先的に配置しました（MLA > Shared Expert > Routed Expert）。これは、GPUが対応できないほど負荷の高いコンポーネントを配置することを意味します。

CPUとGPU向けの高性能演算子

CPUオペレータでは、チームはCPUコアとしてllamafileを使用し、エキスパート並列処理などの最適化を駆使して、高性能オペレータフレームワークCPUInferを構築しました。さらに、マルチスレッド、タスクスケジューリング、負荷分散、NUMA認識といった最適化も追加されました。

GPU演算子の利用に関しては、チームはGPUコンピューティングの中核としてMarlin演算子を導入しました。Marlin演算子は量子化行列計算を非常に効率的に実行できます。量子化行列乗算を実行するTorchなどのライブラリと比較して、Marlin演算子を用いてGPU上で計算を完了すると、約3.87倍の理想的な高速化を実現できます。

CUDA Graph の改善と最適化

推論パフォーマンスとフレームワーク自体の使いやすさおよびスケーラビリティのバランスをとるには、Python に基づいて KTransformers フレームワークを構築し、CUDA Graph を使用して Python 呼び出しのオーバーヘッドを削減することが避けられない選択です。

KTransformers は、CUDA Graph を使用するときに CPU/GPU 通信によって発生するブレークポイントを最小限に抑え、CPU 異種オペレータ通信を CUDA Graph に組み込み、最終的にデコード操作ごとに 1 つの完全な CUDA Graph 呼び出しのみが実行される結果を実現します。

柔軟で効率的な推論実験プラットフォーム

KTransformersは単なる固定された推論フレームワークではなく、DeepSeekモデルの推論に限定されていない点も注目に値します。KTransformersは幅広いMoEモデルや演算子と互換性があり、様々な演算子を統合して様々な組み合わせのテストを実行できます。

さらに、Windows および Linux プラットフォームもサポートしており、簡単に操作できます。

大規模モデルが進化を続ける中、KTransformerは異種コンピューティングを用いた新たな推論パスを切り開きます。これにより、研究者は莫大な予算をかけずにモデルの本質を探求できるようになります。

次に、Xeon 6を試して、パフォーマンスをさらに向上させます。

清華大学のKVCache.AIチームとTrendForceは、プロジェクトのCPUアップグレードも検討する予定です。現在プレビュー版で使用されているCPUは、Intelが2023年にリリースした旧モデルで、CPUあたり32コアしかありません。しかし、Xeon 6製品ライン、特にXeonパフォーマンスプロセッサ6900Pシリーズは2024年から登場する予定です。このプロセッサは、新しいマイクロアーキテクチャにより、CPUあたり最大128コアの演算密度とAMXを実現します。また、AIや科学計算アプリケーションの高速化を目的とした高帯域幅メモリであるMR-DIMM（8000/8800MT）のサポートも開始されます。

このプロジェクトでは、Xeon 6へのアップグレードによってさらなるパフォーマンス向上がもたらされるかどうか、例えば強化されたAMXによってプリフィル性能がさらに向上するかどうか、MR-DIMMによってメモリ帯域幅と容量に敏感な推論生成が促進されるかどうかなどについて検証することを検討します。今後の展開に期待しましょう。

GitHub アドレス: https://github.com/kvcache-ai... 詳細な技術情報については、https://zhuanlan.zhihu.com/p/... をご覧ください。

*この記事はQuantumBitからの許可を得て公開されており、表現されている見解はオリジナルの著者の見解のみです。

-以上-

618ZXW