DeepSeek は H800 のパフォーマンス限界を突破し、FlashMLA は大幅に改善されたオープンソースであり、コンピューティングコストをさらに削減できます。

青飛寺の白焦発

量子ビット | WeChat公式アカウント QbitAI

DeepSeekオープンソースウィーク1日目：コスト削減テクニックを公開 —

FlashMLA はH800 の計算限界を直接突破します。

ネットユーザー：どうしてこんなことが可能なのか？

これは、Hopper GPU 用に開発された高効率 MLA デコードカーネルであり、可変長シーケンスに特化して最適化されており、現在製品化されています。

MLAは、DeepSeekが提唱する革新的なアテンションアーキテクチャです。V2以降、MLAはDeepSeekの一連のモデルの実装コストを大幅に削減しながら、トップクラスのモデルと同等の計算性能と推論性能を維持しています。

公式紹介によれば、FlashMLA を使用すると、 H800 は 3000GB/s のメモリと 580TFLOPS のコンピューティング性能を実現できるとのことです。

ネットユーザーはチームを称賛し、次のようにコメントしました。「Hopper のテンソルカーネルからあらゆる FLOP を絞り出したエンジニアリングチームに敬意を表します。これこそが、LLM サービスを新たな境地へと押し上げる方法です。」

すでに一部のネットユーザーが使い始めています。

オープンソースの1日目: FlashMLA

GitHubページが更新されました。わずか1時間で、すでに1,200以上のスターを獲得しています。

これはすでにリリースされています:

BF16をサポートします。
ページングキーバリューキャッシュ、ブロックサイズ64

クイックスタート:

環境要件:

ホッパーGPU
CUDA 12.3以上
PyTorch 2.0以上

プロジェクトの最後には、 FlashAttention 2 & 3とNVIDIA の CUTLASS プロジェクトからインスピレーションを得たとも述べられています。

FlashAttentionは、高速かつメモリ効率に優れた精密アテンションを実現する手法であり、多くの主流の大規模モデルで採用されています。最新の第3世代では、 H100の利用率を75%まで向上させることができます。学習速度は1.5～2倍向上し、FP16での計算スループットは740TFLOPS/sに達し、理論上の最大スループットの75%を達成することで、計算リソースをより有効に活用します。以前は35%しか達成できませんでした。

中心著者は、プリンストン大学の著名人であり、Together AI の主任科学者である Tri Dao 氏です。

NVIDIA CUTLASS は、CUDA 内のすべてのレベルとスケールで高性能行列間乗算 (GEMM) と関連する計算を実装するために使用される CUDA C++ テンプレート抽象化のコレクションです。

MLA、DeepSeekの基本アーキテクチャ

最後に、モデルのパフォーマンスを維持しながら、Transformer モデルの推論効率とメモリ使用量を最適化することを目的とした、DeepSeek シリーズのモデルの基本アーキテクチャであるマルチヘッド潜在的注意メカニズムである MLA について説明します。

低ランクジョイント圧縮を用いて、マルチヘッドアテンションからキーと値の行列を低次元潜在空間に投影することで、キーバリューキャッシュ（KVキャッシュ）のストレージ要件を大幅に削減します。このアプローチは、従来の手法ではKV行列全体を保存する必要があるのに対し、MLAでは圧縮によってキー情報のみが保持されるため、特に長いシーケンス処理において重要です。

バージョンV2では、この革新的なアーキテクチャにより、メモリ使用量が従来最も一般的に使用されていたMHAアーキテクチャの5%～13%に削減され、大幅なコスト削減が実現しました。推論コストはLlama 370Bの7分の1、GPT-4 Turboの70分の1にまで低減されています。

V3では、このコスト削減と速度向上がさらに顕著になり、DeepSeekは世界的な注目を集めるようになりました。

今日、DeepSeek-R1 は HuggingFace で 10,000 件を超える「いいね！」を獲得し、プラットフォーム上の約 150 万のモデルの中で最も人気のある大型モデルとなりました。

HuggingFaceのCEOは投稿でこの朗報を発表した。

クジラが波を立てている！

さて、今後 4 日間で何が投稿されるか楽しみにしていましょう。

GitHub リンク: https://github.com/deepseek-a... 参考リンク: https://x.com/deepseek_ai/status/1893836827574030466

618ZXW

DeepSeek は H800 のパフォーマンス限界を突破し、FlashMLA は大幅に改善されたオープンソースであり、コンピューティングコストをさらに削減できます。

オープンソースの1日目: FlashMLA

MLA、DeepSeekの基本アーキテクチャ

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ