|
青飛寺の白焦発 量子ビット | WeChat公式アカウント QbitAI DeepSeekオープンソースウィーク1日目:コスト削減テクニックを公開 — FlashMLA はH800 の計算限界を直接突破します。 ネットユーザー:どうしてこんなことが可能なのか? これは、Hopper GPU 用に開発された高効率 MLA デコード カーネルであり、可変長シーケンスに特化して最適化されており、現在製品化されています。 MLAは、DeepSeekが提唱する革新的なアテンションアーキテクチャです。V2以降、MLAはDeepSeekの一連のモデルの実装コストを大幅に削減しながら、トップクラスのモデルと同等の計算性能と推論性能を維持しています。 公式紹介によれば、FlashMLA を使用すると、 H800 は 3000GB/s のメモリと 580TFLOPS のコンピューティング性能を実現できるとのことです。 ネットユーザーはチームを称賛し、次のようにコメントしました。「Hopper のテンソル カーネルからあらゆる FLOP を絞り出したエンジニアリング チームに敬意を表します。これこそが、LLM サービスを新たな境地へと押し上げる方法です。」 すでに一部のネットユーザーが使い始めています。 オープンソースの1日目: FlashMLAGitHubページが更新されました。わずか1時間で、すでに1,200以上のスターを獲得しています。 これはすでにリリースされています:
クイックスタート: 環境要件:
プロジェクトの最後には、 FlashAttention 2 & 3とNVIDIA の CUTLASS プロジェクトからインスピレーションを得たとも述べられています。 FlashAttentionは、高速かつメモリ効率に優れた精密アテンションを実現する手法であり、多くの主流の大規模モデルで採用されています。最新の第3世代では、 H100の利用率を75%まで向上させることができます。学習速度は1.5~2倍向上し、FP16での計算スループットは740TFLOPS/sに達し、理論上の最大スループットの75%を達成することで、計算リソースをより有効に活用します。以前は35%しか達成できませんでした。 中心著者は、プリンストン大学の著名人であり、Together AI の主任科学者である Tri Dao 氏です。 NVIDIA CUTLASS は、CUDA 内のすべてのレベルとスケールで高性能行列間乗算 (GEMM) と関連する計算を実装するために使用される CUDA C++ テンプレート抽象化のコレクションです。 MLA、DeepSeekの基本アーキテクチャ最後に、モデルのパフォーマンスを維持しながら、Transformer モデルの推論効率とメモリ使用量を最適化することを目的とした、DeepSeek シリーズのモデルの基本アーキテクチャであるマルチヘッド潜在的注意メカニズムである MLA について説明します。 低ランクジョイント圧縮を用いて、マルチヘッドアテンションからキーと値の行列を低次元潜在空間に投影することで、キーバリューキャッシュ(KVキャッシュ)のストレージ要件を大幅に削減します。このアプローチは、従来の手法ではKV行列全体を保存する必要があるのに対し、MLAでは圧縮によってキー情報のみが保持されるため、特に長いシーケンス処理において重要です。 バージョンV2では、この革新的なアーキテクチャにより、メモリ使用量が従来最も一般的に使用されていたMHAアーキテクチャの5%~13%に削減され、大幅なコスト削減が実現しました。推論コストはLlama 370Bの7分の1、GPT-4 Turboの70分の1にまで低減されています。 V3では、このコスト削減と速度向上がさらに顕著になり、DeepSeekは世界的な注目を集めるようになりました。 今日、DeepSeek-R1 は HuggingFace で 10,000 件を超える「いいね!」を獲得し、プラットフォーム上の約 150 万のモデルの中で最も人気のある大型モデルとなりました。 HuggingFaceのCEOは投稿でこの朗報を発表した。 クジラが波を立てている! さて、今後 4 日間で何が投稿されるか楽しみにしていましょう。 GitHub リンク: https://github.com/deepseek-a... 参考リンク: https://x.com/deepseek_ai/status/1893836827574030466 |
DeepSeek は H800 のパフォーマンス限界を突破し、FlashMLA は大幅に改善されたオープンソースであり、コンピューティング コストをさらに削減できます。
関連するおすすめ記事
-
アリババの有名なオープンソース プロジェクトが正式に廃止を発表した。これは痛手だ。
-
Tsinghua NLP オープンソース RAG フレームワークはすぐに使用でき、モデル選択の手間をかけずに知識ベースに自動的に適応します。
-
GM グレードの L4 自動運転企業として初めて株式を公開: Waymo の創設メンバーによって設立されたが、年間を通じて収益がなく、時価総額が半分以上消滅した。
-
NewOne Technologyのワンフレーム制作向け3つの主要製品アップデート:コンテンツ制作の未来トレンドをリード
-
PPTV 創設者 Yao Xin 氏は新たな AI ベンチャーを立ち上げており、ついに「分散推論」に取り組む人物が現れた。
-
テレンス・タオ氏に続いて、セーラム数学賞を受賞した中国人もおり、彼も90年代以降の世代である。