618ZXW

DeepSeek の第 5 弾が見事に終了しました。SSD の帯域幅を最大限に高める、まったく新しいオープンソースの並列ファイルシステムが登場しました。

クレッシーがAofei Temple、QbitAIからレポート | WeChat公式アカウントQbitAI

DeepSeek オープンソースウィークは本日正式に終了しました。

その内容は依然として驚くべきものであり、V3 と R1 のトレーニングおよび推論プロセスで使用されるファイル システムが直接明らかにされています。

具体的には、以下の2つの項目が含まれます。

  • Fire-Flyer ファイル システム (略して3FS 、3 番目の F は File の略) は、最新の SSD と RDMA ネットワークの帯域幅をフルに活用する並列ファイル システムです。
  • Smallpond は、3FS と DuckDB 上に構築された軽量データ処理フレームワークです。

重要な点は、3FS がソリッド ステート ドライブの帯域幅パフォーマンスを最大化し、驚異的な速度を実現できることです。

  • 180 ノード クラスターの合計読み取りスループットは 6.6 TiB/s です。
  • 25 ノード クラスターでの GraySort ベンチマークのスループットは 3.66 TiB/分です。
  • 各クライアント ノードでの KVCache ルックアップのピーク スループットは 40 GiB/s を超えます。

3FS は、V3 と R1 の両方で、トレーニング データの前処理、データセットの読み込み、埋め込みベクトル検索、KV キャッシュ検索に大きく貢献しました。

ネットユーザーによると、3FSとSmallpondはAIデータ処理の新たなベンチマークを設定し、データ処理の流れを変えるだろうとのことだ。

AIにとって、これは自転車から高速鉄道にアップグレードするようなものです。

SSDとRDMAの性能を最大限に引き出す

DeepSeek チームによると、3FS は AI トレーニングと推論ワークロードの課題に対応するために設計された高性能分散ファイルシステムです。

最新の SSD と RDMA ネットワークを利用して共有ストレージ層を提供し、分散アプリケーションの開発を簡素化します。

SSD はソリッド ステート ドライブの略で、RDMA (リモート ダイレクト メモリ アクセス) はダイレクト メモリ アクセス テクノロジです。

両方のコンピュータのオペレーティング システムを介さずに、あるコンピュータのメモリから別のコンピュータに直接データを転送することができ、中央処理装置、CPU キャッシュ、またはコンテキスト切り替えは必要ありません。

高いスループットと低いレイテンシを特徴としており、大規模な並列コンピュータ クラスターでの使用に特に適しています。

具体的には、3FS には次のような特徴があります。

  • 分散アーキテクチャ: 数千の SSD のスループットと数百のストレージ ノードのネットワーク帯域幅を組み合わせることで、アプリケーションは場所に依存しない方法でストレージ リソースにアクセスできるようになります。
  • 強力な一貫性は、割り当てクエリの連鎖レプリケーション (CRAQ) を通じて実現され、アプリケーション コードが簡素化され、理解しやすくなります。
  • ファイル インターフェイス: ファイル インターフェイスはよく知られており、すぐに利用できるため、新しいストレージ API を学習する必要はありません。

さらに、3FS は、大規模モデルのトレーニングと推論、およびプロセス中のさまざまな種類のアプリケーション ワークロードに適用できます。

  • データ準備: データ分析パイプラインの出力を階層的なディレクトリ構造に再編成し、多数の中間出力を効率的に管理します。
  • データ ローダー: コンピューティング ノード間でトレーニング サンプルにランダムにアクセスすることで、データセットのプリフェッチやシャッフルを行う必要がなくなります。
  • チェックポイント: 大規模なトレーニングをサポートする高スループットの並列チェックポイント。
  • 推論用の KV キャッシュ: DRAM ベースのキャッシュに代わるコスト効率の高い代替手段を提供し、高いスループットと大きな容量を実現します。

大規模な 3FS クラスターでの読み取りテストでは、驚くほど高いスループットが達成されました。

クラスターは 180 個のストレージ ノードで構成され、各ノードには 2×200Gbps InfiniBand ネットワーク カードと 16 個の 14TiB NVMe SSD が搭載されています。

読み取り負荷テストには約 500 台以上のクライアント ノードが使用され、各クライアント ノードには 1x200Gbps InfiniBand ネットワーク カードが構成されました。

トレーニング ジョブのバックグラウンド トラフィックでは、最終的な合計読み取りスループットは約 6.6 TiB/s に達しました。

DeepSeek は、大規模データセットのソートパフォーマンスを測定する GraySort ベンチマークを使用して、3FS 上に構築された smallpond フレームワークも評価しました。

このテストは2つのフェーズで構成されています。まず、キーのプレフィックスビットを用いてシャッフル操作によってデータが分割され、次に各パーティション内でデータがソートされます。どちらのフェーズでも、3FSからのデータの読み取りと書き込みが必要です。

テスト クラスターは、25 個のストレージ ノード (2 つの NUMA ドメイン/ノード、1 つのストレージ サービス/NUMA、2×400 Gbps NIC/ノード) と 50 個のコンピューティング ノード (2 つの NUMA ドメイン、192 個の物理コア、2.2 TiB RAM、1×200 Gbps NIC/ノード) で構成されています。

最終的に、8192 個のパーティションから 110.5 TiB のデータをソートするのに 30 分 14 秒かかり、平均スループットは 3.66 TiB/分でした。

さらに、KV キャッシュ クライアントのピーク読み取りスループットは 40 GiB/s に達しました。

もう一つ

DeepSeek が過去 5 日間にオープンソース化したコンテンツを振り返ると、そのほぼすべてが AI インフラストラクチャに関連しています。

  • 初日に、DeepSeek 独自の MLA アーキテクチャの高性能バージョンである FlashMLA アーキテクチャが、H800 のコンピューティング限界を直接突破しました。
  • 翌日、MoE モデルのトレーニングと推論用の最初のオープンソース EP 通信ライブラリである DeepEP が、高スループットと低レイテンシの全 GPU カーネルを提供しました。
  • 3 日目は、わずか 300 行のコードを持つ汎用行列乗算ライブラリである DeepGEMM が、V3/R1 のトレーニングと推論の鍵となります。
  • 4 日目には、革新的な双方向パイプライン並列アルゴリズム DualPipe、MoE 向け負荷分散アルゴリズム EPLB、トレーニングおよび推論フレームワークのパフォーマンス分析データの 3 つのソースが連続して公開されました。
  • 5 日目: 3FS と Smallpond、効率的な分散ファイル システムとそれに基づくデータ処理フレームワーク。

さらに、コストを大幅に削減し、エネルギー消費を最小限に抑えながら、すべてのハードウェア コンポーネントのパフォーマンスを最大化することに重点が置かれています。

一方、一部のネットユーザーはすでにV4とR2のリリースを心待ちにしている。

これで DeepSeek Open Source Week シリーズは終了ですが、DeepSeek の今後の展開には引き続き注目する価値があります。

ご興味がございましたら、お気軽に QR コードをスキャンし、メッセージに「DeepSeek - 職業/名前」を追加してグループ チャットに参加し、DeepSeek の最新ニュースを入手してください

プロジェクトアドレス: https://github.com/deepseek-a... 参考リンク: https://x.com/deepseek_ai/status/1895279409185390655