DeepSeek の第 5 弾が見事に終了しました。SSD の帯域幅を最大限に高める、まったく新しいオープンソースの並列ファイルシステムが登場しました。

クレッシーがAofei Temple、QbitAIからレポート | WeChat公式アカウントQbitAI

DeepSeek オープンソースウィークは本日正式に終了しました。

その内容は依然として驚くべきものであり、V3 と R1 のトレーニングおよび推論プロセスで使用されるファイルシステムが直接明らかにされています。

具体的には、以下の2つの項目が含まれます。

Fire-Flyer ファイルシステム (略して3FS 、3 番目の F は File の略) は、最新の SSD と RDMA ネットワークの帯域幅をフルに活用する並列ファイルシステムです。
Smallpond は、3FS と DuckDB 上に構築された軽量データ処理フレームワークです。

重要な点は、3FS がソリッドステートドライブの帯域幅パフォーマンスを最大化し、驚異的な速度を実現できることです。

180 ノードクラスターの合計読み取りスループットは 6.6 TiB/s です。
25 ノードクラスターでの GraySort ベンチマークのスループットは 3.66 TiB/分です。
各クライアントノードでの KVCache ルックアップのピークスループットは 40 GiB/s を超えます。

3FS は、V3 と R1 の両方で、トレーニングデータの前処理、データセットの読み込み、埋め込みベクトル検索、KV キャッシュ検索に大きく貢献しました。

ネットユーザーによると、3FSとSmallpondはAIデータ処理の新たなベンチマークを設定し、データ処理の流れを変えるだろうとのことだ。

AIにとって、これは自転車から高速鉄道にアップグレードするようなものです。

SSDとRDMAの性能を最大限に引き出す

DeepSeek チームによると、3FS は AI トレーニングと推論ワークロードの課題に対応するために設計された高性能分散ファイルシステムです。

最新の SSD と RDMA ネットワークを利用して共有ストレージ層を提供し、分散アプリケーションの開発を簡素化します。

SSD はソリッドステートドライブの略で、RDMA (リモートダイレクトメモリアクセス) はダイレクトメモリアクセステクノロジです。

両方のコンピュータのオペレーティングシステムを介さずに、あるコンピュータのメモリから別のコンピュータに直接データを転送することができ、中央処理装置、CPU キャッシュ、またはコンテキスト切り替えは必要ありません。

高いスループットと低いレイテンシを特徴としており、大規模な並列コンピュータクラスターでの使用に特に適しています。

具体的には、3FS には次のような特徴があります。

分散アーキテクチャ: 数千の SSD のスループットと数百のストレージノードのネットワーク帯域幅を組み合わせることで、アプリケーションは場所に依存しない方法でストレージリソースにアクセスできるようになります。
強力な一貫性は、割り当てクエリの連鎖レプリケーション (CRAQ) を通じて実現され、アプリケーションコードが簡素化され、理解しやすくなります。
ファイルインターフェイス: ファイルインターフェイスはよく知られており、すぐに利用できるため、新しいストレージ API を学習する必要はありません。

さらに、3FS は、大規模モデルのトレーニングと推論、およびプロセス中のさまざまな種類のアプリケーションワークロードに適用できます。

データ準備: データ分析パイプラインの出力を階層的なディレクトリ構造に再編成し、多数の中間出力を効率的に管理します。
データローダー: コンピューティングノード間でトレーニングサンプルにランダムにアクセスすることで、データセットのプリフェッチやシャッフルを行う必要がなくなります。
チェックポイント: 大規模なトレーニングをサポートする高スループットの並列チェックポイント。
推論用の KV キャッシュ: DRAM ベースのキャッシュに代わるコスト効率の高い代替手段を提供し、高いスループットと大きな容量を実現します。

大規模な 3FS クラスターでの読み取りテストでは、驚くほど高いスループットが達成されました。

クラスターは 180 個のストレージノードで構成され、各ノードには 2×200Gbps InfiniBand ネットワークカードと 16 個の 14TiB NVMe SSD が搭載されています。

読み取り負荷テストには約 500 台以上のクライアントノードが使用され、各クライアントノードには 1x200Gbps InfiniBand ネットワークカードが構成されました。

トレーニングジョブのバックグラウンドトラフィックでは、最終的な合計読み取りスループットは約 6.6 TiB/s に達しました。

DeepSeek は、大規模データセットのソートパフォーマンスを測定する GraySort ベンチマークを使用して、3FS 上に構築された smallpond フレームワークも評価しました。

このテストは2つのフェーズで構成されています。まず、キーのプレフィックスビットを用いてシャッフル操作によってデータが分割され、次に各パーティション内でデータがソートされます。どちらのフェーズでも、3FSからのデータの読み取りと書き込みが必要です。

テストクラスターは、25 個のストレージノード (2 つの NUMA ドメイン/ノード、1 つのストレージサービス/NUMA、2×400 Gbps NIC/ノード) と 50 個のコンピューティングノード (2 つの NUMA ドメイン、192 個の物理コア、2.2 TiB RAM、1×200 Gbps NIC/ノード) で構成されています。

最終的に、8192 個のパーティションから 110.5 TiB のデータをソートするのに 30 分 14 秒かかり、平均スループットは 3.66 TiB/分でした。

さらに、KV キャッシュクライアントのピーク読み取りスループットは 40 GiB/s に達しました。

もう一つ

DeepSeek が過去 5 日間にオープンソース化したコンテンツを振り返ると、そのほぼすべてが AI インフラストラクチャに関連しています。

初日に、DeepSeek 独自の MLA アーキテクチャの高性能バージョンである FlashMLA アーキテクチャが、H800 のコンピューティング限界を直接突破しました。
翌日、MoE モデルのトレーニングと推論用の最初のオープンソース EP 通信ライブラリである DeepEP が、高スループットと低レイテンシの全 GPU カーネルを提供しました。
3 日目は、わずか 300 行のコードを持つ汎用行列乗算ライブラリである DeepGEMM が、V3/R1 のトレーニングと推論の鍵となります。
4 日目には、革新的な双方向パイプライン並列アルゴリズム DualPipe、MoE 向け負荷分散アルゴリズム EPLB、トレーニングおよび推論フレームワークのパフォーマンス分析データの 3 つのソースが連続して公開されました。
5 日目: 3FS と Smallpond、効率的な分散ファイルシステムとそれに基づくデータ処理フレームワーク。

さらに、コストを大幅に削減し、エネルギー消費を最小限に抑えながら、すべてのハードウェアコンポーネントのパフォーマンスを最大化することに重点が置かれています。

一方、一部のネットユーザーはすでにV4とR2のリリースを心待ちにしている。

これで DeepSeek Open Source Week シリーズは終了ですが、DeepSeek の今後の展開には引き続き注目する価値があります。

ご興味がございましたら、お気軽に QR コードをスキャンし、メッセージに「DeepSeek - 職業/名前」を追加してグループチャットに参加し、DeepSeek の最新ニュースを入手してください。

プロジェクトアドレス: https://github.com/deepseek-a... 参考リンク: https://x.com/deepseek_ai/status/1895279409185390655

618ZXW

DeepSeek の第 5 弾が見事に終了しました。SSD の帯域幅を最大限に高める、まったく新しいオープンソースの並列ファイルシステムが登場しました。

クレッシーがAofei Temple、QbitAIからレポート | WeChat公式アカウントQbitAI

SSDとRDMAの性能を最大限に引き出す

もう一つ

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ