クレッシーがAofei Temple、QbitAIからレポート | WeChat公式アカウントQbitAIDeepSeek オープンソースウィークは本日正式に終了しました。 その内容は依然として驚くべきものであり、V3 と R1 のトレーニングおよび推論プロセスで使用されるファイル システムが直接明らかにされています。 具体的には、以下の2つの項目が含まれます。
重要な点は、3FS がソリッド ステート ドライブの帯域幅パフォーマンスを最大化し、驚異的な速度を実現できることです。
3FS は、V3 と R1 の両方で、トレーニング データの前処理、データセットの読み込み、埋め込みベクトル検索、KV キャッシュ検索に大きく貢献しました。 ネットユーザーによると、3FSとSmallpondはAIデータ処理の新たなベンチマークを設定し、データ処理の流れを変えるだろうとのことだ。 AIにとって、これは自転車から高速鉄道にアップグレードするようなものです。 SSDとRDMAの性能を最大限に引き出すDeepSeek チームによると、3FS は AI トレーニングと推論ワークロードの課題に対応するために設計された高性能分散ファイルシステムです。 最新の SSD と RDMA ネットワークを利用して共有ストレージ層を提供し、分散アプリケーションの開発を簡素化します。 SSD はソリッド ステート ドライブの略で、RDMA (リモート ダイレクト メモリ アクセス) はダイレクト メモリ アクセス テクノロジです。 両方のコンピュータのオペレーティング システムを介さずに、あるコンピュータのメモリから別のコンピュータに直接データを転送することができ、中央処理装置、CPU キャッシュ、またはコンテキスト切り替えは必要ありません。 高いスループットと低いレイテンシを特徴としており、大規模な並列コンピュータ クラスターでの使用に特に適しています。 具体的には、3FS には次のような特徴があります。
さらに、3FS は、大規模モデルのトレーニングと推論、およびプロセス中のさまざまな種類のアプリケーション ワークロードに適用できます。
大規模な 3FS クラスターでの読み取りテストでは、驚くほど高いスループットが達成されました。 クラスターは 180 個のストレージ ノードで構成され、各ノードには 2×200Gbps InfiniBand ネットワーク カードと 16 個の 14TiB NVMe SSD が搭載されています。 読み取り負荷テストには約 500 台以上のクライアント ノードが使用され、各クライアント ノードには 1x200Gbps InfiniBand ネットワーク カードが構成されました。 トレーニング ジョブのバックグラウンド トラフィックでは、最終的な合計読み取りスループットは約 6.6 TiB/s に達しました。 DeepSeek は、大規模データセットのソートパフォーマンスを測定する GraySort ベンチマークを使用して、3FS 上に構築された smallpond フレームワークも評価しました。 このテストは2つのフェーズで構成されています。まず、キーのプレフィックスビットを用いてシャッフル操作によってデータが分割され、次に各パーティション内でデータがソートされます。どちらのフェーズでも、3FSからのデータの読み取りと書き込みが必要です。 テスト クラスターは、25 個のストレージ ノード (2 つの NUMA ドメイン/ノード、1 つのストレージ サービス/NUMA、2×400 Gbps NIC/ノード) と 50 個のコンピューティング ノード (2 つの NUMA ドメイン、192 個の物理コア、2.2 TiB RAM、1×200 Gbps NIC/ノード) で構成されています。 最終的に、8192 個のパーティションから 110.5 TiB のデータをソートするのに 30 分 14 秒かかり、平均スループットは 3.66 TiB/分でした。 さらに、KV キャッシュ クライアントのピーク読み取りスループットは 40 GiB/s に達しました。 もう一つDeepSeek が過去 5 日間にオープンソース化したコンテンツを振り返ると、そのほぼすべてが AI インフラストラクチャに関連しています。
さらに、コストを大幅に削減し、エネルギー消費を最小限に抑えながら、すべてのハードウェア コンポーネントのパフォーマンスを最大化することに重点が置かれています。 一方、一部のネットユーザーはすでにV4とR2のリリースを心待ちにしている。 これで DeepSeek Open Source Week シリーズは終了ですが、DeepSeek の今後の展開には引き続き注目する価値があります。 ご興味がございましたら、お気軽に QR コードをスキャンし、メッセージに「DeepSeek - 職業/名前」を追加してグループ チャットに参加し、DeepSeek の最新ニュースを入手してください。 プロジェクトアドレス: https://github.com/deepseek-a... 参考リンク: https://x.com/deepseek_ai/status/1895279409185390655 |
DeepSeek の第 5 弾が見事に終了しました。SSD の帯域幅を最大限に高める、まったく新しいオープンソースの並列ファイルシステムが登場しました。
関連するおすすめ記事
-
OpenAI o1 モデルの最も包括的なガイドがここにあります。
-
輝かしい20周年、新たな未来 - 第20回全国高性能コンピューティング会議が2024年に武漢で成功裏に開催されました。
-
物理学者らが新たなタイプの量子粒子を発見!その挙動はボソンとフェルミオンの中間に位置する | Nature
-
iFlytek は、より理解力の高い AI オフィス アシスタントを実現する、Air 2 スマート オフィス ノートブックをリリースしました。
-
DeepSeek V3 が話題になっています。2,000 個の GPU を搭載し、550 万元かけて構築されたこのオープンソース モデルは、数億元かかった OpenAI のモデルと同等の性能を持っています。
-
5分間のライトニングプレゼンテーションの準備方法:COSCon'24 ライトニングプレゼンテーション登録情報