618ZXW

「DeepSeek は CUDA さえも凌駕した」という論文の詳細が再び白熱した議論を巻き起こし、エンジニアたちは「Nvidia の競争上の優位性は依然として健在なのか?」という鋭い疑問を投げかけている。

NvidiaはDeepSeek-R1によって引き起こされた4兆元の暴落から回復したばかりだが、現在新たな圧力に直面している。

ハードウェアメディアのTom's Hardwareが、今年の最新のホットトピックをお届けします。

DeepSeek は CUDA をバイパスし、最適化のために低レベルのプログラミング言語を使用します。

今回、 DeepSeek-V3 の論文からさらに詳しい情報が明らかになりました。

Mirae Asset Securities Research (韓国)の分析によると、Metaなどより10倍高いV3のハードウェア効率は、「すべてをゼロから再構築した」と要約できるという。

NVIDIA の H800 GPU を使用して DeepSeek-V3 をトレーニングする際、 132 個のストリーミング マルチプロセッサ (SM) のうち 20 個を、ニーズに合わせて計算タスクではなくサーバー間通信を処理するように変更しました

これにより、通信速度に対するハードウェアの制限が効果的に回避されます。

DeepSeek-V3 技術レポート

この操作は、CUDA ではなく、NVIDIA の PTX (Parallel Thread Execution) 言語を使用して実装されています。

PTX はアセンブリ言語レベルに近いレベルで動作し、レジスタ割り当てやスレッド/ワープ レベルの調整などのきめ細かな最適化を可能にします。

このタイプのプログラミングは非常に複雑で保守が難しいため、業界では CUDA のような高水準プログラミング言語を使用するのが慣例となっています。

言い換えれば、最適化を極限まで追求したのです。

一部のネットユーザーは、CUDA が遅すぎると思って PTX を使用するグループの人々は、元クオンツトレーダーに違いないとコメントしました。

Amazon のエンジニアが、考えさせられる質問を投げかけました。「CUDA は今でも競争上の優位性があるのでしょうか?」これらのトップクラスのラボでは、あらゆる GPU を効果的に活用できます。

一部のネットユーザーは、「新しいソースの神」DeepSeek が CUDA の代替品をオープンソース化したら何が起こるのかと推測し始めています...

本当にそうなのでしょうか?

DeepSeek は本当に CUDA をバイパスしたのでしょうか?

まず第一に、 PTXは依然としてNVIDIAのGPUアーキテクチャ内の技術であることを明確にしておくことが重要です。PTXはCUDAプログラミングモデルにおける中間表現として機能し、CUDAの高水準言語コードとGPUの基盤となるハードウェア命令を結び付けます。

PTX はアセンブリ言語に似ており、コードは次のようになります。

tinkerd.netより

実際のコンパイル プロセスでは、まず CUDA コードが PTX コードにコンパイルされ、次に PTX コードがターゲット GPU アーキテクチャのマシン コード (SASS、Streaming ASSembler) にコンパイルされます。

CUDAは高水準のプログラミングインターフェースとツールチェーンを提供し、開発者の作業を簡素化します。PTXは中間層として、高水準言語と低水準ハードウェア間の橋渡しとして機能します。

さらに、この 2 段階のコンパイル プロセスにより、CUDA プログラムはアーキテクチャ間で互換性と移植性も確保されます。

逆に、DeepSeek のように PTX コードを直接記述するアプローチは非常に複雑であるだけでなく、異なる GPU モデルに移植することも困難です。

業界関係者の中には、H100 用に最適化されたコードを他のモデルに移行すると、効果が低下したり、まったく機能しなくなる可能性があると述べている人もいます。

したがって、DeepSeek の PTX レベルの最適化は、CUDA エコシステムから完全に離脱したことを意味するのではなく、他の GPU を最適化する能力を示しています。

実際、DeekSeek は AMD や Huawei などのチームと緊密に連携して、他のハードウェア エコシステムへのサポートをできるだけ早く提供していることがわかります。

もう一つ

AI がアセンブリ言語を書けるようにすることが、AI が自らを改善するための方向性になるかもしれないと示唆する人もいます。

DeepSeek が社内で AI を使用して PTX コードの作成を支援したかどうかは不明です。

しかし、 DeepSeek-R1 で記述されたコードによって、大規模モデル推論フレームワークの実行速度が大幅に向上したことを私たちは目の当たりにしました。

Llama.cpp プロジェクトの新しい PR リクエストでは、SIMD 命令(単一の命令で複数のデータポイントを同時に処理できる命令)を使用することで、WebAssembly の特定のドット積関数の速度が大幅に向上します。提出者は次のように述べています。

このPRのコードの99%はDeekSeek-R1で記述されています。私がしたのは、開発、テスト、そして(ある程度の試行錯誤を経て)ヒントを書いただけです。

はい、この PR の目的は、大規模なモデルでも適切な低レベル コードを記述できるようになり、さらに独自のコードを最適化できるようになったことを示すことです。

llama.cpp プロジェクトの創設者はコードをレビューし、「予想以上に爆発的だった」と述べました。

参考リンク: [1]https://www.tomshardware.com/... [2]https://x.com/bookwormengr/st... [3]https://tinkerd.net/blog/mach... [4]https://www.amd.com/en/develo... [5]https://x.com/ggerganov/statu...