|
vLLMは、大規模言語モデルの推論を高速化するために設計されたフレームワークです。KVキャッシュにおけるメモリの無駄をほぼゼロに抑え、メモリ管理のボトルネック問題を解決します。 vLLM の中国語ドキュメントとチュートリアルについては、こちらをご覧ください → https://vllm.hyper.ai/ vLLM は ROCm 6.1 を使用する AMD GPU をサポートします。 環境依存性
インストールオプション: Dockerを使用してソースからビルドする ソースコードからビルドする オプション 1: Docker を使用してソースからビルドする (推奨)ソース コードから vLLM をビルドしてインストールできます。 まず、Dockerfile.rocm から Docker イメージをビルドし、そのイメージから Docker コンテナを起動します。 Dockerfile.rocm はデフォルトで ROCm 6.1 を使用しますが、古い vLLM ブランチでは ROCm 5.7 および 6.0 もサポートされています。このアプローチは非常に柔軟で、Docker イメージのビルドは以下のパラメータを使用してカスタマイズできます。
これらの値は、docker build を実行するときに --build-arg オプションを使用して渡すことができます。 ROCm 6.1 で MI200 および MI300 シリーズ用の vllm を構築するには、デフォルト値を使用できます。 ROCm 6.1 で Radeon RX7900 シリーズ (gfx1100) 用の vllm をビルドするには、次のように BUILD_FA を指定する必要があります。 上記の Docker イメージ vllm-rocm を実行するには、次のコマンドを使用します。 ここで、<path/to/model> は、llama2 または llama3 モデルの重みなど、モデルが保存されている場所です。 オプション2: ソースコードからビルドする依存関係をインストールします (環境または Docker に次のものがすでにインストールされている場合は、この手順をスキップできます)。
PyTorch をインストールするには、rocm/pytorch:rocm6.1.2_ubuntu20.04_py3.9_pytorch_staging や rocm/pytorch-nightly などの新しい Docker イメージから開始できます。 あるいは、PyTorch ホイールを使って PyTorch をインストールすることもできます。PyTorch 入門ガイドの PyTorch インストールガイドをご参照ください。
知らせ
1. vLLM をビルドします。 ヒント たとえば、ROCM 6.1 上の vLLM v0.5.3 は、次の手順でビルドできます。 ヒント
ヒント MI300x (GFX942) をお使いの場合、最適なパフォーマンスを得るには、システムレベルおよびワークフローレベルのパフォーマンス最適化とチューニングの推奨事項について、MI300x チューニングガイドをご覧ください。vLLM の場合は、vLLM パフォーマンス最適化をご覧ください。 |
[vLLM Learning] ROCmを使ったインストール
関連するおすすめ記事
-
MinecraftサーバーにAIを導入:GPT-4oが牛や羊を屠殺、Claude 3.5が家屋を破壊 | オープンソース
-
住宅価格予測、鉱物探査、自然災害予測... AI は地球科学に革命をもたらしており、浙江大学、清華大学、Google Research などが重要な研究結果を発表しています。
-
MWC 2025 ライブ: Lenovo が、初の外側に折りたためる画面や太陽光発電のノートパソコンなど、新しい PC イノベーションを展示します。
-
Alibaba Cloud はトップカンファレンス ACL に 38 件の論文が採択され、Tongyi チームは大規模モデル向けの最先端技術をいくつか公開しました。
-
ユニバーサルな体現の新時代をリード:Puduが初のヒューマノイドロボット「PUDU D7」を発表
-
L3商用化の初年度に、北京は支援政策の導入を主導した。