|
vLLMは、大規模言語モデルの推論を高速化するために設計されたフレームワークです。KVキャッシュにおけるメモリの無駄をほぼゼロに抑え、メモリ管理のボトルネック問題を解決します。 vLLM の中国語ドキュメントとチュートリアルについては、こちらをご覧ください → https://vllm.hyper.ai/ vLLM は ROCm 6.1 を使用する AMD GPU をサポートします。 環境依存性
インストールオプション: Dockerを使用してソースからビルドする ソースコードからビルドする オプション 1: Docker を使用してソースからビルドする (推奨)ソース コードから vLLM をビルドしてインストールできます。 まず、Dockerfile.rocm から Docker イメージをビルドし、そのイメージから Docker コンテナを起動します。 Dockerfile.rocm はデフォルトで ROCm 6.1 を使用しますが、古い vLLM ブランチでは ROCm 5.7 および 6.0 もサポートされています。このアプローチは非常に柔軟で、Docker イメージのビルドは以下のパラメータを使用してカスタマイズできます。
これらの値は、docker build を実行するときに --build-arg オプションを使用して渡すことができます。 ROCm 6.1 で MI200 および MI300 シリーズ用の vllm を構築するには、デフォルト値を使用できます。 ROCm 6.1 で Radeon RX7900 シリーズ (gfx1100) 用の vllm をビルドするには、次のように BUILD_FA を指定する必要があります。 上記の Docker イメージ vllm-rocm を実行するには、次のコマンドを使用します。 ここで、<path/to/model> は、llama2 または llama3 モデルの重みなど、モデルが保存されている場所です。 オプション2: ソースコードからビルドする依存関係をインストールします (環境または Docker に次のものがすでにインストールされている場合は、この手順をスキップできます)。
PyTorch をインストールするには、rocm/pytorch:rocm6.1.2_ubuntu20.04_py3.9_pytorch_staging や rocm/pytorch-nightly などの新しい Docker イメージから開始できます。 あるいは、PyTorch ホイールを使って PyTorch をインストールすることもできます。PyTorch 入門ガイドの PyTorch インストールガイドをご参照ください。
知らせ
1. vLLM をビルドします。 ヒント たとえば、ROCM 6.1 上の vLLM v0.5.3 は、次の手順でビルドできます。 ヒント
ヒント MI300x (GFX942) をお使いの場合、最適なパフォーマンスを得るには、システムレベルおよびワークフローレベルのパフォーマンス最適化とチューニングの推奨事項について、MI300x チューニングガイドをご覧ください。vLLM の場合は、vLLM パフォーマンス最適化をご覧ください。 |
[vLLM Learning] ROCmを使ったインストール
関連するおすすめ記事
-
Microsoft が実現しました。Qwen2.5 7B が O1 を超えました。MSRA は、小規模モデルの数学的推論の自己進化のための新しい方法を導入します。
-
新型モデルYにはこれらの新しいデザイン要素が採用されており、7人乗りバージョンも正式に確認されています。
-
前例のない!Intel と AMD が x86 を救うために提携。
-
AI検索エンジンをゼロから構築しましょう!シークレットナレッジベースの新機能をテストしたところ、昇進と昇給にもつながりました!
-
Llama 3.1 中国語微調整データセットが利用可能になり、超大規模モデルをワンクリックで展開できるようになりました。
-
2025年には、さらに多くのGenAIアプリケーションの導入が進むでしょう!今年は中国AIGC業界サミットが開催されます!