|
vLLMは、大規模言語モデルの推論を高速化するために設計されたフレームワークです。KVキャッシュにおけるメモリの無駄をほぼゼロに抑え、メモリ管理のボトルネック問題を解決します。 vLLM の中国語ドキュメントとチュートリアルについては、こちらをご覧ください → https://vllm.hyper.ai/ vLLM は ROCm 6.1 を使用する AMD GPU をサポートします。 環境依存性
インストールオプション: Dockerを使用してソースからビルドする ソースコードからビルドする オプション 1: Docker を使用してソースからビルドする (推奨)ソース コードから vLLM をビルドしてインストールできます。 まず、Dockerfile.rocm から Docker イメージをビルドし、そのイメージから Docker コンテナを起動します。 Dockerfile.rocm はデフォルトで ROCm 6.1 を使用しますが、古い vLLM ブランチでは ROCm 5.7 および 6.0 もサポートされています。このアプローチは非常に柔軟で、Docker イメージのビルドは以下のパラメータを使用してカスタマイズできます。
これらの値は、docker build を実行するときに --build-arg オプションを使用して渡すことができます。 ROCm 6.1 で MI200 および MI300 シリーズ用の vllm を構築するには、デフォルト値を使用できます。 ROCm 6.1 で Radeon RX7900 シリーズ (gfx1100) 用の vllm をビルドするには、次のように BUILD_FA を指定する必要があります。 上記の Docker イメージ vllm-rocm を実行するには、次のコマンドを使用します。 ここで、<path/to/model> は、llama2 または llama3 モデルの重みなど、モデルが保存されている場所です。 オプション2: ソースコードからビルドする依存関係をインストールします (環境または Docker に次のものがすでにインストールされている場合は、この手順をスキップできます)。
PyTorch をインストールするには、rocm/pytorch:rocm6.1.2_ubuntu20.04_py3.9_pytorch_staging や rocm/pytorch-nightly などの新しい Docker イメージから開始できます。 あるいは、PyTorch ホイールを使って PyTorch をインストールすることもできます。PyTorch 入門ガイドの PyTorch インストールガイドをご参照ください。
知らせ
1. vLLM をビルドします。 ヒント たとえば、ROCM 6.1 上の vLLM v0.5.3 は、次の手順でビルドできます。 ヒント
ヒント MI300x (GFX942) をお使いの場合、最適なパフォーマンスを得るには、システムレベルおよびワークフローレベルのパフォーマンス最適化とチューニングの推奨事項について、MI300x チューニングガイドをご覧ください。vLLM の場合は、vLLM パフォーマンス最適化をご覧ください。 |
[vLLM Learning] ROCmを使ったインストール
関連するおすすめ記事
-
最新のFSDテスト結果:ドライバー介入ゼロで100分。テスラが新型「モデルQ」を予告
-
クラウドコンピューティングの巨人からジェネレーティブAIの世界的パイオニアへ:re:Invent 2024の3つの重要な発表を振り返る
-
OpenAI Agentが登場!プッシュ通知で、大小さまざまなタスクを自動処理します。今すぐ使い始められます!
-
急騰中の銘柄であるディープシークは、一夜にしてエヌビディアの4兆ドルの評価額を吹き飛ばした。大晦日には、新たなマルチモーダルモデルをオープンソース化した。
-
Tianwenベースのビッグデータモデルがさらにアップグレードされ、ビデオを「見て」理解するだけでなく、小さなターゲットを素早く認識し、シーンの関係性を理解することもできるようになった。
-
ジェンセン・フアン氏が香港科技大学から名誉博士号を授与!ハリー・シャム氏との対談:スケーリング法、研修後、ロボット工学、そして愛について