|
vLLMは、大規模言語モデルの推論を高速化するために設計されたフレームワークです。KVキャッシュにおけるメモリの無駄をほぼゼロに抑え、メモリ管理のボトルネック問題を解決します。 vLLM の中国語ドキュメントとチュートリアルについては、こちらをご覧ください → https://vllm.hyper.ai/ vLLM は ROCm 6.1 を使用する AMD GPU をサポートします。 環境依存性
インストールオプション: Dockerを使用してソースからビルドする ソースコードからビルドする オプション 1: Docker を使用してソースからビルドする (推奨)ソース コードから vLLM をビルドしてインストールできます。 まず、Dockerfile.rocm から Docker イメージをビルドし、そのイメージから Docker コンテナを起動します。 Dockerfile.rocm はデフォルトで ROCm 6.1 を使用しますが、古い vLLM ブランチでは ROCm 5.7 および 6.0 もサポートされています。このアプローチは非常に柔軟で、Docker イメージのビルドは以下のパラメータを使用してカスタマイズできます。
これらの値は、docker build を実行するときに --build-arg オプションを使用して渡すことができます。 ROCm 6.1 で MI200 および MI300 シリーズ用の vllm を構築するには、デフォルト値を使用できます。 ROCm 6.1 で Radeon RX7900 シリーズ (gfx1100) 用の vllm をビルドするには、次のように BUILD_FA を指定する必要があります。 上記の Docker イメージ vllm-rocm を実行するには、次のコマンドを使用します。 ここで、<path/to/model> は、llama2 または llama3 モデルの重みなど、モデルが保存されている場所です。 オプション2: ソースコードからビルドする依存関係をインストールします (環境または Docker に次のものがすでにインストールされている場合は、この手順をスキップできます)。
PyTorch をインストールするには、rocm/pytorch:rocm6.1.2_ubuntu20.04_py3.9_pytorch_staging や rocm/pytorch-nightly などの新しい Docker イメージから開始できます。 あるいは、PyTorch ホイールを使って PyTorch をインストールすることもできます。PyTorch 入門ガイドの PyTorch インストールガイドをご参照ください。
知らせ
1. vLLM をビルドします。 ヒント たとえば、ROCM 6.1 上の vLLM v0.5.3 は、次の手順でビルドできます。 ヒント
ヒント MI300x (GFX942) をお使いの場合、最適なパフォーマンスを得るには、システムレベルおよびワークフローレベルのパフォーマンス最適化とチューニングの推奨事項について、MI300x チューニングガイドをご覧ください。vLLM の場合は、vLLM パフォーマンス最適化をご覧ください。 |
[vLLM Learning] ROCmを使ったインストール
関連するおすすめ記事
-
ロボットは人間を簡単に模倣し、さまざまなタスクやインテリジェントエージェントに汎用化できます。マイクロソフトの新たな研究によると、ロボットは人間とロボットの間で統一された動作表現を学習していることがわかりました。
-
COSCon'24 参加ガイド
-
フォーラムの紹介 | オープンソースガバナンスフォーラム
-
「天宮モデル4.0」O1および4Oバージョンが正式にリリースされ、天宮アプリおよびウェブサイトで無料で使用できます。
-
限られたウェット実験データを用いてタンパク質言語モデルを微調整するにはどうすればよいでしょうか?浙江大学のチームの研究成果がNeurIPS 2024に選出されました。筆頭著者が設計プロセスを説明します。
-
Geling Vision のビジュアル モデル プラットフォームは OpenAI を上回り、マルチモーダル展開のスケーリング法則を開拓します。