|
vLLMは、大規模言語モデルの推論を高速化するために設計されたフレームワークです。KVキャッシュにおけるメモリの無駄をほぼゼロに抑え、メモリ管理のボトルネック問題を解決します。 vLLM の中国語ドキュメントとチュートリアルについては、こちらをご覧ください → https://vllm.hyper.ai/ vLLM は、事前にコンパイルされた C++ および CUDA (12.1) バイナリを含む Python ライブラリです。 環境依存性
pipを使ってインストールするpip を使用して vLLM をインストールできます。 知らせ 現在、vLLMバイナリはデフォルトでCUDA 12.1とパブリックPyTorchディストリビューションを使用してコンパイルされています。また、CUDA 11.8とパブリックPyTorchディストリビューションを使用してコンパイルされたvLLMバイナリも提供しています。 パフォーマンスを向上させるため、vLLM は複数の CUDA カーネルをコンパイルする必要があります。残念ながら、このコンパイルにより、異なる CUDA バージョンと PyTorch バージョン間でバイナリの非互換性が生じます。これは、同じ PyTorch バージョンでもビルド構成が異なる場合に発生します。 そのため、vLLMは新しいconda環境を使用してインストールすることをお勧めします。CUDAのバージョンが異なる場合、または既存のPyTorch環境を使用する場合は、ソースコードからvLLMをビルドする必要があります。以下の手順をご覧ください。 知らせ バージョンv0.5.3以降、vLLMはコミットごとにホイールのサブセット(Python 3.10、3.11、CUDA 12)もリリースしています。以下のコマンドでダウンロードできます。 ソースコードからビルドするソースコードから vLLM をビルドしてインストールすることもできます。 知らせ vLLMはLinuxでのみ完全に動作しますが、他のシステム(macOSなど)でもビルドできます。このビルドは開発目的のみで、インポートを許可し、より便利な開発環境を提供します。これらのバイナリはコンパイルされていないため、Linux以外のシステムでは実行できません。以下のコマンドでビルドを作成できます。 ヒント ソースコードからのビルドには、かなりの量のコンパイル作業が必要です。ソースコードから複数回ビルドする場合は、ビルド結果をキャッシュすると便利です。例えば、`conda install ccache` または `apt install ccache` を使ってccacheをインストールできます。ビルドシステムは、`which ccache` コマンドがccacheバイナリを見つけると、自動的にそれを使用します。最初のビルド以降は、ビルド速度が大幅に向上します。 ヒント システムの過負荷を避けるため、環境変数MAX_JOBSを使用して、同時に実行できるコンパイルタスクの数を制限することができます。例: ヒント vLLM のビルドで問題が発生した場合は、NVIDIA PyTorch Docker イメージを使用することをお勧めします。 Dockerを使用しない場合は、CUDAツールキットのフルバージョンをインストールすることをお勧めします。公式ウェブサイトからダウンロードしてインストールできます。インストール後、環境変数CUDA_HOMEをCUDAツールキットのインストールパスに設定し、nvccコンパイラがPATHに含まれていることを確認してください。例: 以下は、CUDA ツールキットが正しくインストールされていることを確認するための完全なチェックです。 |
[vLLM Learning] インストール
関連するおすすめ記事
-
AlphaFold がノーベル賞を受賞。DeepMind CEO の受賞スピーチ: AI に取り組む最高の科学者は素晴らしい成果を成し遂げるでしょう。
-
画期的なLAB-Bench生物学的ベンチマークデータセットがオープンソースとしてリリースされました!8つのタスクをカバーし、2,400問以上の多肢選択式問題が含まれています。
-
DeepSeekが国内大型模型メーカーの闘志に火をつけ、RAGなどのコア技術が再評価されつつある。
-
最強のオープンソースCodeLLMモデルが深夜に登場!320億のパラメータを持つ新しいQwen2.5-Coderモデルは、GPT-4oを凌駕します。
-
マルチモーダルでオープンソースのLlama 3.2が登場!ARグラス開発者のJensen Huang氏がいち早く体験し、Quest 3Sヘッドセットは驚くほど低価格です。
-
Tencent Yuanbao PC版の実世界テスト:本格的なDeepSeekを搭載したAI PCです。