|
vLLMは、大規模言語モデルの推論を高速化するために設計されたフレームワークです。KVキャッシュにおけるメモリの無駄をほぼゼロに抑え、メモリ管理のボトルネック問題を解決します。 vLLM の中国語ドキュメントとチュートリアルについては、こちらをご覧ください → https://vllm.hyper.ai/ vLLM は、事前にコンパイルされた C++ および CUDA (12.1) バイナリを含む Python ライブラリです。 環境依存性
pipを使ってインストールするpip を使用して vLLM をインストールできます。 知らせ 現在、vLLMバイナリはデフォルトでCUDA 12.1とパブリックPyTorchディストリビューションを使用してコンパイルされています。また、CUDA 11.8とパブリックPyTorchディストリビューションを使用してコンパイルされたvLLMバイナリも提供しています。 パフォーマンスを向上させるため、vLLM は複数の CUDA カーネルをコンパイルする必要があります。残念ながら、このコンパイルにより、異なる CUDA バージョンと PyTorch バージョン間でバイナリの非互換性が生じます。これは、同じ PyTorch バージョンでもビルド構成が異なる場合に発生します。 そのため、vLLMは新しいconda環境を使用してインストールすることをお勧めします。CUDAのバージョンが異なる場合、または既存のPyTorch環境を使用する場合は、ソースコードからvLLMをビルドする必要があります。以下の手順をご覧ください。 知らせ バージョンv0.5.3以降、vLLMはコミットごとにホイールのサブセット(Python 3.10、3.11、CUDA 12)もリリースしています。以下のコマンドでダウンロードできます。 ソースコードからビルドするソースコードから vLLM をビルドしてインストールすることもできます。 知らせ vLLMはLinuxでのみ完全に動作しますが、他のシステム(macOSなど)でもビルドできます。このビルドは開発目的のみで、インポートを許可し、より便利な開発環境を提供します。これらのバイナリはコンパイルされていないため、Linux以外のシステムでは実行できません。以下のコマンドでビルドを作成できます。 ヒント ソースコードからのビルドには、かなりの量のコンパイル作業が必要です。ソースコードから複数回ビルドする場合は、ビルド結果をキャッシュすると便利です。例えば、`conda install ccache` または `apt install ccache` を使ってccacheをインストールできます。ビルドシステムは、`which ccache` コマンドがccacheバイナリを見つけると、自動的にそれを使用します。最初のビルド以降は、ビルド速度が大幅に向上します。 ヒント システムの過負荷を避けるため、環境変数MAX_JOBSを使用して、同時に実行できるコンパイルタスクの数を制限することができます。例: ヒント vLLM のビルドで問題が発生した場合は、NVIDIA PyTorch Docker イメージを使用することをお勧めします。 Dockerを使用しない場合は、CUDAツールキットのフルバージョンをインストールすることをお勧めします。公式ウェブサイトからダウンロードしてインストールできます。インストール後、環境変数CUDA_HOMEをCUDAツールキットのインストールパスに設定し、nvccコンパイラがPATHに含まれていることを確認してください。例: 以下は、CUDA ツールキットが正しくインストールされていることを確認するための完全なチェックです。 |
[vLLM Learning] インストール
関連するおすすめ記事
-
DeepSeekは本日、3つの新しいリポジトリソースをリリースしました。最適化された並列戦略の開発には、Liang Wenfeng氏自身が参加しました。
-
2024 OSCARオープンソース業界会議が北京で開催されました。
-
[TVMチュートリアル] 仕様(reduce)
-
Datawhaleと若者のための学術バー
-
Alibaba Cloud はトップカンファレンス ACL に 38 件の論文が採択され、Tongyi チームは大規模モデル向けの最先端技術をいくつか公開しました。
-
GPT-4.5が間もなくリリース!GPT-5は無料でご利用いただけます!ウルトラマンの大展開をネタバレ!ネットユーザー「DeepSeekが防御を突破!」