|
vLLMは、大規模言語モデルの推論を高速化するために設計されたフレームワークです。KVキャッシュにおけるメモリの無駄をほぼゼロに抑え、メモリ管理のボトルネック問題を解決します。 vLLM の中国語ドキュメントとチュートリアルについては、こちらをご覧ください → https://vllm.hyper.ai/ vLLM は、事前にコンパイルされた C++ および CUDA (12.1) バイナリを含む Python ライブラリです。 環境依存性
pipを使ってインストールするpip を使用して vLLM をインストールできます。 知らせ 現在、vLLMバイナリはデフォルトでCUDA 12.1とパブリックPyTorchディストリビューションを使用してコンパイルされています。また、CUDA 11.8とパブリックPyTorchディストリビューションを使用してコンパイルされたvLLMバイナリも提供しています。 パフォーマンスを向上させるため、vLLM は複数の CUDA カーネルをコンパイルする必要があります。残念ながら、このコンパイルにより、異なる CUDA バージョンと PyTorch バージョン間でバイナリの非互換性が生じます。これは、同じ PyTorch バージョンでもビルド構成が異なる場合に発生します。 そのため、vLLMは新しいconda環境を使用してインストールすることをお勧めします。CUDAのバージョンが異なる場合、または既存のPyTorch環境を使用する場合は、ソースコードからvLLMをビルドする必要があります。以下の手順をご覧ください。 知らせ バージョンv0.5.3以降、vLLMはコミットごとにホイールのサブセット(Python 3.10、3.11、CUDA 12)もリリースしています。以下のコマンドでダウンロードできます。 ソースコードからビルドするソースコードから vLLM をビルドしてインストールすることもできます。 知らせ vLLMはLinuxでのみ完全に動作しますが、他のシステム(macOSなど)でもビルドできます。このビルドは開発目的のみで、インポートを許可し、より便利な開発環境を提供します。これらのバイナリはコンパイルされていないため、Linux以外のシステムでは実行できません。以下のコマンドでビルドを作成できます。 ヒント ソースコードからのビルドには、かなりの量のコンパイル作業が必要です。ソースコードから複数回ビルドする場合は、ビルド結果をキャッシュすると便利です。例えば、`conda install ccache` または `apt install ccache` を使ってccacheをインストールできます。ビルドシステムは、`which ccache` コマンドがccacheバイナリを見つけると、自動的にそれを使用します。最初のビルド以降は、ビルド速度が大幅に向上します。 ヒント システムの過負荷を避けるため、環境変数MAX_JOBSを使用して、同時に実行できるコンパイルタスクの数を制限することができます。例: ヒント vLLM のビルドで問題が発生した場合は、NVIDIA PyTorch Docker イメージを使用することをお勧めします。 Dockerを使用しない場合は、CUDAツールキットのフルバージョンをインストールすることをお勧めします。公式ウェブサイトからダウンロードしてインストールできます。インストール後、環境変数CUDA_HOMEをCUDAツールキットのインストールパスに設定し、nvccコンパイラがPATHに含まれていることを確認してください。例: 以下は、CUDA ツールキットが正しくインストールされていることを確認するための完全なチェックです。 |
[vLLM Learning] インストール
関連するおすすめ記事
-
フォーラム紹介 | 自動車インテリジェンスオープンソースイノベーションフォーラム
-
A6000 SIMカード1枚でワンクリックでAlphaFold3を起動するチュートリアルを公開しました!7万本以上の動画と50種類のエンティティを含む360度モーションキャプチャデータセットが公開されました。
-
目標特性を持つ材料を直接設計しましょう!Microsoft の MatterGen モデルはオープンソース化されており、生成 AI による材料リバース デザインの新たなパラダイムを再定義します。
-
PerplexityがDeep Researchを無料公開:R1、o3-miniなどを上回るパフォーマンス。CEO:DeepSeekに感謝
-
世界初の法律O1モデルが公開され、System2パラダイムにおけるスローシンキングな法律専門家の姿を披露 | HKUST & 北京大学
-
GPT-4.5がリリースされました!OpenAI最大かつ最も高価なモデルで、高い感情知能を重視しています。ウルトラマンは出産のため、発表イベントには欠席しました。