|
vLLMは、大規模言語モデルの推論を高速化するために設計されたフレームワークです。KVキャッシュにおけるメモリの無駄をほぼゼロに抑え、メモリ管理のボトルネック問題を解決します。 vLLM の中国語ドキュメントとチュートリアルについては、こちらをご覧ください → https://vllm.hyper.ai/ vLLM は、事前にコンパイルされた C++ および CUDA (12.1) バイナリを含む Python ライブラリです。 環境依存性
pipを使ってインストールするpip を使用して vLLM をインストールできます。 知らせ 現在、vLLMバイナリはデフォルトでCUDA 12.1とパブリックPyTorchディストリビューションを使用してコンパイルされています。また、CUDA 11.8とパブリックPyTorchディストリビューションを使用してコンパイルされたvLLMバイナリも提供しています。 パフォーマンスを向上させるため、vLLM は複数の CUDA カーネルをコンパイルする必要があります。残念ながら、このコンパイルにより、異なる CUDA バージョンと PyTorch バージョン間でバイナリの非互換性が生じます。これは、同じ PyTorch バージョンでもビルド構成が異なる場合に発生します。 そのため、vLLMは新しいconda環境を使用してインストールすることをお勧めします。CUDAのバージョンが異なる場合、または既存のPyTorch環境を使用する場合は、ソースコードからvLLMをビルドする必要があります。以下の手順をご覧ください。 知らせ バージョンv0.5.3以降、vLLMはコミットごとにホイールのサブセット(Python 3.10、3.11、CUDA 12)もリリースしています。以下のコマンドでダウンロードできます。 ソースコードからビルドするソースコードから vLLM をビルドしてインストールすることもできます。 知らせ vLLMはLinuxでのみ完全に動作しますが、他のシステム(macOSなど)でもビルドできます。このビルドは開発目的のみで、インポートを許可し、より便利な開発環境を提供します。これらのバイナリはコンパイルされていないため、Linux以外のシステムでは実行できません。以下のコマンドでビルドを作成できます。 ヒント ソースコードからのビルドには、かなりの量のコンパイル作業が必要です。ソースコードから複数回ビルドする場合は、ビルド結果をキャッシュすると便利です。例えば、`conda install ccache` または `apt install ccache` を使ってccacheをインストールできます。ビルドシステムは、`which ccache` コマンドがccacheバイナリを見つけると、自動的にそれを使用します。最初のビルド以降は、ビルド速度が大幅に向上します。 ヒント システムの過負荷を避けるため、環境変数MAX_JOBSを使用して、同時に実行できるコンパイルタスクの数を制限することができます。例: ヒント vLLM のビルドで問題が発生した場合は、NVIDIA PyTorch Docker イメージを使用することをお勧めします。 Dockerを使用しない場合は、CUDAツールキットのフルバージョンをインストールすることをお勧めします。公式ウェブサイトからダウンロードしてインストールできます。インストール後、環境変数CUDA_HOMEをCUDAツールキットのインストールパスに設定し、nvccコンパイラがPATHに含まれていることを確認してください。例: 以下は、CUDA ツールキットが正しくインストールされていることを確認するための完全なチェックです。 |
[vLLM Learning] インストール
関連するおすすめ記事
-
AIが材料化学に革命を起こす:2024年の注目すべき科学的成果の概要
-
非常に詳細なオープンワールドがミニプログラムの中に隠されており、ゲーム技術を使用して北京の中心軸を再現し、時間を旅する体験を創り出しました。
-
360AI は、パラメータが 85% 削減され、最先端のパフォーマンスを誇る、DiT アーキテクチャに基づく ControlNet の「コスト削減バージョン」をリリースしました。
-
OpenAIのインテリジェントエージェントに関する新たな手がかりが明らかになりました!ネットユーザーの皆様、新たなChatGPTの時代が到来です!
-
6 つの主要モデルは DeepSeek の影響にどのように対応するのでしょうか?
-
クロード3.7が生き返った!OpenAIモデルをこっそりと自分に置き換えたんだ。Capasi:これまでで一番面白いシーンだね!