618ZXW

[vLLMラーニング] vLLMへようこそ!

vLLMは、大規模言語モデルの推論を高速化するために設計されたフレームワークです。KVキャッシュにおけるメモリの無駄をほぼゼロに抑え、メモリ管理のボトルネック問題を解決します。

vLLM の中国語ドキュメントとチュートリアルについては、こちらをご覧ください → https://vllm.hyper.ai/

vLLM は、大規模言語モデル (LLM) の推論と展開用に設計された、高速で使いやすいライブラリです。

vLLM のコア機能は次のとおりです。

  • 最先端のサービススループット
  • PagedAttentionを使用してアテンションキーと値のメモリを効率的に管理する
  • 受信リクエストの継続的なバッチ処理
  • CUDA/HIPグラフを用いた高速実行モデルの実装
  • 量子化: GPTQ、AWQ、INT4、INT8、FP8
  • FlashAttention および FlashInfer との統合を含む、最適化された CUDA カーネル。
  • 推測的デコード
  • ブロックの事前入力

vLLM の柔軟性と使いやすさは、次の側面に反映されています。

  • 人気のHuggingFaceモデルとのシームレスな統合
  • 高スループット サービスと、並列サンプリングやビーム検索などのさまざまなデコード アルゴリズムを備えています。
  • テンソル並列処理とパイプライン並列処理による分散推論をサポートします。
  • ストリーミング出力
  • OpenAI と互換性のある API サーバーを提供します。
  • NVIDIA GPU、AMD CPU および GPU、Intel CPU および GPU、PowerPC CPU、TPU、AWS Neuron をサポートします。
  • プレフィックスキャッシュのサポート
  • 複数のLoRAをサポート

詳細については、以下を参照してください。

  • vLLM 発表ブログ投稿 (PagedAttention チュートリアル)
  • vLLM論文(SOSP 2023)
  • 継続的なバッチ処理により、LLM 推論で 23 倍のスループットを実現しながら p50 レイテンシを削減する方法 (Cade Daniel 他著)
  • vLLMパーティー

書類

はじめる

インストール

ROCmを使用してインストール

OpenVINOを使用してインストールする

CPUを使用してインストール

Neuronを使用してインストール

TPUを使用してインストールする

XPUを使用してインストールする

クイックスタート

デバッグのヒント

展開する

OpenAI互換サーバー

Dockerを使用してデプロイする

分散推論とサービス

生産目標

環境変数

統計データ収集の使用

統合

CoreWeaveのTensorizerを使用してモデルをロードする

互換性マトリックス

よくある質問

モデル

サポートされているモデル

新しいモデルを追加

マルチモーダル入力を有効にする

エンジンパラメータ

LoRAアダプタの使用

VLMの使用

vLLMでの投機的デコードの使用

パフォーマンスとチューニング

定量化

量子化カーネルでサポートされるハードウェア

オートAWQ

ビットとバイト

GGUF

INT8 W8A8

FP8 W8A8

FP8 E5M2 KVキャッシュ

FP8 E4M3 KVキャッシュ

自動プレフィックスキャッシュ

導入

成し遂げる

一般化されたキャッシュ戦略

パフォーマンスベンチマークテスト

vLLMベンチマークスイート

開発者向けドキュメント

サンプリングパラメータ

オフライン推論

  • LLMクラス

    • LLM入力

vLLMエンジン

LLMエンジン

  • LLMエンジン
  • 非同期LLMエンジン

vLLMページネーションの注意

  • 入力処理
  • コンセプト
  • クエリ
  • QK
  • ソフトマックス
  • 価値
  • 出力

入力処理

  • ガイド
  • モジュールコンテンツ

マルチモーダル

  • ガイド
  • モジュールコンテンツ

Dockerファイル

vLLMパフォーマンス分析

  • コマンド例と使用方法
  • オフライン推論
  • OpenAIサーバー

コミュニティ

vLLMパーティー

スポンサー

索引と表

  • 索引
  • モジュールインデックス