|
vLLMは、大規模言語モデルの推論を高速化するために設計されたフレームワークです。KVキャッシュにおけるメモリの無駄をほぼゼロに抑え、メモリ管理のボトルネック問題を解決します。 vLLM の中国語ドキュメントとチュートリアルについては、こちらをご覧ください → https://vllm.hyper.ai/ vLLM は、大規模言語モデル (LLM) の推論と展開用に設計された、高速で使いやすいライブラリです。 vLLM のコア機能は次のとおりです。
vLLM の柔軟性と使いやすさは、次の側面に反映されています。
詳細については、以下を参照してください。
書類はじめるインストール ROCmを使用してインストール OpenVINOを使用してインストールする CPUを使用してインストール Neuronを使用してインストール TPUを使用してインストールする XPUを使用してインストールする クイックスタート デバッグのヒント 例 展開するOpenAI互換サーバー Dockerを使用してデプロイする 分散推論とサービス 生産目標 環境変数 統計データ収集の使用 統合 CoreWeaveのTensorizerを使用してモデルをロードする 互換性マトリックス よくある質問 モデルサポートされているモデル 新しいモデルを追加 マルチモーダル入力を有効にする エンジンパラメータ LoRAアダプタの使用 VLMの使用 vLLMでの投機的デコードの使用 パフォーマンスとチューニング 定量化量子化カーネルでサポートされるハードウェア オートAWQ ビットとバイト GGUF INT8 W8A8 FP8 W8A8 FP8 E5M2 KVキャッシュ FP8 E4M3 KVキャッシュ 自動プレフィックスキャッシュ導入 成し遂げる 一般化されたキャッシュ戦略 パフォーマンスベンチマークテストvLLMベンチマークスイート 開発者向けドキュメントサンプリングパラメータ オフライン推論
vLLMエンジン LLMエンジン
vLLMページネーションの注意
入力処理
マルチモーダル
Dockerファイル vLLMパフォーマンス分析
コミュニティvLLMパーティー スポンサー 索引と表
|
[vLLMラーニング] vLLMへようこそ!
関連するおすすめ記事
-
TeleAIは、初の完全国産の高性能、高パラメータモデルのトレーニングを完了し、正式にオープンソース化されたTeleChat2-115Bをリリースしました。
-
エッジベースの生成 AI は今後どのように進化するのでしょうか?
-
AIGC時代のエンジニア文化と技術革新の変革に焦点を当て、CCF CED 2024が杭州で開催されました。
-
推論モデルへの新しいアプローチがオープンソース化されました!DeepSeekとは全く異なり、思考プロセスを放棄し、思考に人間の言語に依存しません。
-
「オープンソース」の自由を取り巻く霧を晴らす
-
国内外からオープンソースの専門家が集結!GOSIM CHINA 2024、いよいよ開幕まであと3日!