|
vLLMは、大規模言語モデルの推論を高速化するために設計されたフレームワークです。KVキャッシュにおけるメモリの無駄をほぼゼロに抑え、メモリ管理のボトルネック問題を解決します。 vLLM の中国語ドキュメントとチュートリアルについては、こちらをご覧ください → https://vllm.hyper.ai/ vLLM は、大規模言語モデル (LLM) の推論と展開用に設計された、高速で使いやすいライブラリです。 vLLM のコア機能は次のとおりです。
vLLM の柔軟性と使いやすさは、次の側面に反映されています。
詳細については、以下を参照してください。
書類はじめるインストール ROCmを使用してインストール OpenVINOを使用してインストールする CPUを使用してインストール Neuronを使用してインストール TPUを使用してインストールする XPUを使用してインストールする クイックスタート デバッグのヒント 例 展開するOpenAI互換サーバー Dockerを使用してデプロイする 分散推論とサービス 生産目標 環境変数 統計データ収集の使用 統合 CoreWeaveのTensorizerを使用してモデルをロードする 互換性マトリックス よくある質問 モデルサポートされているモデル 新しいモデルを追加 マルチモーダル入力を有効にする エンジンパラメータ LoRAアダプタの使用 VLMの使用 vLLMでの投機的デコードの使用 パフォーマンスとチューニング 定量化量子化カーネルでサポートされるハードウェア オートAWQ ビットとバイト GGUF INT8 W8A8 FP8 W8A8 FP8 E5M2 KVキャッシュ FP8 E4M3 KVキャッシュ 自動プレフィックスキャッシュ導入 成し遂げる 一般化されたキャッシュ戦略 パフォーマンスベンチマークテストvLLMベンチマークスイート 開発者向けドキュメントサンプリングパラメータ オフライン推論
vLLMエンジン LLMエンジン
vLLMページネーションの注意
入力処理
マルチモーダル
Dockerファイル vLLMパフォーマンス分析
コミュニティvLLMパーティー スポンサー 索引と表
|
[vLLMラーニング] vLLMへようこそ!
関連するおすすめ記事
-
タオ・ジ氏が率いる長安の自社開発インテリジェント運転システムは、12か月間の成績表を提出し、重慶の難関8Dインターチェンジを無事通過し、最新のフルサイズSUVでテストされている。
-
デューク大学は PepPrCLIP を使用して「治療不可能」な癌の課題を克服し、新たな癌治療法の開発につながる可能性を秘めています。
-
2025年には、さらに多くのGenAIアプリケーションの導入が進むでしょう!今年は中国AIGC業界サミットが開催されます!
-
ユニツリーのヒューマノイドロボットが9万9000元から量産開始!360度ジャンプを披露し、その能力を披露。NVIDIAの科学者は「欲しい!」と絶賛している。
-
AIアプリ開発に必要なのはたった10行のコード!SenseTimeが「怠け者必携」の開発プラットフォーム「LazyLLM」をオープンソース化。
-
AI エージェントの包括的な概要 (10,000 語以上) が公開されました。