|
vLLMは、大規模言語モデルの推論を高速化するために設計されたフレームワークです。KVキャッシュにおけるメモリの無駄をほぼゼロに抑え、メモリ管理のボトルネック問題を解決します。 vLLM の中国語ドキュメントとチュートリアルについては、こちらをご覧ください → https://vllm.hyper.ai/ vLLM は、大規模言語モデル (LLM) の推論と展開用に設計された、高速で使いやすいライブラリです。 vLLM のコア機能は次のとおりです。
vLLM の柔軟性と使いやすさは、次の側面に反映されています。
詳細については、以下を参照してください。
書類はじめるインストール ROCmを使用してインストール OpenVINOを使用してインストールする CPUを使用してインストール Neuronを使用してインストール TPUを使用してインストールする XPUを使用してインストールする クイックスタート デバッグのヒント 例 展開するOpenAI互換サーバー Dockerを使用してデプロイする 分散推論とサービス 生産目標 環境変数 統計データ収集の使用 統合 CoreWeaveのTensorizerを使用してモデルをロードする 互換性マトリックス よくある質問 モデルサポートされているモデル 新しいモデルを追加 マルチモーダル入力を有効にする エンジンパラメータ LoRAアダプタの使用 VLMの使用 vLLMでの投機的デコードの使用 パフォーマンスとチューニング 定量化量子化カーネルでサポートされるハードウェア オートAWQ ビットとバイト GGUF INT8 W8A8 FP8 W8A8 FP8 E5M2 KVキャッシュ FP8 E4M3 KVキャッシュ 自動プレフィックスキャッシュ導入 成し遂げる 一般化されたキャッシュ戦略 パフォーマンスベンチマークテストvLLMベンチマークスイート 開発者向けドキュメントサンプリングパラメータ オフライン推論
vLLMエンジン LLMエンジン
vLLMページネーションの注意
入力処理
マルチモーダル
Dockerファイル vLLMパフォーマンス分析
コミュニティvLLMパーティー スポンサー 索引と表
|
[vLLMラーニング] vLLMへようこそ!
関連するおすすめ記事
-
オンラインチュートリアル | 物理AIシステムの革新:日光と霧のシミュレーションが可能なNVIDIAのワールドベースモデルをすぐに使い始める
-
OpenAI の新しい調査では、o1 での推論時間を長くすることで攻撃を防止できることが示唆されています。ネットユーザーは、DeepSeek にもメリットがある可能性があるとコメントしています。
-
Zhiyuan のオープンソース ロボット ミドルウェア AimRT が正式にリリースされました。
-
Tencent Yuanbao は DeepSeek-R1 (フルバージョン) と統合し、初めてサードパーティ モデルを導入して、インターネット接続と WeChat 独自のエコシステムへのアクセスを可能にしました。
-
2025年には、さらに多くのGenAIアプリケーションの導入が進むでしょう!今年は中国AIGC業界サミットが開催されます!
-
インテリジェンスの世界を実現する | Google と共に開発者コミュニティを構築する