|
vLLMは、大規模言語モデルの推論を高速化するために設計されたフレームワークです。KVキャッシュにおけるメモリの無駄をほぼゼロに抑え、メモリ管理のボトルネック問題を解決します。 vLLM の中国語ドキュメントとチュートリアルについては、こちらをご覧ください → https://vllm.hyper.ai/ OpenVINO を搭載した vLLM は、vLLM のサポート対象モデルリスト <../models/supported_models> に記載されているすべての LLM モデルをサポートし、すべての x86-64 CPU で最適なモデルサービングを提供します(少なくとも AVX2 のサポートが必要です)。OpenVINO vLLM バックエンドは、以下の高度な vLLM 機能をサポートしています。
環境依存性
Dockerfileを使い始めるソースコードからインストール
パフォーマンスのヒントvLLM OpenVINO バックエンドは、次の環境変数を使用して動作を制御します。
TPOT/TTFTのレイテンシを改善するには、vLLMのチャンクプリフィル機能(--enable-chunked-prefill)を使用できます。実験結果に基づき、バッチサイズは256(--max-num-batched-tokens)が推奨されます。 OpenVINO の最も有名な構成は次のとおりです。 制限
|
[vLLM Learning] OpenVINOを使ったインストール
関連するおすすめ記事
-
「Datawhale Li Hongyi Tutorial」が1位に!
-
大規模モデリングにおける新たなアプローチは、長所を組み合わせ、短所を補うものであり、既存のルーティング手法を大幅に上回る性能を発揮しました。(SUSTechとHKUST共同制作)
-
インテリジェント運転を標準装備としたBYDの時価総額は1兆元を超える。
-
L3商用化の初年度に、北京は支援政策の導入を主導した。
-
4 つの主な問題点、5 つの調査、7 つの企業: AI 主導のバッテリー研究開発イノベーションの詳細な説明。
-
MMLU-Proベンチマークデータセットが利用可能になりました。難易度と課題がさらに高まった、12,000点の複雑な学際的問題が含まれています。DeepSeekの数理モデルはワンクリックで展開できます。