|
vLLMは、大規模言語モデルの推論を高速化するために設計されたフレームワークです。KVキャッシュにおけるメモリの無駄をほぼゼロに抑え、メモリ管理のボトルネック問題を解決します。 vLLM の中国語ドキュメントとチュートリアルについては、こちらをご覧ください → https://vllm.hyper.ai/ OpenVINO を搭載した vLLM は、vLLM のサポート対象モデルリスト <../models/supported_models> に記載されているすべての LLM モデルをサポートし、すべての x86-64 CPU で最適なモデルサービングを提供します(少なくとも AVX2 のサポートが必要です)。OpenVINO vLLM バックエンドは、以下の高度な vLLM 機能をサポートしています。
環境依存性
Dockerfileを使い始めるソースコードからインストール
パフォーマンスのヒントvLLM OpenVINO バックエンドは、次の環境変数を使用して動作を制御します。
TPOT/TTFTのレイテンシを改善するには、vLLMのチャンクプリフィル機能(--enable-chunked-prefill)を使用できます。実験結果に基づき、バッチサイズは256(--max-num-batched-tokens)が推奨されます。 OpenVINO の最も有名な構成は次のとおりです。 制限
|
[vLLM Learning] OpenVINOを使ったインストール
関連するおすすめ記事
-
ドイツ・ミュンヘンに研究開発センターを建設中!中国のスマートビークル、ノルマンディー上陸作戦開始。
-
革新的な可能性を解き放ち続ける「スマートイマジネーションハッカソン」が大盛況のうちに終了しました。
-
学部生と大学院生のための最後の AI サマーキャンプがやって来ます!
-
RAG フルスタック テクノロジーの最新概要!
-
世界初!中国国産のオープンソースAIエッジコンピューティングプラットフォーム「GPT-4o」が海外で大ヒット。わずか80億個のパラメータでiPad上で動作します。
-
ユニツリーロボットがサイバー神戸に!NVIDIAのCMU新研究:バスケットボールスターのシュート模倣、コードと論文は完全オープンソース