618ZXW

vLLMの中国語版ドキュメントが初めて公開されました!最新バージョンでは、スループットが2.7倍向上し、レイテンシが5分の1に削減され、大規模言語モデルの推論速度が向上します!

現在、大規模言語モデル(LLM)の開発は、スケールパラメータの反復的なアップグレードから、応用シナリオへの適応と革新へと拡大しています。この過程で、一連の問題も明らかになっています。例えば、推論段階における効率は比較的低く、複雑なタスクの処理に長い時間がかかるため、リアルタイム性が求められるシナリオのニーズを満たすことが困難です。リソース利用の面では、モデルの大規模性により、コンピューティングリソースとストレージリソースの消費量が膨大になり、ある程度の無駄が生じています。

これを受けて、カリフォルニア大学バークレー校の研究チームは2023年にvLLM(仮想大規模言語モデル)をオープンソース化しました。このフレームワークは大規模言語モデルにおける推論を高速化するように設計されており、優れた推論効率とリソース最適化機能により世界中で大きな注目を集めています。

国内の開発者がvLLMのバージョンアップデートや最先端の​​開発に容易にアクセスできるよう、 HyperAIは中国語版vLLMドキュメントを初めて公開しました。技術的なポピュラーサイエンスから実践的なチュートリアル、最先端の開発からメジャーアップデートまで、あらゆる内容を網羅しています。初心者の方でも、経験豊富なエキスパートの方でも、必要な価値あるコンテンツを見つけることができます。

vLLM 中国語ドキュメント:

https://vllm.hyper.ai/

vLLMの追跡:オープンソースの歴史と技術の進化

vLLMのプロトタイプは、2022年後半にカリフォルニア大学バークレー校の研究チームが、自動並列推論プロジェクト「alpa」の動作速度が非常に遅く、GPU利用率が低いことに気づいたことから生まれました。研究者たちは、大規模言語モデル推論における最適化の大きな可能性を鋭く認識していました。しかし、市場には大規模言語モデル推論に特化したオープンソースシステムは存在しませんでした。そこで、彼らは独自の大規模言語モデル推論フレームワークを構築することを決意しました。

数え切れないほどの試行錯誤を経て、彼らはオペレーティングシステムの仮想メモリとページング技術に着目し、これに基づいて2023年に画期的なアテンションアルゴリズム「PagedAttention」を提案しました。これは、アテンションキーと値を効率的に管理できるものです。これを基に、研究者らは高スループットの分散LLMサービスエンジン「vLLM」を構築し、KVキャッシュメモリの無駄をほぼゼロに抑え、大規模言語モデル推論におけるメモリ管理のボトルネック問題を解決しました。Hugging Face Transformersと比較して、スループットは24倍向上しており、この性能向上はモデルアーキテクチャの変更を必要としません。

さらに重要なのは、vLLMはハードウェアに制限されないことです。NVIDIA GPUだけでなく、AMD GPU、Intel GPU、AWS Neuron、Google TPUなど、市場に出回っている幅広いハードウェアアーキテクチャに対応しており、異なるハードウェア環境における大規模言語モデルの効率的な推論と適用を実現します。現在、vLLMは40以上のモデルアーキテクチャをサポートしており、Anyscale、AMD、NVIDIA、Google Cloudなど20社以上の企業から支援とスポンサーシップを受けています。

2023年6月、vLLMのオープンソースコードが正式にリリースされました。わずか1年で、vLLMはGitHubで21,800以上のスターを獲得しました。現在、このプロジェクトは31,000のスターを獲得しています。

vLLM は GitHub で 31,000 個のスターを獲得しました。

同年9月、研究チームは論文「PagedAttentionを用いた大規模言語モデルサービングのための効率的なメモリ管理」を発表し、vLLMの技術的詳細と利点をさらに詳しく説明しました。vLLMに関する研究はそこで終わることなく、互換性と使いやすさを重視しながら、継続的に改良を重ねました。例えば、ハードウェア適応の観点からは、vLLMをNvidia GPU以外のハードウェアで動作させるにはどうすればよいか?また、科学研究の観点からは、システム効率と推論速度をさらに向上させるにはどうすればよいか?これらはすべて、vLLMの各バージョンアップデートに反映されています。

論文の宛先:

https://dl.acm.org/doi/10.1145/3600006.3613165

vLLM システムの概要

vLLM v0.6.4 では、更新スループットが 2.7 倍向上し、レイテンシが 5 倍削減されます。

先月、vLLM はバージョン 0.6.4 に更新され、パフォーマンスの向上、モデルのサポート、マルチモーダル処理において大きな進歩を遂げました。

パフォーマンス面では、新バージョンではマルチステップ スケジューリングと非同期出力処理が導入され、 GPU の使用率が最適化され、処理効率が向上し、全体的なスループットが向上します。

vLLMテクニカル分析

  • マルチステップスケジューリングにより、vLLMは複数のステップのスケジューリングと入力準備を一度に完了できるため、GPUは各ステップでCPU命令を待つことなく、複数のステップを連続的に処理できます。これによりCPUのワークロードが分散され、GPUのアイドル時間が短縮されます。
  • 非同期出力処理により、モデル実行と並行して出力処理を実行できます。具体的には、vLLMは出力を即時処理するのではなく、ステップnの出力を処理しながらステップn+​​1を実行します。これによりリクエストごとに1ステップの追加処理が発生する可能性がありますが、GPU使用率の大幅な向上は、このコストをはるかに上回ります。

たとえば、下の図に示すように、Llama 8B モデルでは、スループットが 2.7 倍向上し、TPOT (出力タグあたりの時間) が 5 倍短縮されます。

ShareGPT データセット上の単一の H100 画像にマウントされた Llama 8B モデルでの vLLM v0.5.3 と v0.6.0 のパフォーマンス比較。

Llama 70B モデルでは、下の図に示すように、スループットが 1.8 倍増加し、TPOT が 2 倍削減されました。

4 枚の H100 シートにマウントされた 70B モデルの ShareGPT データセットにおける vLLM v0.5.3 と v0.6.0 のパフォーマンス比較。

モデルサポートに関しては、vLLMはExaone、Granite、Phi-3.5-MoEといった最先端の大規模言語モデルへの適応を新たに取り入れました。マルチモーダル領域では、複数の画像入力を処理する機能(公式ドキュメントではPhi-3-visionモデルを用いた例として示されています)とUltravoxからの複数の音声ブロックを処理する機能が追加され、マルチモーダルタスクにおけるvLLMの適用範囲がさらに拡大しました。

vLLM に関する最初の完全な中国語ドキュメントが利用可能になりました。

vLLMは、大規模モデル分野における重要な技術革新として、効率的推論の現在の方向性を象徴していることは間違いありません。中国国内の開発者がvLLMの背後にある高度な技術原理をより容易かつ正確に理解し、中国における大規模モデル開発にvLLMを導入することで、この分野の発展を促進するため、HyperAIのコミュニティボランティアは、二重の査読と翻訳を経て、オープンコラボレーションを通じて初の中国語vLLMドキュメントを完成させました。現在、hyper.aiで完全に公開されています。

vLLM 中国語ドキュメント:

https://vllm.hyper.ai/

vLLM中国語ドキュメント公式ウェブサイト

この vLLM ドキュメントでは次の内容が提供されます。

  • 初心者のための基本概念
  • すぐに始められるワンクリッククローン作成チュートリアル
  • タイムリーに更新されるvLLMナレッジベース
  • フレンドリーでオープンな中国コミュニティエコシステム

さまざまなコンピューティングチップでのvLLMのインストール方法

オープンソースの架け橋を築く: TVM、Triton、vLLMコミュニティ間のコラボレーションの旅

2022年、HyperAIはApache TVMの中国語版ドキュメントを初めて公開しました(クリックして元の記事をご覧ください:TVM中国語ウェブサイトが正式にオープン!最も包括的な機械学習モデル展開の「参考書」はこちら) 。国産チップが大きく進歩している時期に、国内のコンパイラエンジニアにTVMを理解し学習するためのインフラを提供しました。同時に、Apache TVM PMCのFeng Siyuan博士らと協力し、中国で最も活発なTVM中国語コミュニティを構築しました。オンラインとオフラインの活動を通じて、国内の主流チップメーカーの参加と支持を集め、1,000人以上のチップ開発者とコンパイラエンジニアをカバーしています。

TVM中国語ドキュメント公式サイト

TVM中国語ドキュメントアドレス:

https://tvm.hyper.ai/

2024年10月には、Triton中国語ウェブサイト(クリックして元の記事を見る:Triton中国語の最初の完全なドキュメントがオンラインになりました!GPU推論アクセラレーションの新時代の到来)を立ち上げ、AIコンパイラーコミュニティの技術的境界とコンテンツの範囲をさらに拡大しました。

Triton中国語ドキュメント公式ウェブサイト

Triton 中国語ドキュメントのアドレス:

https://triton.hyper.ai/

AIコンパイラコミュニティの構築を通して、私たちは皆様の声に耳を傾け、業界の動向を常にモニタリングしてきました。vLLMの中国語版ドキュメントの公開は、大規模モデルの急速な発展に伴い、vLLMの需要と利用が絶えず増加しているという私たちの観察を反映しています。開発者が学び、アイデアを交換し、協力するためのプラットフォームを提供することで、中国語圏における最先端技術の普及と発展を共同で促進したいと考えています。

TVM、Triton、vLLMの中国語ドキュメントの更新とメンテナンスは、中国語コミュニティの構築に不可欠です。今後、より多くのパートナーの皆様にご参加いただき、よりオープンで多様性に富み、包括的なAIオープンソースコミュニティを構築していくことを期待しています。

完全な vLLM 中国語ドキュメントを表示:

https://vllm.hyper.ai/

GitHub vLLM(中国語)にて:

https://github.com/hyperai/vllm-cn

今月、HyperAIは上海でMeet AI Compilerオフライン技術交流会を開催します。QRコードをスキャンし、メッセージに「AI Compiler」と追加してイベントグループに参加し、最新のイベント情報を入手してください。

参考文献:

1.https://blog.vllm.ai/2024/09/05/perf-update.html

2.https://www.163.com/dy/article/J6606DLJ0511B6FU.html

3.https://mp.weixin.qq.com/s/e0jc