618ZXW

推論効率が 200% 以上向上し、使いやすさは vLLM に匹敵するこの国内アクセラレーション フレームワークの背景にあるストーリーは何ですか?

2022年10月、ChatGPTのリリースをきっかけに、大規模言語モデルに代表されるAIブームが巻き起こりました。世界中のテクノロジー企業が大規模言語モデル獲得競争に参入し、大規模言語モデルの数、パラメータスケール、そして計算要件は飛躍的に増加しました。

大規模言語モデル(LLM)は、膨大な量のテキストデータで学習されたディープラーニングモデルであり、自然言語テキストを生成したり、言語テキストの意味を理解したりすることができます。大規模モデルは通常、数千億から数兆のパラメータを含み、学習中に数兆トークンを処理する必要があるため、GPUを含む計算能力に非常に高い負荷がかかり、エネルギー消費量の急増につながります。

スタンフォード人工知能研究所が発表した「2023年AIインデックスレポート」によると、GPT-3大規模言語モデルは1回の学習で1287メガワット時の電力を消費し、これは552トンの二酸化炭素排出量に相当します。AIのさらなる普及に伴い、2025年にはAI関連事業が世界のデータセンターの電力消費量に占める割合が2%から10%に増加すると予測されています。2030年には、インテリジェントコンピューティングの年間電力消費量は5000億キロワット時に達し、世界の発電量の5%を占めると予想されています。

大規模モデルが業界導入段階に入るにつれ、コンピューティング能力とエネルギー消費に加え、カスタマイズと運用コストが新たな主要課題となっています。例えば、新たにリリースされたLlama 3.1 405Bは450GBのビデオメモリを必要とします。A800で0.6B Pixartを使用して4096ピクセルの画像を生成するには3分かかり、ビジネスアプリケーションへの要求は非常に高くなります。

コストを削減し、効率性を向上させながら、大規模なモデルをより多くの業務オペレーションに適用する方法は、業界が解決しなければならない共通の課題となっています。

業界向け推論エンジンソリューション

大規模言語モデルとユーザーとの相互作用において、推論フレームワークはAIの中核エンジンであり、ユーザーからのリクエストの受信、処理、そして応答を担います。AI業界全体が、コンピューティングリソースを効率的に活用し、より多くの推論リクエストを並列処理する方法を模索しています。これにより、既存の推論アーキテクチャを最適化し、新たな異種コンピューティングソリューションを生み出すことができます。

vLLMは、カリフォルニア大学バークレー校が開発した大規模言語モデル向けのオープンソース高速推論フレームワークです。Pag​​edAttentionを用いてアテンションキーと値のメモリを効率的に管理し、連続バッチ処理と高速モデル実行をサポートします。また、オペレーティングシステムの仮想メモリページング概念を導入することで、リアルタイムシナリオにおける言語モデルサービスのスループットとメモリ使用効率を向上させます。

vLLM以外にも、大規模モデルの上流および下流の多くのメーカーが独自のソリューションを提案しています。

テキスト生成推論 (TGI) は、Hugging Face がリリースしたツールであり、Hugging Face 推論 API と Hugging Chat での LLM 推論をサポートし、大規模言語モデルの最適化された推論をサポートするように設計されています。

TensorRT-LLMは、NVIDIAが開発したツールで、TensorRT推論エンジンをベースにした大規模なTransformer型モデルの推論を最適化します。カーネル融合、行列乗算最適化、量子化を考慮したトレーニングなど、様々な最適化手法をサポートし、推論性能を向上させます。

DeepSpeedは、Microsoftが開発した分散トレーニングツールです。大規模モデルをサポートするように設計されており、ゼロロードやオフロードといった、より多くの最適化戦略とツールを提供しています。データ並列、モデル並列、パイプライン並列、そしてそれらの組み合わせ(3D並列)といった複数の並列戦略をサポートし、多次元でモデルのトレーニングと推論を最適化できます。

LightLLMは、軽量設計、拡張性、高速パフォーマンスで知られるPythonベースのLLM推論およびサービスフレームワークです。LightLLMは、Faster Transformer、TGI、vLLM、Flash Attentionなど、高く評価されている多くのオープンソース実装の利点を活用しています。

これらのフレームワークはそれぞれ異なる技術的特性を持ち、具体的なパフォーマンスと利点はアプリケーションシナリオ、モデル構成、ハードウェア環境によって異なりますが、依然として根本的なコスト問題は解決されていません。この問題を解決するため、テンセントはTACO-LLM大規模モデル推論加速フレームワークをリリースし、カスタマイズ、自社構築システム、クラウド展開、プライベート展開など、包括的な展開ソリューションと極めて高いコスト効率を実現しました。

TACO-LLM はどのようにしてコスト削減と効率向上を実現するのでしょうか?

TACO-LLM(TencentCloud Accelerated Computing Optimization LLM)は、Tencent Cloudの異種コンピューティング製品をベースとした大規模言語モデル推論加速エンジンです。コンピューティングリソースの並列コンピューティング能力を最大限に活用することで、より多くのユーザーリクエストを同時に処理し、言語モデルの推論性能を向上させ、高スループットと低レイテンシを両立させた最適化ソリューションをお客様に提供することで、お客様のコスト削減と効率向上に貢献します。

様々な応用シナリオにおいて、Taco-LLM最適化は大きく4つのタイプに分類できます。世代最適化、事前充填最適化、長シーケンス最適化、そして高性能量子化演算子です。以下では、これら4つのシナリオについて詳しく説明します。

並列デコードを使用した世代最適化

生成最適化は、自己回帰LLMにおける最も重要な最適化の一つであり、ほぼすべてのLLM応用シナリオをカバーします。例としては、コピーライティング、インテリジェントカスタマーサービス、チャットボット、コード生成、コンサルティングシステム、AIアシスタントなどが挙げられます。Taco-LLMは、並列デコードと高性能演算子を活用しています。Taco-LLMで並列デコードを使用する主な利点は次のとおりです。

1. 並列デコードにより、Transformer-Decoder アーキテクチャの回帰制限が克服され、生成プロセスにおける帯域幅制限の問題が軽減されます。

2. 生成プロセスのバッチ サイズを単純に増やす場合と比較して、並列デコードでは各リクエストのレイテンシが短縮されるためスループットが向上し、TPOT が低くなることが保証されます。

3. メモリ帯域幅を増やす異種ソリューションと比較して、並列デコードでは異種クラスターを必要としないため、導入コストが低くなり、システムがよりシンプルで保守しやすくなります。

Taco-LLMの並列デコードにおける主なアプローチは、自己予測方式です。まず、この方式は、小規模モデルの取得元に関する問題を解決します。小規模モデルとしては、大規模モデルのレイヤーの一部、または量子化された大規模モデルのみを使用するため、ユーザーはドラフトモデルの存在を意識する必要がありません。次に、この方式は他の方式と比較してヒット率が高く、冗長な計算量が少ないため、主に70Bを超える大規模モデルの推論を高速化するために使用されます。Taco-LLMは、自己予測方式に加えて、RawLookaheadCacheとTurboLookaheadCacheという2つのキャッシュ方式もサポートしており、冗長な計算量をさらに削減し、パフォーマンスと全体的なヒット率を向上させます。

プレフィックスキャッシュ技術を使用してTTFTを削減する

プリフィル最適化の主な目的は、TTFTを削減し、ユーザーエクスペリエンスを向上させることです。ここでの一般的な最適化は、マルチGPU並列処理、例えばトップティア(TP)GPUとスタンドアロン(SP)GPUの両方を使用してTTFTを削減することです。Taco-LLMは、GPUとCPUを組み合わせたマルチレベルプレフィックスキャッシュ技術を用いてこれを実現し、プリフィルフェーズの計算に関与する代わりに、履歴キーバリュー(kv)キャッシュを参照することでプロンプトトークンの一部を取得できるようにします。これにより計算負荷が軽減され、TTFTが削減されます。この技術は、コードアシスタントのシナリオで特に効果的です。

プリフィルの実行時間を短縮するため、過去のリクエストのプリフィルキャッシュはプレフィックスツリー構造を用いてGPUとCPUに保存されます。これにより、プリフィル計算プロセスがKVキャッシュ検索プロセスに変換され、見つからないトークンもプリフィル計算に含まれるため、計算オーバーヘッドとTTFTが削減されます。下の図をご覧ください。

長シーケンス推論最適化におけるTurboAttention

長シーケンス最適化は、テキスト要約や情報検索などのプレフィル段階における長シーケンスと、長文テキスト作成などの生成段階における長シーケンスに分けられます。前者ではプレフィックスキャッシュとマルチGPU並列推論技術を活用し、後者では独自のTurbo Attentionシリーズ演算子と最適化された量子化演算子を開発しました。

Taco-LLMの長いシーケンス機能は、主にTurboAttention、プレフィックスキャッシュ、そしてシーケンス並列処理に反映されています。このセクションでは主にTurboAttentionについて紹介します。TurboAttentionはページ管理メカニズムとフラッシュメカニズムを組み合わせ、そのカーネルは長いシーケンスにおける先読みのために特別に実装されています(次の図を参照)。

LLM量子化技術による推論コストの削減

LLMモデルのパラメータ数が急増するにつれて、LLMの推論レイテンシとコストも急激に増加します。LLM量子化技術は、LLM推論性能を最適化し、推論コストを削減するための重要な手段となっています。テキスト分類、テキスト異常検出、テキストポリッシングなど、高い精度が求められないシナリオでは、量子化は多くの場合良好な結果をもたらし、GPUメモリ使用量を効果的に削減し、推論速度を向上させます。

期待される量子化目標を達成するには、効率的な量子化演算子の実装が不可欠です。Taco-LLMは、重み計算を考慮した再配置、タスクスケジューリングと同期戦略、高速逆量子化、整数スケール技術など、GEMMおよびAttention演算子向けの効率的な量子化演算子技術をいくつか開発しました。

要約すると、Taco-LLM の最適化には、並列デコードと LookaheadCache による投機的サンプリング、GPU と CPU のマルチレベル キャッシング テクノロジ、および Prefix Cache のメモリ管理テクノロジが含まれます。長いシーケンスには主に、自社開発の TurboAttention シリーズ オペレータ、Prefix Cache、およびシーケンス並列処理が含まれます。高性能量子化オペレータには、W4A8、W4A16、W8A16、W8A8 などの量子化オペレータの Taco-LLM の効率的な実装が含まれます。

TACO-LLMの実践的成果と応用事例

TACO-LLM は、さまざまな最適化技術により、既存のオープンソースおよびベンダー フレームワークと比較してパフォーマンスとコストの面で大きな利点があり、使いやすさの点では vLLM と完全に一致しています。

TACOのパフォーマンス上の優位性は、大規模サービスにおけるスループットの向上とレイテンシの低減に直接反映されています。TACOアクセラレーションエンジンのサポートにより、同一のハードウェアデバイス上で処理可能なトークン数が大幅に増加します。以前は1秒あたり100トークンしか処理できなかったのに対し、TACOは1秒あたり200トークン、さらには300トークンも処理できるようになりました。このスループットの向上はレイテンシを犠牲にすることなく実現されています。むしろ、トークンあたりの平均処理時間が大幅に短縮されるため、応答効率とユーザーエクスペリエンスが向上し、結果としてLLM導入コストの大幅な削減につながります。

Llama-3.1 70Bモデルを例にとると、4つのAmpereインスタンスを使用し、入力シーケンス長が約1K、出力が約400、Bs = 1、2、4、8のテストシナリオでは、業界の主流であるvLLMと比較して、TACO-LLMのスループットパフォーマンスはコミュニティの最先端技術の1.8〜2.5倍高く、運用コストは44〜64%削減され、使用量とAPI呼び出しは一貫しており、シームレスな切り替えをサポートしています。

Llama-3.1 70Bを例に挙げると、TACO-LLMを使用した導入コストは100万トークンあたり0.5ドル未満と低く、MaaS APIを直接呼び出す場合と比較して60%以上のコスト削減を実現します。同時に、一貫した使用率とAPI呼び出しを維持し、シームレスな切り替えをサポートします。TACO-LLMの優れたエネルギー効率は、LLMのビジネスコストを大幅に削減し、幅広い実環境におけるコスト削減と効率向上を実現します。

WeChat内のテキスト処理ビジネスにおいて、TACO-LLMは競合製品と比較してスループット性能が2.8倍向上し、運用コストが64%削減され、タイムアウト障害が95%削減され、最大テキスト長のサポートがさらに拡張されました。

大手ビデオプラットフォーム事業において、クライアントは自社構築のハイエンドインスタンス上に推論サービスをデプロイしたいと考えており、ベンダーの公式推論フレームワークと比較して50%以上のパフォーマンス向上が求められていました。最終的に、TACO-LLMは、異なるビジネスサイクル(BS)において競合製品と比較して1.7~2.5倍のパフォーマンス向上を達成しました

SF Expressのある業務では、TACO-LLMは、異なるカットオフ値(bs)の短い出力シナリオで2〜3倍の高速化を達成しました。また、異なるカットオフ値の長い出力シナリオでは、 1.4〜1.99倍の高速化を達成しました

TACO-LLMの登場により、AIの利用における高コストという従来の制約が打破されました。高スループットと低レイテンシというユーザーのニーズを満たすだけでなく、企業のコスト削減と効率向上にも貢献し、大規模言語モデルの適用においてより効率的で経済的なソリューションを提供します。

今後、技術の継続的な進化により、TACO-LLM はより多くの分野で広く活用され、産業の発展と革新を促進し、AI が真に人々の生活に入り込み、人々の学習と生活の強力なアシスタントになることが期待されます。