|
1 枚のカードで Llama 3.1 (405B) を処理できる新しい大規模モデル圧縮ツールが登場しました。 Llama-3.1 は最近オープンソースの頂点に達しましたが、その最も強力な 405B バージョン モデルは、900 GB を超えるメモリ要件を備えており、リソースに対してさらに厳しい課題を突きつけています。 北京航空航天大学、SenseTime、南洋理工大学のチームが共同で開発した大規模モデル圧縮ツールとベンチマークLLMC は、この問題を効果的に解決できます。 80G A100 のみで Llama 3.1 405B のキャリブレーションと評価が可能になり、超低コストで量子化を実現します。 さまざまな圧縮アルゴリズム、モデル、推論バックエンドをサポートし、強力なスケーラビリティと包括的な評価機能を備えています。 研究チームは現在、GitHub ホームページに使用方法を掲載しており、この記事の末尾にあるリンクをクリックするとアクセスできます。 Llama 3.1 はサイズが大きく、圧縮が困難です。低ビット量子化は、リソース制約のある問題を解決するための一般的な手法です。この目的のために、研究者たちはLLMCを用いてLlama 3.1を量子化および圧縮しました。 結果は表1に示す。QuaRotやAWQといったLLMCの一部のアルゴリズムは、70Bや405Bのパラメータを持つモデルにおいて量子化精度を効果的に維持できる。しかし、最も単純な「ナイーブ」な丸めアルゴリズムは、これらの大規模モデルにおいて、特に活性化が量子化されている場合に、精度が大幅に低下する。 研究チームは、Llama 3.1シリーズモデルの量子化精度の低下は、活性化テンソルにおける外れ値の存在に起因しており、これらの外れ値は他のモデルと比較して顕著であることを発見しました。これらの外れ値は、Llama 3.1モデルのサイズが大きくなるにつれて顕著になります。外れ値とは、データ内の特定の値が他の値と大きく異なる点であり、量子化精度に影響を与える重要な要因です。 研究チームはLLMCツールを使用して、Llama 3.1シリーズモデル(8B、70B、405B)の最初のブロック(q_proj、o_proj、gate_proj、down_proj)の入力活性化テンソルを可視化しました(図1~3参照)。各サブプロットの下部には、その層の活性化値に対するすべてのトークンの尖度(Kurtosis)の平均と標準偏差が表示されています。 図 1 ~ 3 からわかるように、Llama 3.1 シリーズ モデルでは活性化テンソルの一部のチャネルに外れ値が存在し、この現象は大規模なモデルでより顕著になります。 したがって、 Llama 3.1 405B モデルは強力になったものの、より「異常」になり、定量化がより困難になったと推測するのが妥当です。 LLMCツールは、AWQ、SmoothQuant、OS+、QuaRotなど、大規模なモデルの外れ値を抑制するための幅広い量子化アルゴリズムをサポートしています。表1に示すように、これらの手法は外れ値を効果的に抑制することで、Llama 3.1の量子化精度を大幅に向上させます。例えば、405BモデルのW8A8量子化では、SmoothQuant、OS+、QuaRotは浮動小数点モデルにほぼ匹敵する精度を実現できます。 LLMC: 大型モデルをスリム化するためのワンストップツールキット△LLMCフレームワーク図 多様なアルゴリズムをサポート。LLMCは、重みのみ、重み付き活性化、混合精度量子化など、16種類の量子化手法を含む幅広い圧縮アルゴリズムをサポートしています。この多様性により、様々な手法の公平な比較と詳細な分析が可能になります。量子化に加えて、現在、様々な種類のスパース性および関連アルゴリズムもサポートしています。 △LLMCが現在サポートしているハードウェアフレンドリーな圧縮アルゴリズムの分類 高精度アライメント。LLMCチームは、確立されたいくつかの量子化アルゴリズム(LLMCと元の論文/コード)を比較するアライメント実験を数回実施しました。 実験のセットアップは、元の論文のセットアップまたはそのオープンソース コードのデフォルト設定と同じです (表 3 を参照)。 これらの実験結果は表4~6にまとめられています。表の結果は、LLMCツールが文献で報告されている元の量子化アルゴリズムとほぼ同一の性能を示すことを示しています。これらの実験は、LLMCが効果的であるだけでなく、既存の量子化手法の結果を再現する上で信頼性が高いことを示しています。これにより、LLM量子化研究へのLLMCツールの貢献は信頼性が高く、価値あるものであることが保証されます。 超低コストでの量子化。LLMCツールキットはリソースを効率的に利用するように設計されており、最小限のハードウェア要件で大規模モデルを実行できます。単一ブロックレベルの演算により、Llama 3.1 405Bのキャリブレーションと評価は80G A100プロセッサ1個で完了し、超低コストでの量子化を実現します。 マルチバックエンド互換性。LLMCは、さまざまな量子化設定とモデル形式をサポートしており、LightLLM、TRT-LLM、PPL-LLM、vLLM、MLC-TVM、llama.cppなどの複数のバックエンドおよびハードウェアプラットフォームと互換性があり、高い汎用性を発揮します。 高いスケーラビリティ。このツールキットは高度にモジュール化され、スケーラブルです。整数量子化から浮動小数点量子化、稠密モデルからエキスパート混合モデル(MoE)、LLMから視覚言語モデル(VLM)、量子化からスパース性まで、あらゆる分野に容易に適応できます。このモジュール設計により、ユーザーはニーズに合わせてツールキットを拡張およびカスタマイズできます。 多様な評価手法。LLMCは圧縮モデルの包括的な評価を提供し、パープレキシティ(PPL)、データ可視化、尖度、誤差、外れ値分布といった詳細なパフォーマンス指標と分析を提供します。この包括的な評価機能により、ユーザーはモデルに最適な圧縮戦略について十分な情報に基づいた意思決定を行うことができます。 LLMC チームは、さまざまな圧縮アルゴリズム、モデル、推論バックエンドをサポートし、強力なスケーラビリティと包括的な評価機能を備えた多用途の大規模モデル圧縮ツールキットである LLMC をリリースしました。 このツールキットにより、数千億パラメータのLLMを単一のGPUで圧縮することができ、LLM量子化の適用が大幅に容易になります。この強力なツールキットを活用することで、大規模モデルの将来の研究者だけでなく、一般ユーザーも、適切なアルゴリズムと対応するバックエンドプラットフォームに必要なフォーマットをアプリケーションに効果的に統合することができ、大規模モデル圧縮の応用を促進できます。 ツールアドレス: https://github.com/ModelTC/llmc 論文アドレス: https://arxiv.org/abs/2405.06001 |
Llama 3.1 405Bを1枚のカードで処理できるので、大型モデルも簡単に小型化できます!強力な圧縮ツールキットが登場!
関連するおすすめ記事
-
北京市政府が主導するファンドがBose QuantumのシリーズA+資金調達ラウンドを主導。
-
OpenAI は推論コンピューティング能力の新しいスケーリング法を開拓し、AI PC と CPU にチャンスを創出しています。
-
数学におけるAIの神話は打ち砕かれました!FrontierMathはLLM学生にほとんど進歩をもたらしませんでした。正解率は2%未満です。
-
論文発表は難しい!OpenAIの幹部がまた一人辞め、長文の辞表まで提出した。
-
清華大学のチームは、インテリジェントな社会統治と研究におけるパラダイムシフトを推進するために、大規模な社会シミュレーター「AgentSociety」を構築しました。
-
GPT-4o は、追加料金を支払うことでさらに高速化できます。新機能では、以前の 23 秒に比べて 7 秒でタスクを完了します。