618ZXW

大規模モデル応用の新たな戦場:端末側におけるAI競争の鍵を解き明かす | 端末の知能

2024 年の 3 分の 2 が過ぎ、大規模モデルの分野では次のようなコンセンサスがますます明確になりつつあります。

AI技術の真の価値は、そのアクセスしやすさにあります。アプリケーションがなければ、基本モデルはその価値を実現できません

そのため、過去6ヶ月を振り返ると、大手インターネット企業から携帯電話メーカーまで、誰もがAI時代のキラーアプリを見つけようと競い合ってきました。この傾向は、トップクラスの学術会議にも現れ始めています。

産業界と学界の両方から注目を集めている中心的な問題の 1 つは次のとおりです。

大規模モデルの制限を考慮すると、携帯電話などの計算能力が限られた端末デバイス上で AIGC アプリケーションをよりスムーズに実装するにはどうすればよいでしょうか。

△ミッドジャーニー世代

最近では、ICML (International Conference on Machine Learning) や CVPR (IEEE International Conference on Computer Vision and Pattern Recognition) などのトップカンファレンスでの最新の技術プレゼンテーションや採択論文により、より詳しい情報が明らかになっています。

まとめる時間です。

AI アプリケーションの背後では、どのような研究が注目されているのでしょうか?

まずは、AIアプリケーションがクラウドから端末までどこまで進化してきたかを見てみましょう。

現在、多くの Android スマートフォンメーカーは、大規模モデル/AIGC アプリケーションの分野で Qualcomm と緊密な協力関係を維持しています。

Qualcomm の技術デモは、CVPR 2024 などのトップカンファレンスで大きな注目を集めました。

たとえば、Android フォンで、マルチモーダル大規模モデル (LLaVA) のローカル展開を実装します。

△Qualcomm ResearchがYouTubeで公開

これは70億のパラメータを持つ大規模なマルチモーダルモデルであり、テキストや画像を含む様々なデータ入力タイプをサポートします。また、画像を中心としたマルチターン対話もサポートします。

このように、子犬の写真を見せれば、写真に写っている情報を説明できるだけでなく、その犬がペットとして飼うのに適しているかどうかなど、さまざまな話題について会話を続けてくれます。

△MWCバルセロナのクアルコムブースでQuantumBitが行った公式デモ

Qualcomm は、Android スマートフォンで実行される LoRA のインスタンスも実演しました。

△Qualcomm ResearchがYouTubeで公開

また、音声駆動型の 3D デジタル ヒューマン AI アシスタントは、オフラインでもローカルで実行できます。

現在利用可能なデモ プロトタイプは、携帯電話メーカーによる変更と最適化と相まって、一般ユーザーにとって、新しいゲームプレイとそれがもたらす可能性が間もなく実現し、まもなく自分のデバイスで利用できるようになります。

しかし、このトップカンファレンスでさらに注目を集めたのは、デモに加えて、アプリケーションの背後で優先される必要のある主要なテクノロジーを詳しく説明したクアルコムの最新の一連の論文でした。

定量化

その1つが定量化です。

大規模モデル/AIGC アプリケーションをモバイル デバイスやその他の端末デバイスに展開する際の主な課題の 1 つは、高性能な推論を実現することです。

量子化は、コンピューティング性能とメモリ効率を向上させる最も効果的な方法の一つです。さらに、Qualcommは、低ビット整数精度の使用がエネルギー効率の高い推論に不可欠であると考えています。

Qualcomm の調査によると、生成 AI の場合、Transformer に基づく大規模な言語モデルはメモリによって制限され、8 ビット (INT8) または 4 ビット (INT4) の重みへの量子化によって、効率性が大幅に向上することが多いことがわかりました。

これらのうち、4ビット重み量子化は、大規模言語モデルだけでなく、学習後量子化(PTQ)においても最適なパフォーマンスを実現できます。この効率向上は、浮動小数点モデルを上回ります。

具体的には、Qualcomm の調査によると、量子化を考慮したトレーニング (QAT) などの量子化研究の助けを借りて、多くの生成 AI モデルを INT4 モデルに量子化できることが示されています。

INT4 モデルは、精度とパフォーマンスを損なうことなく、より多くの電力を節約し、INT8 と比較して 90% のパフォーマンス向上と 60% のエネルギー効率向上を実現します。

今年、Qualcomm は、大規模な言語モデルの計算とメモリ使用量の効率を高める LR-QAT (Low-Rank Quantization Aware Training) と呼ばれるアルゴリズムも提案しました。

LoRA にヒントを得た LR-QAT は、低ランクの補助重みを導入して整数領域に配置する低ランクの重いパラメータ化手法を採用し、精度を犠牲にすることなく効率的な推論を実現します。

Llama 2/3 および Mistral シリーズ モデルでの実験結果では、LR-QAT はフル モデル QAT よりも大幅に低いメモリ使用量で同じパフォーマンスを実現することが示されています。

さらに、クアルコムはベクトル量子化(VQ)技術にも注力しています。従来の量子化手法とは異なり、VQはパラメータの結合分布を考慮するため、より効率的な圧縮と情報損失の低減を実現できます。

コンピレーション

AI モデルをハードウェア アーキテクチャに展開するプロセスでは、コンパイラーが、最高のパフォーマンスと最低の消費電力で AI モデルが効率的に実行されるようにする鍵となります。

コンパイルには、計算グラフのパーティション分割、マッピング、ソート、スケジュールなどの手順が含まれます。

Qualcomm は、従来のコンパイラ技術、多面体 AI エディター、AI のエディター組み合わせ最適化において、多大な技術的成果を積み重ねてきました。

たとえば、Qualcomm AI Engine Direct フレームワークは、Qualcomm Hexagon NPU のハードウェア アーキテクチャとメモリ階層に基づいて操作をソートし、メモリ オーバーフローを最小限に抑えながらパフォーマンスを向上させます。

ハードウェアアクセラレーション

端末側での AI アクセラレーションはハードウェアのサポートなしでは実現できません。

ハードウェアに関しては、Qualcomm AI エンジンは、Hexagon NPU、Qualcomm Adreno GPU、Qualcomm Kryo CPU、Qualcomm Orion CPU などの異種コンピューティング アーキテクチャを使用します。

その中で、Hexagon NPUは現在、QualcommのAIエンジンの重要なプロセッサとなっています。

第 3 世代の Snapdragon 8 モバイル プラットフォームを例にとると、Hexagon NPU はパフォーマンスの面で前世代よりも 98% 高速化され、消費電力は 40% 削減されます。

アーキテクチャ面では、Hexagon NPUは完全に新しいマイクロアーキテクチャを採用しています。前世代機と比較して、ベクトルアクセラレータのクロック速度の向上、推論技術の強化、そしてより高速でより多くのTransformerネットワークのサポートにより、Hexagon NPUの生成AIへの応答性が包括的に向上し、モバイルデバイス上の大規模モデルがユーザーの質問に「即座に回答」することを可能にします。

第3世代Snapdragon 8では、Hexagon NPUに加えて、Qualcommのセンサーハブにも力を入れており、次世代マイクロNPUを追加し、AIパフォーマンスを3.5倍向上させ、メモリを30%増加させています。

実際、大規模モデル/AIGCアプリケーションを端末側に移行するトレンドの中で最も注目されている技術の1つとして、クアルコムのAI研究レイアウトは、上記の重要なポイントに加えて、より幅広い分野に長く広がっています。

CVPR 2024採択論文を例に挙げると、生成AI分野において、Qualcommは拡散モデルの効率を向上させる手法「Clockwork Diffusion 」を提案しました。この手法は、Stable Diffusion v1.5の知覚スコアを向上させると同時に、計算​​電力消費を最大32%削減し、SDモデルを低電力エッジデバイスにより適したものにしています。

また、モバイルフォンだけにとどまらず、クアルコムは、XRや自動運転分野の実用的なニーズを満たすために、効率的なマルチビュービデオ圧縮方式(LLSS)などの技術も研究しています。

Qualcomm は、AI ビデオ生成など、現在注目されている研究分野でも新たな取り組みを行っています。

私たちは、エッジAI向けの効率的なビデオアーキテクチャを開発しています。例えば、ビデオからビデオを生成するAI技術であるFAIRYの最適化に取り組んでいます。FAIRYの第一段階では、アンカーフレームから状態を抽出します。第二段階では、残りのフレームにまたがってビデオを編集します。最適化の例としては、クロスフレーム最適化、効率的なinstructPix2Pix、画像/テキストガイドによる調整などが挙げられます。

基盤技術がAIイノベーションを推進

大規模モデルの応用は現在のトレンドです。これらの応用がさらに発展するにつれて、重要な問題がますます明らかになってきます。

アプリケーションのイノベーションのスピードは、技術基盤がしっかりしていて堅牢であるかどうかによって決まります。

ここでの技術基盤とは、基本モデルそのものだけでなく、モデルの量子化や圧縮から展開に至るまでのフルスタック AI 最適化も指します。

これは次のように理解できます。基本モデルが大規模モデルの適用効果の上限を決定するとすれば、一連の AI 最適化テクノロジが端末側での大規模モデルの適用エクスペリエンスの下限を決定します。

一般消費者として、私たちはクアルコムのようなテクノロジー企業が理論研究で急速な進歩を遂げているだけでなく、アプリケーション、ニューラルネットワークモデル、アルゴリズム、ソフトウェア、ハードウェアを網羅したフルスタックAI研究と最適化の実用展開を加速しているという事実に期待することができます。

クアルコムのAIソフトウェアスタックを例に挙げましょう。これは多数のAI技術を網羅したツールキットであり、様々な主流のAIフレームワーク、様々なオペレーティングシステム、そして様々なプログラミング言語を完全にサポートすることで、スマート端末における様々なAIソフトウェアの互換性を向上させています。

また、AI モデル拡張ツールキット、モデル アナライザー、Neural Architecture Search (NAS) など、Qualcomm のすべての AI ツールを統合した Qualcomm AI Studio も含まれています。

さらに重要なのは、Qualcomm AI ソフトウェア スタックに基づいて、開発者はたった 1 回の開発作業で、対応する AI モデルをいつでもどこでもさまざまなデバイスに展開できることです。

言い換えれば、Qualcomm の AI ソフトウェア スタックは「コンバーター」として機能し、さまざまなスマート デバイスに大規模なモデルを展開する際の大きな課題であるデバイス間の移行を解決します。

これにより、大規模なアプリケーションをクラウドからモバイルデバイスに移行できるだけでなく、自動車、XR、PC、IoT デバイスにさらに迅速に統合できるようになります。

この時点で、誰もが世界を変え、さらに激動の波を生み出すであろうテクノロジーの動向に期待を抱いています。

そして、時代の最先端を走る人々は、テクノロジーの歴史の中で繰り返し探求されてきた事実を再び証明しています。テクノロジーをリードする人々は皆、基礎的なテクノロジーを重視する「発明家文化」を持っています。

最新の技術トレンドに対応するだけでなく、事前に計画を立て、根本的な問題の解決を主導することも重要です。

Qualcomm もホワイトペーパー「AI をアクセス可能にする」の中でこの点について言及しています。

Qualcomm は 15 年以上にわたって AI の研究開発に深く関わっており、認識、推論、動作などのコア機能をデバイス上で広く利用できるようにすることに取り組んでいます。

これらの AI 研究とそれに基づいて作成された論文は、Qualcomm の技術戦略に影響を与えるだけでなく、業界全体の AI の発展にも影響を与えています。

大型模型の時代になっても「発明家文化」は続いています。

まさにこの文化こそが、新技術の普及を継続的に促進し、市場競争と繁栄を促進し、さらなる産業革新と発展を推進するものなのです。

どう思いますか?

- 以上-