618ZXW

高性能、低電力の NPU と組み合わせた異種コンピューティング: Qualcomm はエッジでの生成 AI の開発を推進しています。

9月6日、2024年グローバルAIチップサミットが北京で開催されました。今年で6年目を迎えるグローバルAIチップサミットは、中国で最大規模、最高レベル、そして最も影響力のある業界サミットの一つとなっています。今年のサミットは「インテリジェントコンピューティング時代へのチップロードの構築」をテーマに、AIチップ、チップレット、RISC-V、インテリジェントコンピューティングクラスター、AIインフラシステムソフトウェアの各分野から50名を超えるゲストが集まり、報告、講演、ハイレベル対話、円卓討論などを行い、AIチップがいかにしてインテリジェントコンピューティングの新時代の基礎を築いているかについて、包括的な分析を行いました。

クアルコム中国AI製品技術責任者の万維星氏は、会議の開会式に招待され、「オンデバイスAIイノベーションがインテリジェントコンピューティングの新たな体験を切り開く」というテーマで講演を行いました。講演の中で、万氏はクアルコムがAI分野を深く開拓し続けると述べました。生成AIの急速な発展に直面している中、クアルコムの先進的なSoCソリューションは、高性能で低消費電力の異種コンピューティングシステムと強力なNPUを提供し、今日の豊富な生成AIユースケースの多様なニーズとコンピューティングパワー要件を満たし、最適なパフォーマンスとエネルギー効率を実現するために不可欠です。クアルコムの先進的な第3世代Snapdragon 8モバイルプラットフォームとSnapdragon X Eliteコンピューティングプラットフォームを活用し、オンデバイス生成AIは現在、フラッグシップデバイスとユースケースに適用されつつあり、オンデバイス生成AI時代の到来を告げています。

演説の全文は次のとおりです。

皆さん、おはようございます!主催者の皆様、ご招待いただき誠にありがとうございます。おかげさまで、再びQualcommを代表してこのイベントに出席し、現在最も注目されている生成AI分野におけるQualcommの取り組みの一部をご紹介させていただきます。本日のプレゼンテーションのタイトルは「オンデバイスAIイノベーションがインテリジェントコンピューティングにおける新たな体験を解き放つ」です。

チップメーカーであるQualcommは、AIアプリケーションを高速化するために、高性能で低消費電力のNPUを特別に設計しました。まず、この高性能で低消費電力のNPUの進化の軌跡を簡単に紹介します。これは、上位層のAIユースケースが基盤となるハードウェア設計を牽引するという、非常に典型的な進化プロセスです。2015年頃、ほとんどの人が慣れ親しんでいたAIユースケースは、音声認識、音声ウェイクアップ、画像分類、画像認識など、比較的単純なものでした。これらのユースケースの基盤モデルは、比較的浅く小規模なCNNネットワークでした。当時、私たちはこのNPUにスカラーおよびベクターのハードウェアアクセラレーションユニットを搭載し、パフォーマンス要件を満たしました。

2016年以降、計算写真の概念が市場に広まり、私たちは研究対象を従来の音声認識や画像分類から画像や動画の処理へと拡大しました。ピクセルレベルの処理にはますます高い計算能力が求められるようになり、これらのアプリケーションを支えるモデルには、大規模で多層的なCNNネットワークだけでなく、LSTM、RNN、そして今ではおなじみのTransformerといった新しいタイプのネットワークも含まれています。これらのネットワークは計算能力と消費電力の要件に非常に敏感であるため、スカラーおよびベクトルアクセラレーションユニットに加えてテンソルアクセラレータを搭載し、より豊富な計算能力を提供することで、ピクセルレベルの処理、Transformerのテンポラルネットワーク、そして全体的な計算能力に対するアプリケーションの要件を満たすことができました。

2023年以降、大規模モデル、特に大規模言語モデルの人気が高まり始めました。実際、大規模音声モデルの70%以上がTransformerをベースにしています。そのため、このNPUにはTransformerのサポートを特に搭載しました。同時に、スカラー、ベクトル、テンソル関数のハードウェアアクセラレーションを維持しながら、独自のマイクロスライス推論技術の統合を含む、より多くのハードウェアアクセラレーションユニットを追加することで、高い計算負荷とTransformerの並列化要件を持つモデルの推論をさらに高速化しました。

今後もNPUへの投資を拡大していきます。生成AIの未来は間違いなくマルチモーダル化です。そのため、今年は非常に大規模なマルチモーダルモデルをデバイス上で完全に実行できるように取り組んでいます。今年2月に開催されたMWC Barcelona 2024では、Qualcommが第3世代Snapdragon 8モバイルプラットフォームをベースとしたデモを披露しました。このデモでは、70億を超えるパラメータを持つマルチモーダル言語モデル(LMM)をデバイス上で完全に実行できました。

モデル規模に関しては、Qualcommは今後、より大規模な言語モデルをサポートする予定です。今年は、100億を超えるパラメータを持つ言語モデルがデバイス側で完全に動作するようになると予想しています。もちろん、デバイス側で実行する必要があるモデルの規模は、実際のユースケースとそれらのユースケースにおけるKPI要件によって異なります。

なぜ私たちは生成AIモデルの推論をデバイス側で行うことに重点を置いているのでしょうか?デバイス上でのAI処理は、コスト、パーソナライゼーション、レイテンシーの面でメリットがありますが、最も重要な要素はプライバシーだと考えています。ユーザーの観点からすると、スマートフォンやPCなどの個人用デバイスに保存されている個人情報、チャットログ、フォトアルバム情報、さらには生体認証データまでもが、クラウドにアップロードされて処理されることは望んでいません。大規模な言語モデルと大規模な視覚モデルを実行し、これらのデータをデバイス側で処理することで、一般ユーザーのプライバシーを効果的に保護できると考えています。別の観点から見ると、デバイス側はデータ生成に最も近いポイントです。これは、このデータを生成するデバイスには、マイク、カメラ、各種センサーデータなどが含まれるためです。データ生成時点でデータを処理することは、ユーザーのプライバシーを保護する自然な方法です。

Qualcomm Hexagon NPUといえば、Snapdragonプラットフォーム搭載のスマートフォンを思い浮かべる方が多いかもしれません。しかし、QualcommはSnapdragonモバイルプラットフォーム以外にも、自動車、IoT、PC、ウェアラブルデバイスなど、幅広い製品ラインを提供しています。Qualcomm Hexagon NPUはすでに当社の製品の大部分に搭載されており、パートナー企業や開発者の皆様は、NPUを活用してアルゴリズムを高速化し、多様な製品形態において豊富なコンピューティングパワーを享受できます。ハードウェアに加えて、Qualcommは統合型AIスタックも提供しており、OEM企業や開発者の皆様は、Qualcommがサポートする様々な製品形態にAIモデルを展開・最適化することができます。

次に、Qualcomm Hexagon NPUのハードウェアアーキテクチャを詳しく見ていきましょう。第3世代Snapdragon 8を例に挙げると、Qualcomm Hexagon NPUの最も重要なコンポーネントは、テンソル、ベクター、スカラーという3つの主要なアクセラレーションユニットです。これらのユニットはそれぞれ異なるデータ型を処理できます。例えば、テンソルアクセラレータは畳み込み演算とテンソルデータを処理できます。さらに、オンチップメモリ​​を搭載しているため、これら3つのアクセラレータはより効率的に連携できます。ニューラルネットワークの推論には多くの層が含まれ、各層の間には中間データがあります。キャッシュ用のオンチップメモリ​​がなければ、この中間データはDDRで実行される可能性が高く、パフォーマンスと消費電力に大きな影響を与えます。したがって、NPUに十分なオンチップメモリ​​を搭載することで、AIコンピューティング能力をより効果的に発揮させることができます。

さらに、クアルコムのNPUのハードウェア設計全体は、先進的な業界プロセスの発展に合わせて継続的に進化していきます。フロントエンドとバックエンドの設計を含むプロセッサのマイクロアーキテクチャも、最適なパフォーマンスとエネルギー効率を実現するために毎年進化していきます。AIスマートフォンとAI PCはどちらも消費電力が高く、日常使用中にデバイスが過熱しないようにし、バッテリー寿命を延ばす必要があります。そのため、最高のエネルギー効率比を実現するために、NPU専用のアクセラレータ電源を特別に設計しました。また、マイクロスライシング技術をアップグレードし、ディープネットワークフュージョンをサポートし、最適なパフォーマンスを得ていきます。これらの技術アップグレードに加えて、より高いクロック速度を提供し、より広いDDR帯域幅をサポートします。生成AIモデル、特にデコード段階ではDDRサポートが必須であるため、DDR帯域幅が広いほど、大規模モデルのデコード速度が速くなり、消費者に優れたユーザーエクスペリエンスを提供します。

専用の高性能・低消費電力NPUに加え、AI推論アクセラレーションにも利用可能なQualcomm Sensor Hubという独立したモジュールも提供しています。これはDSPとマルチコアMicro NPUを組み合わせた設計で、最大の特長は極めて低い消費電力です。常時接続を必要とするタスク、例えば常時接続カメラ、ジェスチャー認識、顔検出、常時音声ウェイクアップなどに最適です。これらのユースケースは常にオンラインである必要があるため、消費電力の影響を特に受けやすいです。当社のハードウェア設計では、専用のSensor Hubアクセラレーションモジュールを採用し、消費電力に敏感なこれらのユースケースを高速化しています。

ハードウェアについて幅広く解説してきたので、次はユースケースの観点からこれらのタスクをどのように実現するかについて考察します。現在、AIのユースケースは数多く存在し、自然言語理解と処理、ノイズ低減、超解像、HDR、背景ぼかしといったコンピュテーショナルフォトグラフィーにおける画像処理などが含まれます。動画生成と処理も台頭しつつあります。さらに、AIはゲームにおいても広く活用されており、AI NPC、自動ストーリーライン、マップ作成、ファンコンテンツなどへの活用が広がっています。これらのユースケースは、オンデマンド、継続的、ユビキタスといったユースケースごとに、KPIや計算能力に対する要件が異なります。単一のプロセッサですべてのKPI要件を満たすことは困難です。

簡単な例として、CPU動作中に突発的に発生するタスクがあります。理論的には、全く新しいIPを起動すべきではありません。そうしないと、レイテンシが非常に高くなります。このような場合、CPUアーキテクチャによるアクセラレーションを検討できます。また、ゲーム、ビデオ/画像処理、大規模モデルなど、高い計算能力が要求され、処理時間が長くなる可能性のあるユースケースもあります。また、常時オンライン動作が必要なユースケースもあります。このような場合、CPU、GPU、NPUを用いたアクセラレーションは消費電力に非常に敏感であるため、適していません。

Qualcommは、ヘテロジニアス・コンピューティング・システムを提供することで、幅広いAIユースケースにおける多様なコンピューティング能力とKPI要件に対応します。これらのシステムには、リアルタイム、バースト性、レイテンシの影響を受けやすいタスクを処理するための汎用ハードウェア・アクセラレーション・ユニット(CPUとGPU)、大規模モデル、ビデオ/画像処理、連続実行ゲームなど、継続的な処理、高いコンピューティング能力、高い消費電力を必要とするタスク向けに特別に設計されたNPU、そしてジェスチャー認識や音声ウェイクアップなどの常時接続ユースケース向けのセンサーハブが含まれます。

このようなヘテロジニアス・コンピューティング・システムを設計するにあたり、どのような要素を考慮し、どのようにその目標を達成したのでしょうか。第一に、極めて高いパフォーマンスを提供することを目指しました。第二に、エネルギー効率を含む優れた持続的パフォーマンスの実現を目指しました。第三に、全体的なコストとチップサイズを考慮しました。最後に、単位面積あたりのコンピューティングパワーも考慮しました。これらの要素を徹底的に考慮することで、ヘテロジニアス・コンピューティング・システムを搭載したNPUとSoCを開発し、消費者に究極のAI体験、特に生成AIをお届けします。

様々なIPプロセッサやヘテロジニアス・コンピューティング・システムなど、当社のAIハードウェア技術については既にご紹介しました。次に、Qualcommが実現するAIエクスペリエンスについてご紹介します。

昨年末に第3世代Snapdragon 8とSnapdragon X Eliteプラットフォームが発売されて以来、これらのプラットフォームを搭載した製品が市場に数多く登場しています。これらの製品の多くは、すでにデバイス上でのモデリング機能を備えています。その例をいくつか挙げると、まず、今年初めに発売されたSamsung Galaxy S24 Ultraはリアルタイム翻訳に対応しています。次に、OPPO Find X7 UltraはAI除去機能を搭載しており、写真から背景や人物を簡単に削除できます。そして、Honor Magic6シリーズのスマートフォトレンダリング機能により、ユーザーはギャラリーから関連する画像や動画を簡単に見つけ、家族や友人と共有できるvlogを生成できます。

今年のMWCバルセロナ2024において、クアルコムはAndroidスマートフォンで動作する大規模言語・ビジュアルアシスタントモデル(LLaVA)を展示しました。これは、70億を超えるパラメータを持つ大規模マルチモーダル言語モデル(LMM)です。私たちはパートナー企業と協力し、この完全なLMMをデバイスと消費者に提供できるよう取り組んでいます。

第3世代のSnapdragon 8およびSnapdragon X Eliteプラットフォームは、デバイス内AIまたは生成AI機能を搭載した幅広いフラッグシップデバイスとユースケースを実現しました。これらのユースケースは、画像生成・編集などのエンターテイメント関連から、ライティングアシスタント、テキスト要約、リアルタイム翻訳などの生産性向上ツールまで多岐にわたり、日常生活や仕事の効率性を大幅に向上させます。

本日のプレゼンテーションをまとめると、まず、QualcommのSoCソリューションは、汎用CPU、GPU、専用NPU、超低消費電力センサーハブなど、複数のIPプロセッサコンポーネントを含むヘテロジニアスコンピューティングシステムを提供します。これらのIPプロセッサコンポーネントはそれぞれ、レイテンシに敏感なタスク、計算集約型タスク、電力に敏感なタスクなど、さまざまなタスクを実行します。また、これらを組み合わせてより複雑な処理タスクを完了し、エンドツーエンドのサービスを提供することもできます。Snapdragon Summit 2023では、Qualcommのヘテロジニアスコンピューティングシステムを使用して、エンドツーエンドの仮想アバターAIアシスタントを完成させる方法を実演しました。その際、処理パイプライン全体を、前処理、中間テキスト生成、仮想アバターレンダリングのための後処理の3つの部分に分解しました。前処理はCPUで実行され、大規模言語モデルはNPUで実行され、後処理はGPUとセンサーハブで実行されます。第二に、強力で計算効率が高く、超低消費電力の専用NPUを提供することで、より大規模で高度、かつ豊富なモデルをNPU上に容易に展開できます。第三に、エッジベースの生成AIの時代が到来したと考えています。SnapdragonコンピューティングプラットフォームとSnapdragonモバイルプラットフォームは、既に多くのエッジ製品にエッジベースの生成AI機能を搭載しています。

最後に、少しだけ予告させていただきます。最新のQualcomm Orion CPUを搭載した次世代Snapdragonモバイルプラットフォームは、今年10月21日から23日まで開催されるSnapdragon Summitで発表される予定です。どうぞご期待ください。ありがとうございます!