ジェネレーティブAIの時代が到来しました。ジェネレーティブAIのイノベーションは急速に進化し、人々の日常生活に徐々に浸透し、ユーザーに充実した体験、生産性の向上、そして全く新しい形のエンターテインメントを提供しています。では、次は何が起こるのでしょうか?この記事では、今後のジェネレーティブAIのトレンド、エッジジェネレーティブAIを可能にする技術の進歩、そして具現化ロボットへの道筋を探ります。また、Qualcomm Technologiesのエンドツーエンドのシステムアプローチが、次世代のエッジイノベーションを実現する最前線にある理由についても解説します。 △生成AI機能は多方面で継続的に向上しています。 今後のトレンドとオンデマンドAIの重要性Transformerはそのスケーラビリティにより、生成型AIアーキテクチャのリーダー的存在となっています。技術の進化に伴い、Transformerは従来のテキスト・言語処理から様々なモダリティへと拡張し、全く新しい機能を提供しています。この傾向は複数の分野で見られ、例えば自動車業界では、複数のカメラとLiDARを連携させることで鳥瞰図を実現しています。また、無線通信分野では、Transformerを活用してGPS、カメラ、ミリ波(mmWave)信号を統合し、ミリ波ビーム制御を最適化しています。 もう一つの大きなトレンドは、次の 2 つの側面における生成 AI の能力の継続的な強化です。
モダリティとユースケースの面では、音声UI、マルチモーダル大規模モデル(LMM)、エージェント、ビデオ/3Dの面で改善が見られました。機能とKPIの面では、コンテキストウィンドウの延長、パーソナライゼーション、高解像度化の面で改善が見られました。 生成AIの可能性を最大限に引き出すには、これらのトレンド機能をエッジデバイスに導入することが不可欠です。これは、レイテンシの改善、インタラクションの汎用化、そしてプライバシーの強化に不可欠です。例えば、ロボットが環境や人間とリアルタイムにインタラクションできるようにするには、エッジ処理を活用して即時性とスケーラビリティを確保する必要があります。 生成AI向けエッジプラットフォーム技術の進歩エッジデバイスにさらに多くの生成AI機能を導入するにはどうすればよいでしょうか? クアルコムは多次元的な技術研究を通じて、生成AI向けエッジプラットフォームの開発を総合的に推進していきます。 私たちは、知識蒸留、量子化、投機的サンプリング、効率的な画像・動画アーキテクチャ、異種コンピューティングといった技術を通じて、生成AIモデルの最適化に注力し、ハードウェア上で効率的に実行できるようにしています。これらの技術は互いに補完し合うため、モデルの最適化と効率化の課題を多角的に解決する上で不可欠です。 大規模言語モデル(LLM)の量子化を例に挙げてみましょう。大規模言語モデルは通常、16ビット浮動小数点数を用いて学習されます。私たちは、精度を維持しながら大規模言語モデルを圧縮し、パフォーマンスを向上させることを目指しています。例えば、16ビット浮動小数点(FP16)モデルを4ビット整数(INT4)モデルに圧縮すると、モデルサイズを4分の1に縮小できるだけでなく、メモリ帯域幅の使用量、ストレージ容量、レイテンシ、消費電力も削減できます。 量子化を考慮した学習と知識蒸留を組み合わせることで、高精度な4ビットの大規模言語モデルを実現できます。しかし、さらに低いビット/値メトリックが必要な場合は、ベクトル量子化(VQ)がこの問題の解決に役立ちます。VQは、必要な精度を維持しながらモデルサイズをさらに圧縮します。当社のVQ手法は、INT4線形量子化と同等の精度で3.125ビット/値を実現し、エッジデバイスのDRAM制約内でより大規模なモデルを実行できます。 もう一つの例は、効率的なビデオアーキテクチャです。Qualcommは、エッジAI向けのビデオ生成手法をより効率的にする技術を開発しています。例えば、ビデオからビデオを生成するAI技術であるFAIRYを最適化しました。FAIRYの第一段階では、アンカーフレームから状態を抽出します。第二段階では、残りのフレームにまたがってビデオを編集します。最適化の例としては、クロスフレーム最適化、効率的なinstructPix2Pix、画像/テキストガイドによる調整などが挙げられます。 エンボス加工ロボットへの道クアルコムは、生成AIの取り組みを大規模言語モデルと関連ユースケースの研究へと拡大し、特にマルチモーダル大規模モデル(LMM)システムへの視覚と推論の統合に注力しています。昨年は、国際コンピュータビジョン・パターン認識会議(CVPR 2023)において、リアルタイム視覚大規模言語モデルをサポートするフィットネスコーチング技術のデモを行いました。また最近では、より複雑な視覚的問題に対するマルチモーダル大規模モデルの推論能力を探求しました。その過程で、動きや遮蔽が存在する状況下における物体の位置推定において、業界をリードする成果を達成しました。 しかし、コンテキストエージェントとのオープンかつ非同期的なインタラクションを実現することは依然として大きな課題です。現在、大規模マルチモーダルモデル向けのソリューションのほとんどは、以下の基本的な機能しか備えていません。
ライブビデオストリームをリアルタイムで処理し、ユーザーと動的にインタラクションできる、コンテキスト依存のマルチモーダル大規模モデルの開発において、一定の進歩を遂げてきました。重要なイノベーションの一つは、コンテキスト依存の視覚理解のためのエンドツーエンドのトレーニングであり、これは身体型ロボットへの道を開くものとなるでしょう。 今後、エッジベースの生成 AI テクノロジーのさらなる進歩が期待されます。Qualcommのエンドツーエンドのシステムコンセプトは、エッジベースの生成AIにおける次世代のイノベーションを牽引する最前線にあります。私たちは継続的に研究を行い、新技術と最適化を迅速に商用製品に導入しています。AIエコシステムがこれらの新機能をどのように活用し、AIをユビキタス化し、より良い体験を提供していくのか、楽しみにしています。 |