マルチモーダルでオープンソースのLlama 3.2が登場！ARグラス開発者のJensen Huang氏がいち早く体験し、Quest 3Sヘッドセットは驚くほど低価格です。

OpenAIのChatGPTが「100機種バトル」の火付け役となったとすれば、MetaのRay-Ban Metaスマートグラスは間違いなくその火付け役となったと言えるでしょう。昨年9月に開催された開発者会議「Meta Connect 2023」でのデビュー以来、Ray-Ban Metaはわずか数か月で販売台数100万台を突破し、マーク・ザッカーバーグを「驚異的！」と絶賛させただけでなく、Google、Samsung、ByteDanceといった国内外の大手企業の市場参入を促しました。

1年後、MetaはConnect開発者会議で再び新しいスマートグラス製品「Orion」を発表しました。これは同社初のホログラフィックARグラスであり、ザッカーバーグ氏はこれを「世界最先端のグラス」と呼び、将来、人々が世界と関わる方法を一変させるだろうと述べました。

さらに、Metaは例年通りConnectカンファレンスでQuestシリーズの新型ヘッドセットを発表しており、今年も例外ではありません。昨年発売されたMeta Quest 3は価格が高すぎるというユーザーからのフィードバックが多数寄せられたことを受け、Metaは今年、Quest 3と同等の性能を備えながらもより手頃な価格の新しいヘッドセット、Quest 3Sを発売しました。このヘッドセットは、現在市場で最も優れた複合現実（MR）デバイスの一つと評されており、類まれな超現実的な体験を提供します。

もちろん、Metaの最も期待されているコアテクノロジーの一つであるLlamaモデルも、今回の発表イベントで大幅なアップデートを受けました。マルチモーダルLlama 3.2は画像とテキストを同時に理解でき、大規模なモデルをモバイルデバイス上で実行できるため、オープンソースエコシステムへのさらなる貢献を果たします。

Meta の AR の夢が実現しました。Orion グラスがインタラクションの新しい時代を切り開きます。

今年4月、Reality Labsの10周年を記念し、Metaは同部門の歴史を概説し、次期主力製品となる初のARグラスのプレビュー記事を公開しました。Metaは、Quest 3はユーザーが現実世界の中でデジタルコンテンツに没入することを可能にし、Ray-Ban MetaグラスはMeta AIの実用性とエンターテイメント性をユーザーに提供し、新しいARグラスは両者の利点を融合させ、最適な技術融合を実現すると述べています。

Meta Connect 2024が近づくにつれ、これらのARグラスがカンファレンスで発表されるのではないかという憶測が高まっていました。そして本日、Metaは初のARグラス「Orion」を発表しました。

ザッカーバーグ氏は、Orionは人々が世界と関わる方法を変えることを目指しており、10年間の研究開発の成果として生まれた、これまでで最も先進的なARグラスであると述べました。最先端のARディスプレイ、カスタムシリコンチップ、炭化ケイ素レンズ、高度な導波管、uLEDプロジェクターなどの技術を誇り、MRヘッドセットの消費電力と重量のほんの一部しか消費せずに、1組のグラスで強力なAR体験を実現します。

簡単に言えば、これらのARグラスは、マイクロプロジェクターを用いて導波管に光を投影する画期的なディスプレイアーキテクチャを採用しています。導波管は、グラスのテンプルに内蔵されたバッテリーで駆動し、様々な奥行きとサイズのホログラムをユーザーの視界に投影します。例えば、ユーザーが遠く離れた友人と会いたい場合、まるですぐそばにいるかのように、リビングルームにホログラムとして映し出されます。

Orionはフレームの縁に沿って7つの小型カメラとセンサーを内蔵し、音声、視線追跡、ジェスチャートラッキングとEMGリストバンドを組み合わせることで、スワイプ、タップ、スクロールといった操作を簡単に行うことができます。例えば、ジョギング中に写真を撮りたい場合、指先をタップするだけで、Orionが完璧な瞬間を捉えます。さらに、簡単なタップ操作で、カードゲーム、チェス、ホログラフィックピンポンなどのエンターテイメントアクティビティを呼び出すこともできます。

Nvidia の創設者兼 CEO である Jensen Huang 氏は、これを試すのを待ちきれませんでした。

Quest 3S は、コストパフォーマンスが非常に高い最高の複合現実デバイスです。

昨年の Connect カンファレンスで世界初の複合現実ヘッドセット「Meta Quest 3」が発表されたのに続き、Meta は今年、Quest 3 の簡素化されたバージョンである Quest 3S を発売しました。

ザッカーバーグ氏は、「Quest 3Sはコストパフォーマンスに優れているだけでなく、現在購入できる最高の複合現実デバイスです！」と述べています。Quest 3と同様のコア機能、すなわち高解像度フルカラー複合現実（MR）を備えており、ユーザーはエンターテイメント、フィットネス、ゲーム、ソーシャル体験など、現実世界と仮想世界をシームレスに切り替えて楽しむことができます。さらに、Quest 3Sはレンズの改良とテクノロジースタックの最適化、実効解像度、レイテンシーの最適化を特徴としており、MRハンドトラッキングソフトウェアの優れたパフォーマンスを実現しています。

複合現実（MR）の魔法は、現実空間をメタバースに持ち込み、ユーザーに没入型体験を提供し、異なる体験を自由に切り替えることができる点にあります。例えば、ユーザーはシネマモードを選択してスクリーンを映画館のように拡大し、最高の映画鑑賞体験を楽しむことができます。

ライブデモで、ザッカーバーグ氏は2Dモバイルアプリケーションからリモートデスクトップまで、PC向けの没入型体験を披露しました。ユーザーは画面を開いて好きな場所に配置することで、巨大な仮想モニターを作成し、作業に活用できます。また、MetaはMicrosoftと協力してリモートデスクトップ機能のアップグレードを進めており、この機能はまもなくWindows 11搭載PCでも利用可能になる予定だと述べました。

Meta Quest 3Sは、わずか299.99ドルからという驚きの価格で、この超現実的な体験を提供します。発売は10月15日です。今秋にQuest 3Sをご購入いただいたお客様には、ゲーム『バットマン：アーカム・シャドウ』のVR体験を無料でプレゼントいたします。

ビジョンタスク、マルチモーダル、オープンソースをサポートする最初の Llama モデル。

主要なハードウェア発表に加え、ザッカーバーグ氏はLlamaのアップデートを発表し、Llama 3.2モデルをリリースしました。Llama 3.2は、ビジョンタスクをサポートする初のLlamaモデルとして、画像とテキストを同時に理解できます。エッジデバイスやモバイルデバイスに適した小～中規模のビジョンモデル（11Bおよび90B）と、軽量のプレーンテキストモデル（1Bおよび3B）が含まれており、どちらのカテゴリにも事前学習済みバージョンと命令調整済みバージョンが用意されています。注目すべきは、これらの様々な仕様のモデルはすべて、Meta AIを通じて試用可能であることです。

モデルのパフォーマンス評価

研究者らは、150以上のクロスリンガルベンチマークデータセットでモデルの性能を評価しました。その結果、Llama 3.2 1Bおよび3Bモデルは12万8千トークンのコンテキスト長をサポートできることが示されました。指示に従う、要約する、プロンプトを書き直す、ツールを使用するといったタスクでは、3BモデルはGemma 2 2.6BおよびPhi 3.5-miniモデルよりも優れた性能を示しましたが、1BモデルはGemmaモデルと同等でした。

さらに、研究者らは画像理解と視覚推論のベンチマークにおけるモデルのパフォーマンスを評価しました。その結果、Llama 3.2 11Bおよび90Bの視覚モデルは、対応するテキストモデルをシームレスに置き換えることができ、画像理解タスクにおいてはClaude 3 Haikuなどのクローズドソースモデルを上回る性能を示しました。

軽量モデルのトレーニング<br>Llama 3.2 1B および 3B モデルの場合、研究者はプルーニングと蒸留の手法を使用して、8B/70B モデルから効率的な 1B/3B モデルを抽出しました。

具体的には、研究者らはLlama 3.1の8Bおよび70Bモデルのロジット日付を事前学習段階に組み込み、これらの大規模モデルの出力（ロジット日付）をトークンレベルの構造化プルーニングのターゲットとして用いました。プルーニング後、研究者らは知識蒸留を用いてモデルのパフォーマンスを回復しました。

視覚モデルのトレーニング
Llama 3.2の学習プロセスは複数の段階に分かれています。まず、事前学習済みのLlama 3.1テキストモデルを使用します。次に、画像アダプターとエンコーダーを追加し、大規模なノイズを含む（画像とテキスト）ペアリングデータで事前学習を行います。その後、中規模で高品質なドメイン固有の知識強化された（画像とテキスト）ペアリングデータで学習を行います。

その後の学習では、研究者らはテキストモデルにも同様のアプローチを採用し、教師ありファインチューニング、棄却サンプリング、そして直接的な選好最適化のための複数ラウンドのアライメントを採用しました。Llama 3.1モデルを用いて合成データを生成し、ドメイン内の画像に基づいて質問と回答をフィルタリング・強化し、報酬モデルを用いてすべての候補回答をランク付けすることで、高品質なファインチューニングデータを確保しました。

さらに、研究者たちはセキュリティ緩和データを取り入れ、高いセキュリティと実用性を兼ね備えたモデルを構築しました。最終的に、画像とテキストを同時に理解できるLlama 3.2モデルが誕生し、より豊富なエージェント機能への道筋において、Llamaモデルにとって新たな大きな一歩となりました。

ローカルに展開されたモデルはタイムリーかつ安全です。研究者たちは、Llama 3.2モデルをローカルで実行することには2つの大きな利点があると指摘しています。まず、応答速度の点では、すべての処理がローカルで行われるため、プロンプトと応答はほぼ瞬時に表示されます。

第二に、プライバシーとセキュリティの観点から、ローカルで実行されるモデルは、メッセージやカレンダーなどのデータをクラウドに送信することを回避します。これにより、ユーザーのプライバシーが保護され、アプリケーションのプライバシーが強化されます。ローカル処理を通じて、アプリケーションは、どのクエリをデバイス上に残し、どのクエリをクラウド内のより大規模なモデルで処理する必要があるかを明示的に制御できます。

オープンソースの本来の意図を忠実に守り、モデルの展開はより簡素化され、効率的になります。

Metaはオープンソースのミッションに引き続き尽力しています。開発者がLlamaモデルをさまざまな環境（シングルノード、オンプレミス、クラウド、デバイスなど）で使用できるようにするプロセスを大幅に簡素化し、検索拡張生成（RAG）やツール対応アプリケーションのワンクリック展開を可能にし、セキュリティ機能を統合するために、Metaは最初の公式Llama Stackリリースを公開することを発表しました。

公式発表によると、Llama 3.2 モデルは llama.com および Hugging Face からダウンロード可能となり、AMD、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud、Snowflake などのパートナープラットフォームで即時開発サポートが提供されるとのことです。

オープンソースの一貫した支持者であるザッカーバーグ氏は、かつてジェンセン・フアン氏との会話の中で、「Metaはオープンソース・エコシステムの恩恵を受け、数十億ドルを節約してきました」と述べました。Llamaは間違いなくこのオープンソース・エコシステムの構築において重要なツールであり、Llama 3.2によるビジョンタスクとマルチモーダル機能へのさらなる拡張は、オープンソース・エコシステムへのさらなる貢献となることは間違いありません。

618ZXW

マルチモーダルでオープンソースのLlama 3.2が登場！ARグラス開発者のJensen Huang氏がいち早く体験し、Quest 3Sヘッドセットは驚くほど低価格です。

Meta の AR の夢が実現しました。Orion グラスがインタラクションの新しい時代を切り開きます。

Quest 3S は、コストパフォーマンスが非常に高い最高の複合現実デバイスです。

ビジョンタスク、マルチモーダル、オープンソースをサポートする最初の Llama モデル。

オープンソースの本来の意図を忠実に守り、モデルの展開はより簡素化され、効率的になります。

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ