618ZXW

Llamaシリーズにマルチモーダル版が登場!バージョン3.2はオープンソースとクローズドソースの両方に対応し、Armとの共同開発によるモバイル最適化バージョンも搭載。

マルチモーダル領域では、オープンソース モデルがますますクローズド ソース化しています。

最近終了した Meta Developer Conference で、Llama 3.2 が華々しくデビューしました。

今回は、マルチモーダル機能を備えているだけでなく、Armなどと連携し、QualcommやMediaTekのハードウェアに特化して最適化された「モバイル」バージョンも発売される。

具体的には、Meta は Llama 3.2 の合計 4 つのモデルをリリースしました。

  • 110億と900億のパラメータを持つマルチモーダルバージョン
  • 10億と30億のパラメータを持つ軽量プレーンテキストモデル

公式データによれば、Llama 3.2 11B および 90B は、同様のサイズの「小規模から中規模」の大規模モデルと比較して、クローズド ソース モデルよりも優れたパフォーマンスを発揮します。

特に画像理解タスクでは、Llama 3.2 11B は Claude 3 Haiku を上回り、バージョン 90B は GPT-4o-mini に匹敵します。

エッジデバイス向けに特別に設計された 3B バージョンは、パフォーマンステストにおいて Google の Gemma 2 2.6B や Microsoft の Phi 3.5-mini よりも優れた性能を発揮しました。

このようなパフォーマンスは確かに多くのネットユーザーの注目を集めました。

Llama 3.2 のリリースにより、再び「ゲームが変わる」可能性があると興奮している人もいます。

エッジAIはますます重要になっています。

これに対するMeta AIの公式回答は次のとおりです。

これらのモデルの中にはパラメータの数が少ないものもありますが、このモーメントは重要です。

最初のビジュアル

Llama 3.2 の具体的な機能に関しては、公式リリースにいくつかのデモが含まれています。

要約すると、Llama 3.2 11B および 90B は、画像へのキャプションの追加、自然言語の指示に基づいたデータの視覚化の実行など、さまざまなマルチモーダル ビジョン タスクをサポートします。

たとえば、Llama 3.2 に画像を渡すと、画像内の要素を 1 つ 1 つ分解して、詳細な画像情報を表示できます。

同様に、テキスト コマンドに基づいてユーザーのニーズを満たす画像を見つけることができます。

Llama 3.2 11B と 90B は、マルチモーダル タスクをサポートする最初の Llama モデルの 1 つでもあり、Meta の研究者はこれ向けに新しいモデル アーキテクチャを作成しました。

研究者は、Llama 3.1 をベースに、言語モデルのパラメータを更新せずにアダプタの重みのセットをトレーニングし、事前トレーニング済みの画像エンコーダを事前トレーニング済みの言語モデルに統合しました。

このようにして、Llama 3.2 はプレーン テキスト機能の整合性を維持しながら、視覚的な機能も獲得できます。

Llama 3.2は、学習時に画像テキストデータを使用します。学習は複数の段階に分かれており、大規模なノイズデータによる事前学習と、中規模の高品質ドメインデータおよび知識強化データによる追加学習が行われます。

トレーニング後、研究者らは教師あり微調整 (SFT)、拒否サンプリング (RS)、直接選好最適化 (DPO) を使用して、複数回のアライメントを実行しました。

デバイス側に特化した「小型」モデル

軽量モデル 1B と 3B の目的はさらに明確です。

Apple Intelligence の発売により、スマートフォンなどのデバイス上の生成 AI は、消費者向けエレクトロニクス市場の標準機能になりました。

クラウドから切り離されて端末上で独立して実行されるモデルは、機能性とセキュリティの両方の面で端末 AIGC の実装の鍵となります。

△末尾執筆アシスタント

Llama 3.2 1B および 3B モデルは、Llama 3.1 8B および 70B モデルの削減と蒸留によって得られました。

簡単に言えば、これら 2 つの「小さな」モデルは、Llama 3.1 によって教えられる「生徒」です。

Llama 3.2 1Bおよび3Bは、コンテキスト長が128Kのテキストタスクのみをサポートしています。MetaのパートナーであるArmのカスタマービジネスライン担当ゼネラルマネージャー、Chris Bergey氏は次のように述べています。

開発者は来年初めか今年末までに、両方の Llama 3.2 モデルをアプリケーションに実装できるようになります。

これらはより効率的で、1W の電力または 8 ミリ秒以内に回答を提供します。

多くのネットユーザーもこれを高く評価している。

Llama 3.2 の軽量モデルは、携帯電話やその他のデバイスにおける AI の応用を真に変革することができます。

すでに一部のネットユーザーはこれをすぐに実践している。

この 1B モデルの機能には驚かされます。

このユーザーは、Llama 3.2 1Bを使用して完全なコードベースを実行し、コードの要約を生成しました。結果は次の通りです。

「完璧ではないが、期待をはるかに上回った。」

OpenAIによる「Her」の正式リリースとGoogleのGemini 1.5メジャーアップグレードに続き、Llamaも独自の新たな取り組みで急速な進展を遂げています。今週のAIコミュニティは、オープンソース技術とクローズドソース技術の熱き衝突が続く、話題満載の一週間となっています。

さて、Llama の最新リリースについてどう思いますか?

ちなみに、Llama 3.2 にご興味がございましたら、大型モデルアリーナはすでに試用可能です。

Ollama、Groq などもアップデートしてすぐにサポートしました。

参考リンク:
[1]https://ai.meta.com/blog/llam... [2]https://www.cnet.com/tech/mob...\_vignette [3]https://news.ycombinator.com/...