|
マルチモーダル領域では、オープンソース モデルがますますクローズド ソース化しています。 最近終了した Meta Developer Conference で、Llama 3.2 が華々しくデビューしました。 今回は、マルチモーダル機能を備えているだけでなく、Armなどと連携し、QualcommやMediaTekのハードウェアに特化して最適化された「モバイル」バージョンも発売される。 具体的には、Meta は Llama 3.2 の合計 4 つのモデルをリリースしました。
公式データによれば、Llama 3.2 11B および 90B は、同様のサイズの「小規模から中規模」の大規模モデルと比較して、クローズド ソース モデルよりも優れたパフォーマンスを発揮します。 特に画像理解タスクでは、Llama 3.2 11B は Claude 3 Haiku を上回り、バージョン 90B は GPT-4o-mini に匹敵します。 エッジデバイス向けに特別に設計された 3B バージョンは、パフォーマンステストにおいて Google の Gemma 2 2.6B や Microsoft の Phi 3.5-mini よりも優れた性能を発揮しました。 このようなパフォーマンスは確かに多くのネットユーザーの注目を集めました。 Llama 3.2 のリリースにより、再び「ゲームが変わる」可能性があると興奮している人もいます。 エッジAIはますます重要になっています。 これに対するMeta AIの公式回答は次のとおりです。 これらのモデルの中にはパラメータの数が少ないものもありますが、このモーメントは重要です。 最初のビジュアルLlama 3.2 の具体的な機能に関しては、公式リリースにいくつかのデモが含まれています。 要約すると、Llama 3.2 11B および 90B は、画像へのキャプションの追加、自然言語の指示に基づいたデータの視覚化の実行など、さまざまなマルチモーダル ビジョン タスクをサポートします。 たとえば、Llama 3.2 に画像を渡すと、画像内の要素を 1 つ 1 つ分解して、詳細な画像情報を表示できます。 同様に、テキスト コマンドに基づいてユーザーのニーズを満たす画像を見つけることができます。 Llama 3.2 11B と 90B は、マルチモーダル タスクをサポートする最初の Llama モデルの 1 つでもあり、Meta の研究者はこれ向けに新しいモデル アーキテクチャを作成しました。 研究者は、Llama 3.1 をベースに、言語モデルのパラメータを更新せずにアダプタの重みのセットをトレーニングし、事前トレーニング済みの画像エンコーダを事前トレーニング済みの言語モデルに統合しました。 このようにして、Llama 3.2 はプレーン テキスト機能の整合性を維持しながら、視覚的な機能も獲得できます。 Llama 3.2は、学習時に画像テキストデータを使用します。学習は複数の段階に分かれており、大規模なノイズデータによる事前学習と、中規模の高品質ドメインデータおよび知識強化データによる追加学習が行われます。 トレーニング後、研究者らは教師あり微調整 (SFT)、拒否サンプリング (RS)、直接選好最適化 (DPO) を使用して、複数回のアライメントを実行しました。 デバイス側に特化した「小型」モデル軽量モデル 1B と 3B の目的はさらに明確です。 Apple Intelligence の発売により、スマートフォンなどのデバイス上の生成 AI は、消費者向けエレクトロニクス市場の標準機能になりました。 クラウドから切り離されて端末上で独立して実行されるモデルは、機能性とセキュリティの両方の面で端末 AIGC の実装の鍵となります。 △末尾執筆アシスタントLlama 3.2 1B および 3B モデルは、Llama 3.1 8B および 70B モデルの削減と蒸留によって得られました。 簡単に言えば、これら 2 つの「小さな」モデルは、Llama 3.1 によって教えられる「生徒」です。 Llama 3.2 1Bおよび3Bは、コンテキスト長が128Kのテキストタスクのみをサポートしています。MetaのパートナーであるArmのカスタマービジネスライン担当ゼネラルマネージャー、Chris Bergey氏は次のように述べています。
多くのネットユーザーもこれを高く評価している。 Llama 3.2 の軽量モデルは、携帯電話やその他のデバイスにおける AI の応用を真に変革することができます。 すでに一部のネットユーザーはこれをすぐに実践している。 この 1B モデルの機能には驚かされます。 このユーザーは、Llama 3.2 1Bを使用して完全なコードベースを実行し、コードの要約を生成しました。結果は次の通りです。 「完璧ではないが、期待をはるかに上回った。」 OpenAIによる「Her」の正式リリースとGoogleのGemini 1.5メジャーアップグレードに続き、Llamaも独自の新たな取り組みで急速な進展を遂げています。今週のAIコミュニティは、オープンソース技術とクローズドソース技術の熱き衝突が続く、話題満載の一週間となっています。 さて、Llama の最新リリースについてどう思いますか? ちなみに、Llama 3.2 にご興味がございましたら、大型モデルアリーナはすでに試用可能です。 Ollama、Groq などもアップデートしてすぐにサポートしました。 参考リンク: |
Llamaシリーズにマルチモーダル版が登場!バージョン3.2はオープンソースとクローズドソースの両方に対応し、Armとの共同開発によるモバイル最適化バージョンも搭載。
関連するおすすめ記事
-
ボストン・ダイナミクスの宙返りに関する特許を破った国産ヒューマノイドロボットは、左手でネジを締め、右手でラテアートを描くことができる。
-
どのモデルも合格しませんでした! 北京大学/先端技術通信研究所は、特に長いテキストの理解と生成を評価するための非常に難しいベンチマークを提案しています。
-
【ライブ配信予約受付中】AIウィンターキャンプ OPEN DAY:ボリュームモデルからアプリケーションまで、ゼロコードで大規模モデルを微調整する実践学習
-
長らく行方不明だったゲーム界の伝説、李牧がビリビリでのアップデートを再開し、ラマ 3.1 論文の朗読をリードし、ラマ 3.1 アリーナで 3 位にランクされました。
-
フォーラム紹介 | オープンソース教育サブフォーラム(オープンソースの夏とオープンソース人材育成)
-
Zhiyuan のオープンソース ロボット ミドルウェア AimRT が正式にリリースされました。