618ZXW

イリヤの視点が検証されました!次期トークンの統合画像、テキスト、動画を予測することのみに基づいて、AIZはネイティブマルチモーダルワールドモデル「Emu3」をリリースしました。

OpenAIの元主任科学者兼共同創設者であるイリヤ・スツケヴァー氏は、何度も自身の見解を表明している。

次のトークンを非常に正確に予測できれば、人類が汎用人工知能 (AGI) を実現するのに貢献できます。

ChatGPTのような大規模言語モデルでは、次トークン予測は画期的な成果を上げていますが、マルチモーダルモデルへの適用性は依然として不明確です。マルチモーダルタスクでは、依然として拡散モデル(安定拡散など)と組み合わせ手法(CLIPビジュアルエンコーダとLLMの組み合わせなど)が主流となっています。

2024年10月21日、北京人工知能研究院(BAAI)はネイティブマルチモーダル世界モデルEmu3を正式にリリースしました。このモデルは、拡散モデルや組み合わせ手法を必要とせず、次のトークンの予測のみに基づいてテキスト、画像、動画データを理解・生成できます。

Emu3 は、画像生成、ビデオ生成、視覚言語理解などのタスクにおいて、SDXL、LLaVA、OpenSora などのよく知られたオープンソース モデルよりも優れていますが、拡散モデル、CLIP ビジュアル エンコーダー、事前トレーニング済みの LLM などの技術を必要とせず次のトークンを予測するだけで済みます

キャプション:人間の嗜好評価に基づく画像生成タスクでは、Emu3はSD-1.5およびSDXLモデルを上回りました。視覚言語理解タスクでは、Emu3は12のベンチマークテストの平均スコアでLlaVA-1.6を上回りました。動画生成タスクでは、Emu3はVPenchベンチマークスコアでOpenSora 1.2を上回りました。

Emu3は、動画や画像を離散トークンに変換できる強力なビジュアルトークナイザーを提供します。これらのビジュアル離散トークンは、テキストトークナイザーから出力された離散トークンと共に、Emu3モデルに入力できます。同時に、このモデルによって出力された離散トークンはテキスト、画像、動画に変換できるため、 Any-to-Anyタスクのためのより統一された研究パラダイムを提供します。これまで、コミュニティにはこのような技術やモデルが不足していました。

さらに、Emu3 の次のトークン予測フレームワークの柔軟性により、直接嗜好最適化(DPO) を自己回帰ビジュアル生成にシームレスに適用でき、モデルを人間の好みに合わせることができます。

Emu3の研究は、次トークン予測がマルチモーダルモデルの強力なパラダイムとして機能し、言語そのものを超えた大規模なマルチモーダル学習を可能にし、マルチモーダルタスクにおいて最先端のパフォーマンスを達成することを実証しています。複雑なマルチモーダル設計をトークン自体に収束させることで、大規模なトレーニングと推論において計り知れない可能性を引き出すことができます。次トークン予測は、マルチモーダルAGI構築への有望な道筋を提供します。

Emu3は現在、主要な技術とモデルをオープンソース化しています。(オープンソースのモデルとコードはこの記事の末尾に掲載されています。)

Emu3 はリリースされるとすぐに、ソーシャル メディアや技術コミュニティで熱い議論を巻き起こしました。

あるネットユーザーは、「これはここ数カ月で最も重要な研究であり、あらゆるデータ形式に対応できる単一のアーキテクチャの実現に非常に近づいている」と指摘した。

Emu3は(少なくとも私にとっては)非常に斬新なアプローチで、複数のモダリティをトークンとして扱うだけで、それらを一つに統合することができます。まだ初期段階ではありますが、デモは素晴らしい出来栄えです。動画を無限に拡張し、複数のモダリティを生成できるようになる様子を想像してみてください。

一部のネットユーザーは、「本当にオープンな OpenAI v2 が登場するかもしれない」とコメントしています。

Emu3 の重要性と影響について、あるコメンテーターは次のように述べています。「Emu3 は、比類のないパフォーマンスと柔軟性を提供し、マルチモーダル AI の分野に革命をもたらすでしょう。」

「Emu3の幅広い業界への適用性とオープンソースの柔軟性により、開発者や企業が人工知能分野で革新を起こす機会が広がります。」

研究者にとって、Emu3は、複雑な拡散モデルと大規模な言語モデルを組み合わせることなく、統一されたアーキテクチャを通じてマルチモダリティを探求する新たな機会を提供します。このアプローチは、視覚関連タスクにおけるトランスフォーマーの革新的な影響に似ています。

「Emu3 の統合アプローチにより、より効率的で機能的な AI システムが提供され、マルチモーダル AI の開発と適用が簡素化され、コンテンツの生成、分析、理解の新たな可能性が生まれます。」

Emu3はマルチモーダルAIのルールを書き換えました…Emu3はマルチモーダルAIを再定義し、シンプルさが複雑さに打ち勝つことを証明しました。マルチモーダルAIの未来は、より洗練され、より強力になるでしょう。

効果のデモンストレーション

1. 視覚的な理解

Emu3は強力な画像・動画認識機能を備えており、物理世界を理解し、一貫性のあるテキスト応答を提供します。注目すべきは、この機能が基盤となるLLMモデルやCLIPに依存せずに実現されていることです。

1.1 画像入力

ユーザーの質問: ランドマークについて説明してください。

模範解答:この画像は、ニューヨーク市を代表する吊り橋、ブルックリン橋を写しています。特徴的な塔と、それを支えるケーブルの網目構造が特徴的です。この象徴的な建造物は、ブルックリンとマンハッタンを結んでいます。

ユーザーの質問: 画像を詳しく説明してください。

模範解答:この画像は、2017年秋号の雑誌「Parktakes」の表紙です。表紙には、白いカヤックに乗り、水面を漕ぐ2人の人物が描かれています。カヤックは斜めに配置され、2人は前方に座ります。2人とも赤いストラップに黒いストラップが付いたライフジャケットを着用し、オレンジ色のブレードが付いたパドルを持っています。右側には、緑色のシャツと明るい色のキャップをかぶった短髪の男性がいます。2人とも笑顔で、水上での時間を楽しんでいるように見えます。

背景には木々や緑が生い茂る自然が広がり、公園や自然保護区にいる可能性が高いことが分かります。水面は穏やかで、空は見えず、静かで平和な環境を示唆しています。

雑誌の表紙にはいくつかのテキスト要素が含まれています。

1.タイトル: 「Parktakes」が大きな太字の青い文字で上部に目立つように表示されます。

2. 2017 年秋号: この号は右上隅に小さい白いフォントで表示されます。

3.メイン特集:「公園で秋の冒険を楽しもう」という文字がオレンジ色の大きな太字で書かれており、アウトドア活動のテーマを強調しています。

4.その他の機能: 表紙には雑誌で取り上げられているいくつかのトピックが記載されています。

– 「バードウォッチング、ボート、ハイキング」

– 「季節の祭り」

– 「新しいアトラクション」

5.登録情報: 下部に、「全クラスの登録は 8 月 1 日から開始されます」という呼びかけと、ウェブサイト リンク「www.fairfaxcounty.gov/parks」があります。

分析と説明

「Parktakes」の表紙は、特に公園でのアウトドアレクリエーションというテーマを効果的に伝えています。カヤックに乗った二人の写真は、この雑誌がカヤック、カヌー、その他のウォータースポーツに関するコンテンツを掲載していることを示唆しています。ライフジャケットが掲載されていることは、ウォーターアクティビティにおける安全と備えに重点を置いていることを示しています。季節のお祭りや新しいアトラクションへの言及は、この雑誌が公園内の様々なイベントやアトラクションに関する情報を提供していることを示唆しています。

表紙には、安全性とアクセシビリティを明確に重視した、アウトドアアクティビティに関する包括的なガイドを提供するというこの雑誌の取り組みが強調されています。登録情報から、この雑誌は様々なアウトドアアクティビティの計画や参加のためのリソースであり、公園やレクリエーション活動に関心を持つ幅広い読者層を対象としていることが示唆されています。

要約すると、この雑誌の表紙は、アウトドアアドベンチャー、安全、そして公園内の季節のイベントに関心を持つ読者を引き付けるようにデザインされています。カヤックとライフジャケットの掲載は、この雑誌がウォータースポーツと安全に重点を置いていることを強調しています。また、様々な特集記事や登録情報も掲載されており、公園を訪れる人々にとって充実した情報源であることを示唆しています。

1.2 ビデオ入力

ユーザーの質問: ビデオの中の男性は何をしていますか?

模範解答:動画に登場する男性は、ファイヤーダンスを披露しているようです。ファイヤーダンスとは、火を使ってダイナミックで視覚的に魅力的な動きを生み出すエンターテイメントです。彼が持つ線香花火は、魅惑的な光と影の演出を生み出し、彼のパフォーマンスの迫力を捉えています。

2. 画像生成

Emu3は、次の視覚トークンを予測することで高品質な画像を生成します。このモデルは、柔軟な解像度と様々なスタイルを自然にサポートします。

3. ビデオ生成

ビデオ拡散モデルを使用してノイズからビデオを生成する Sora とは異なり、Emu3 はシーケンス内の次のトークンを予測することによって因果的にビデオを生成します。

4. ビデオ予測

Emu3は、動画のコンテキスト内で、動画を自然に拡張し、次に何が起こるかを予測することができます。このモデルは、現実世界の環境、人、動物をシミュレートできます。

Emu3 の技術詳細

1. データ

Emu3 は、言語、画像、ビデオの混合データ モダリティでゼロからトレーニングされました。

言語データ: Aquila モデルと同じ言語データ (中国語と英語のデータで構成される高品質のコーパス) が使用されます。

画像データ:オープンソースのネットワークデータ、AI生成データ、高品質な内部データを含む大規模な画像テキストデータセットを構築しました。データセット全体は、解像度、画質、種類に基づいてフィルタリングされました。フィルタリングされたデータにアノテーションを付与し、高密度な画像記述を構築するために、Emu2ベースの画像記述モデルを学習しました。また、アノテーション処理を高速化するためにvLLMライブラリを使用しました。

ビデオデータ:収集されたビデオは、風景、動物、植物、ゲームなど、複数のカテゴリにわたります。

ビデオ処理ワークフロー全体には、シーンセグメンテーション、テキストフィルタリング、オプティカルフローフィルタリング、品質スコアリングなどの段階が含まれます。画像記述モデルから微調整されたビデオ記述モデルは、フィルタリングされたビデオセグメントにテキスト記述のラベルを付けるために使用されます。

2. 統合ビジュアルトークナイザー

SBER-MoVQGANに基づいて学習されたビジュアルトークナイザーは、4×512×512のビデオクリップまたは512×512の画像を4096個の離散トークンにエンコードできます。語彙サイズは32,768です。Emu3のトークナイザーは、時間次元で4倍、空間次元で8×8の圧縮を実現し、あらゆる時間解像度と空間解像度に適しています。

さらに、MoVQGAN アーキテクチャに基づいて、3 次元畳み込みカーネルを備えた 2 つの時間残差レイヤーがエンコーダー モジュールとデコーダー モジュールに追加され、ビデオ トークン化機能が強化されました。

3 アーキテクチャ

Emu3は、主流の大規模言語モデル(Llama-2)のネットワークアーキテクチャを継承しています。Llama-2アーキテクチャとの違いは、離散的な視覚トークンに対応するために埋め込み層を拡張していることです。ネットワークは正規化にRMSnormを使用しています。また、GQAアテンション、SwiGLU活性化関数、1次元回転位置エンコーディング(RoPE)などの技術を採用し、アテンションモジュールのQKV層と線形投影層のバイアスを除去しています。さらに、学習の安定性を向上させるためにドロップアウト率0.1を使用し、多言語テキストのエンコードにはQwenTokenizerを使用しています。詳細なアーキテクチャ構成表。

4. 事前トレーニング

事前学習の最初のステップは、マルチモーダルデータ形式を定義することです。外部テキストエンコーダーに依存する拡散モデルとは異なり、Emu3は画像/動画を生成するためにテキスト条件情報をネイティブに統合します。視覚データと言語データの両方に固有のトークンに5つの特別なトークンを追加することで、テキストと視覚データを統合し、学習プロセスのためのドキュメントのような入力データを作成します。生成される学習データの構造は次のとおりです。

 [BOS] {caption text} [SOV] {meta text} [SOT] {vision tokens} [EOV] [EOS]

このうち、 [BOS][EOS]はQwenTokenizer独自の特殊トークンです。

追加の特殊トークンには次のものがあります:

  • [SOV]は視覚入力の開始を示します(画像や動画のメタ情報を含みます)。
  • [SOT]はビジュアルトークンの開始を示します。
  • [EOV]は視覚入力の終了を示します。

さらに、特殊トークン[EOL][EOF]が、それぞれ改行とフレーム区切りとしてビジュアルトークンに挿入されます。メタテキス​​トには画像の解像度情報が含まれ、動画には解像度、フレームレート、再生時間など、すべてプレーンテキスト形式で表示されます。Emu3は、理解データの構築時に、一部のデータの「キャプションテキスト」フィールドを[EOV]トークンの後に移動しました。

学習目標: Emu3の視覚信号は完全に離散トークンに変換されているため、次のトークン予測タスクの学習は標準的なクロスエントロピー損失のみで実行できます。視覚トークンが学習プロセスを支配するのを防ぐため、視覚トークンに関連する損失には0.5の重み付けがされています。

トレーニングの詳細: Emu3モデルは、事前トレーニング中にビデオデータを処理するために、非常に長いコンテキスト長を利用します。トレーニングを容易にするために、テンソル並列性(TP)、コンテキスト並列性(CP)、データ並列性(DP)を組み合わせて採用しています。テキストデータと画像データは、計算リソースを最大限に活用するために、最大コンテキスト長に同時にパッケージ化されます。同時に、パッケージ化プロセス中に画像全体が分割されないようにします。

事前学習プロセスは2段階に分かれています。第1段階では、ビデオデータは使用せず、テキストデータと画像データの両方でコンテキスト長5,120を使用して、ゼロから学習を開始します。第2段階では、ビデオデータが導入され、コンテキスト長131,072が使用されます。

5 SFTステージ

5.1 ビジュアル生成

品質の微調整:事前学習フェーズに続いて、視覚生成タスクに対して事後学習を実施し、生成される出力の品質を向上させます。品質の微調整には、高品質なデータが使用されます。

直接嗜好最適化: Emu3 は、自己回帰マルチモーダル生成タスクで直接嗜好最適化 (DPO) を採用し、人間の嗜好データを活用してモデルのパフォーマンスを向上させます。

5.2 視覚言語理解

事前トレーニング済みのモデルは、視覚言語理解のために、1) 画像からテキストへのトレーニングと 2) 指示の調整という 2 段階のトレーニング プロセスを経ます。

フェーズ 1:純粋なテキスト予測では視覚トークンに関連する損失は無視されながら、画像理解データを純粋な言語データと統合します。

フェーズ2: LLaVAデータセットに含まれる約320万の質問と回答のペアを用いて、指示を微調整します。512×512より小さい画像、または1024×1024より大きい画像は、アスペクト比を維持しながら解像度を変更し、その他の画像は元の解像度を維持します。

オープンソースアドレス

北京人工知能研究院(BAAI)は、これまで開発されてきたSFTを使用したチャットおよび生成モデルに加えて、生成と理解を統合したEmu3事前トレーニング済みモデルと、対応するSFTトレーニングコードを、将来の研究とコミュニティの構築および統合のために最近オープンソース化しました

コード: https://github.com/baaivision... プロジェクトページ: https://emu.baai.ac.cn/ モデル: https://huggingface.co/collec...

将来の方向性

Emu3は、マルチモーダルAIの革新的な方向性を示しており、AIインフラを単一の技術経路に統合する可能性を秘めています。これにより、大規模なマルチモーダル学習と推論の基盤が提供されます。統合されたマルチモーダル世界モデルは、自動運転、ロボット脳、スマートグラスアシスタント、マルチモーダル対話、推論など、幅広い応用の可能性を秘めています。次のトークンは、AGI(Automatic Gaining Intelligence:自動知能獲得)につながる可能性があると予測されています。