完全な分析: DeepSeek Janus から Janus-Pro まで!

オリジナル：Eternity Datawhale

Datawhaleのヒント

著者: Eternity、Datawhaleメンバー

コードアドレス: https://github.com/deepseek-a...

Janus Pro アドレス: https://github.com/deepseek-a...\_pro\_tech\_report.pdf

Janus-Proは前作Janusの進化版であり、具体的には(1)最適化された学習戦略、(2)拡張された学習データ、(3)より大きなモデルサイズなどを備えています。これらの改良により、Janus-Proはマルチモーダル理解とテキスト画像化指示への準拠において大幅な進歩を遂げ、テキスト画像化生成の安定性も向上しています。Janus-Proの詳細を解説する前に、Janusについて簡単におさらいしておきましょう。

ヤヌスのレビュー

先行研究であるJanusは、マルチモーダル理解と生成を統合するための自己回帰フレームワークであり、視覚エンコーディングを分離することで、統合されたマルチモーダル理解と生成を実現するように設計されています。マルチモーダル理解に関しては、通常LLaVA設計に従い、視覚エンコーダをブリッジとして用いることで、大規模言語モデルが画像を理解できるようにします。生成に関しては、通常は拡散モデルに基づいていますが、自己回帰法に基づくものもあります。一部の手法では、単一のTransformerを用いてマルチモーダル理解と生成のタスクを統合しようとします。Transformerは通常、単一の視覚エンコーダを用いて両方のタスクの入力を処理します。

しかし、マルチモーダル理解タスクと生成タスクに必要な表現は異なります。マルチモーダル理解タスクでは、視覚エンコーダーは高レベルの意味情報（物体のカテゴリや視覚属性など）の抽出を目指します。出力には、画像からの情報抽出だけでなく、複雑な意味的推論も含まれます。エンコーダーは主に高次元の意味的表現に焦点を当てています。一方、生成タスクは、画像全体にわたる全体的な一貫性を維持しながら局所的な詳細を生成することに重点を置いているため、空間構造やテクスチャの詳細を表現するために低次元のエンコーディングが必要です。これら2つのタスクの表現を同じ空間内で統合すると、矛盾が生じる可能性があります。

Janusは、マルチモーダル理解と生成のためのそれぞれ独立した2つの視覚エンコーディングパスを備えており、2つの利点をもたらします。1) マルチモーダル理解と生成における異なる粒度要件から生じる競合を軽減します。2) 柔軟性と拡張性を備えています。分離後、理解タスクと生成タスクの両方で、それぞれの分野における最先端のエンコーディング技術を採用できます。将来的には、点群、脳波信号、音声データを入力として取り込み、統合されたTransformerを用いて処理できるようになります。

テキスト理解のために、LLM 組み込みトークナイザーを使用してテキストを個別の ID に変換します。
マルチモーダル理解では、SigLIP エンコーダーを使用して画像から高次元の意味的特徴を抽出し (注: Cosmos はガードレール部分でも SigLIP エンコーダーを使用しています)、アダプタ (2 層 MLP) を使用して抽出された特徴を LLM のテキスト特徴空間にマッピングします。
長い辺を 384 ピクセルに調整し、短い辺を RGB(127, 127, 127) を使用して 384 ピクセルに塗りつぶします。
ビジュアル生成では、VQ トークナイザーを使用して画像を個別の ID に変換し、アダプタ (2 層 MLP) を使用して各 ID を LLM のテキスト特徴空間にマッピングします。
短い辺は 384 ピクセルに調整され、長い辺は 384 ピクセルに切り取られました。
トレーニングプロセス全体では 16 個のノードが使用され、各ノードには 8 個の Nvidia A100 GPU が含まれます。

視覚生成タスクでもマルチモーダル理解タスクでも、画像特徴シーケンスとテキスト特徴シーケンスは LLM への入力として連結されます (この論文では DeepSeek-LLM 1.3B が使用されています)。

LLMに組み込まれた予測ヘッドは、純粋テキスト理解タスクとマルチモーダル理解タスクの両方におけるテキスト予測に利用され、ランダムに初期化された予測ヘッドは、視覚生成タスクにおける画像予測に使用されます。モデル全体は、特別に設計されたアテンションマスクを必要とせず、自己回帰フレームワークに準拠しています。Janus/blob/main/janus\_pro\_tech\_report.pd

Janus トレーニングは 3 つの段階に分かれています。

フェーズ 1: 埋め込み空間内の言語要素と視覚要素間の接続を作成するためにアダプターとイメージヘッドをトレーニングし、LLM がイメージ内のエンティティを理解して予備的な視覚生成機能を備えることができるようにします。
マルチモーダル理解のために、SHareGPT4V からの 125 万個の画像とテキストのペアのキャプションが、<image><text> という形式で使用されました。
ビジュアル生成には、ImageNet1k からの 120 万サンプルが、<カテゴリ名><画像> の形式で使用されました。
第2フェーズでは、マルチモーダルコーパスを用いた統合的な事前学習を行い、マルチモーダル理解と生成を学習します。このフェーズでは、プレーンテキストデータ、マルチモーダル理解データ、そして画像生成データを使用します。ImageNet-1kを用いてシンプルな画像生成学習を行い、その後、一般的なテキスト画像変換データを用いてモデルのオープンドメイン画像生成能力を向上させます。
プレーンテキストデータ：DeepSeek-LLM事前トレーニング済みコーパス。
インターリーブされた画像テキストデータ: WikiHow および WIT データセット。
画像キャプションデータ：複数のソースから取得した画像。一部の画像には、オープンソースのマルチモーダルモデルを用いてキャプションが再追加されています。データ形式は、<image>画像を詳しく説明してください。<caption>のような質問と回答のペアです。
表とグラフのデータ: DeepSeek-VL からの関連する表とグラフのデータ (形式: <質問><回答>)。
視覚的に生成されたデータ: 複数のデータセットと 200 万の内部データポイントからの画像とキャプションのペア。
トレーニング中、キャプションの最初の文が 25% の確率でランダムに使用されます。
ImageNet サンプルは最初の 120K のトレーニングステップにのみ表示され、他のデータセットの画像は後続の 60K ステップに表示されます。
第3フェーズ「教師ありファインチューニング」では、指示ベースのファインチューニングデータを用いて事前学習済みモデルを微調整し、指示や対話への追従能力を強化します。生成エンコーダを除くすべてのパラメータが微調整されます。回答を教師あり学習している間は、システムとユーザーのプロンプトはマスクされます。Janusがマルチモーダル理解と生成の両方において優れた能力を発揮できるよう、モデルは特定のタスクごとに個別に微調整されることはありません。代わりに、プレーンテキストの対話データ、マルチモーダル理解データ、ビジュアル生成データを組み合わせて使用することで、様々なシナリオに対応できる汎用性を確保しています。
テキスト理解: 特定のソースからのデータの使用。
マルチモーダル理解: 複数のソースからの指示を使用してデータを調整する。
ビジュアル生成: 第 2 段階のデータセットの一部からの画像とテキストのペアのサブセットと 400 万の内部データポイントを使用します。
データ形式は次のとおりです: ユーザー:<入力メッセージ> \n アシスタント: <応答>;

トレーニングの目標

Janusは、クロスエントロピー損失関数を用いて学習される自己回帰モデルです。純粋なテキスト理解タスクとマルチモーダル理解タスクでは、損失はテキストシーケンスに対して計算されます。画像生成タスクでは、損失は画像シーケンスに対してのみ計算されます。設計をシンプルにするため、タスクごとに異なる損失重みは割り当てられません。

推論

プレーンテキスト理解とマルチモーダル理解の両方において、予測分布から語彙単位を順次サンプリングする次語彙予測法が用いられます。画像生成には、分類器を用いないアプローチが用いられます。

可能な拡張

マルチモーダル理解のためには、1) より強力な視覚エンコーダーを選択し、2) 動的高解像度技術を使用することができます。
視覚生成の場合、1) よりきめ細かいエンコーダーを選択でき、2) 視覚生成用に特別に設計された損失関数を使用でき、3) 因果的注意と並列手法を組み合わせることができます。

Janus-Pro アップグレード

Janus はトレーニングデータが限られており、モデルサイズも比較的小さい (1B) ため、短いプロンプトによる画像生成の表現が乏しい、テキストから画像への生成品質が一定でないといった欠点があります。Janus-Pro のアーキテクチャは、次の図に示すように、Janus と同じです。

主な改善点

トレーニング戦略
ステージ 1: トレーニングステップの数を増やし、ImageNet で徹底的にトレーニングします。
ステージ 2: ImageNet を使用する代わりに、通常のテキストから画像へのトレーニングデータを直接使用します。
ステージ 3: 微調整プロセス中にデータセットの割り当てを変更し、マルチモーダルデータ、プレーンテキストデータ、テキストから画像データの比率を 7:3:10 から 5:1:4 に変更します。
データスケール
マルチモーダル理解
ステージ 2: 画像キャプションデータ YFCC と表/グラフドキュメント理解データ Doc-matrix を含む 9,000 万のサンプルを追加します。
ステージ 3: MEME 理解などの追加のデータセットを DeepSeek-VL2 に追加します。
ビジュアル生成：実世界のデータには低品質なデータが含まれる場合があり、テキストから画像への変換が不安定になり、美的効果が乏しい出力につながる可能性があります。Janus -Proは7,200万の合成美的データサンプルを使用し、事前トレーニング段階（ステージ2）において実世界データと合成データの比率を1:1に維持します。
モデルサイズ
モデルパラメータを 70 億パラメータの規模に拡張します。

実験の詳細

Janus-Pro トレーニングハイパーパラメータ

不十分

マルチモーダル理解の場合、入力解像度は384x384に制限されており、細かい視覚タスクのパフォーマンスに影響を及ぼします。テキストから画像を生成する場合、解像度が低いため、生成される出力の詳細が欠落します。

著者: Eternity、Datawhaleメンバー

前の記事: LLM ベースのエージェントの詳細ガイド!

志湖ホームページ:

https://www.zhihu.com/people/...

いいね！（3件のいいね！）↓

618ZXW

完全な分析: DeepSeek Janus から Janus-Pro まで!

Datawhaleのヒント

主な改善点

実験の詳細

不十分

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ