|
オリジナル:Eternity Datawhale Datawhaleのヒント著者: Eternity、Datawhaleメンバー コードアドレス: https://github.com/deepseek-a... Janus Pro アドレス: https://github.com/deepseek-a...\_pro\_tech\_report.pdf Janus-Proは前作Janusの進化版であり、具体的には(1)最適化された学習戦略、(2)拡張された学習データ、(3)より大きなモデルサイズなどを備えています。これらの改良により、Janus-Proはマルチモーダル理解とテキスト画像化指示への準拠において大幅な進歩を遂げ、テキスト画像化生成の安定性も向上しています。Janus-Proの詳細を解説する前に、Janusについて簡単におさらいしておきましょう。 ヤヌスのレビュー 先行研究であるJanusは、マルチモーダル理解と生成を統合するための自己回帰フレームワークであり、視覚エンコーディングを分離することで、統合されたマルチモーダル理解と生成を実現するように設計されています。マルチモーダル理解に関しては、通常LLaVA設計に従い、視覚エンコーダをブリッジとして用いることで、大規模言語モデルが画像を理解できるようにします。生成に関しては、通常は拡散モデルに基づいていますが、自己回帰法に基づくものもあります。一部の手法では、単一のTransformerを用いてマルチモーダル理解と生成のタスクを統合しようとします。Transformerは通常、単一の視覚エンコーダを用いて両方のタスクの入力を処理します。 しかし、マルチモーダル理解タスクと生成タスクに必要な表現は異なります。マルチモーダル理解タスクでは、視覚エンコーダーは高レベルの意味情報(物体のカテゴリや視覚属性など)の抽出を目指します。出力には、画像からの情報抽出だけでなく、複雑な意味的推論も含まれます。エンコーダーは主に高次元の意味的表現に焦点を当てています。一方、生成タスクは、画像全体にわたる全体的な一貫性を維持しながら局所的な詳細を生成することに重点を置いているため、空間構造やテクスチャの詳細を表現するために低次元のエンコーディングが必要です。これら2つのタスクの表現を同じ空間内で統合すると、矛盾が生じる可能性があります。 Janusは、マルチモーダル理解と生成のためのそれぞれ独立した2つの視覚エンコーディングパスを備えており、2つの利点をもたらします。1) マルチモーダル理解と生成における異なる粒度要件から生じる競合を軽減します。2) 柔軟性と拡張性を備えています。分離後、理解タスクと生成タスクの両方で、それぞれの分野における最先端のエンコーディング技術を採用できます。将来的には、点群、脳波信号、音声データを入力として取り込み、統合されたTransformerを用いて処理できるようになります。
視覚生成タスクでもマルチモーダル理解タスクでも、画像特徴シーケンスとテキスト特徴シーケンスは LLM への入力として連結されます (この論文では DeepSeek-LLM 1.3B が使用されています)。 LLMに組み込まれた予測ヘッドは、純粋テキスト理解タスクとマルチモーダル理解タスクの両方におけるテキスト予測に利用され、ランダムに初期化された予測ヘッドは、視覚生成タスクにおける画像予測に使用されます。モデル全体は、特別に設計されたアテンションマスクを必要とせず、自己回帰フレームワークに準拠しています。Janus/blob/main/janus\_pro\_tech\_report.pd Janus トレーニングは 3 つの段階に分かれています。
トレーニングの目標 Janusは、クロスエントロピー損失関数を用いて学習される自己回帰モデルです。純粋なテキスト理解タスクとマルチモーダル理解タスクでは、損失はテキストシーケンスに対して計算されます。画像生成タスクでは、損失は画像シーケンスに対してのみ計算されます。設計をシンプルにするため、タスクごとに異なる損失重みは割り当てられません。 推論 プレーンテキスト理解とマルチモーダル理解の両方において、予測分布から語彙単位を順次サンプリングする次語彙予測法が用いられます。画像生成には、分類器を用いないアプローチが用いられます。 可能な拡張
Janus-Pro アップグレード Janus はトレーニングデータが限られており、モデルサイズも比較的小さい (1B) ため、短いプロンプトによる画像生成の表現が乏しい、テキストから画像への生成品質が一定でないといった欠点があります。Janus-Pro のアーキテクチャは、次の図に示すように、Janus と同じです。 主な改善点
実験の詳細Janus-Pro トレーニングハイパーパラメータ 不十分マルチモーダル理解の場合、入力解像度は384x384に制限されており、細かい視覚タスクのパフォーマンスに影響を及ぼします。テキストから画像を生成する場合、解像度が低いため、生成される出力の詳細が欠落します。 著者: Eternity、Datawhaleメンバー 前の記事: LLM ベースのエージェントの詳細ガイド! 志湖ホームページ: https://www.zhihu.com/people/... いいね! (3件のいいね!)↓ |
完全な分析: DeepSeek Janus から Janus-Pro まで!
関連するおすすめ記事
-
アジェンダ紹介 | オープンソースAIフォーラム(AI for Science)
-
PyCharm は DeepSeek と統合して AI プログラミングを可能にします。
-
無料で無制限アクセス!DeepSeek R1(フルバージョン、671B)の隠しエントリポイント。優れたプラットフォームとして推奨されています!
-
バイトダンスのAI版レオナルド・ディカプリオが始まる:黄風嶺、八百里
-
手のひらサイズのチップが世界のコンピューティング能力を支配します。Microsoft の量子コンピューティングのブレークスルーにより、新たな物質状態の構築が可能になります。
-
2025年最初の一冊!マスク、サム・アルトマン、ビル・ゲイツらも絶賛する、AI分野の必読書。