618ZXW

スカーレット・ヨハンソンが中国風ポロシャツを宣伝、イーロン・マスクがレッドカーペットでジーンズを着用!新しいバーチャル試着システムが大流行。

たった 2 枚の画像と 30 秒もかからずに、イーロン マスクがカウボーイ姿でレッド カーペットを歩く様子を再現できます。

あるいはスカーレット・ヨハンソンが中国風のポロシャツを宣伝するかもしれないね〜

アニメ風の着せ替えも問題ありません。

中山大学、Pixocial、およびその他の機関が共同でリリースした軽量モデルアーキテクチャであるCatVTON は、Stable Diffusion v1.5 インペインティングに基づいています。

さらに効果を見てみましょう。

拡散モデルを使ったバーチャル試着

CatVTON は、従来のフラットレイの衣服画像をキャラクターの衣装に変換できます。

トップス、パンツ、スカート、スーツなど、どんな服装でも大丈夫です。

その形状と質感は高い一貫性を維持できます。

さらに、CatVTONではキャラクターAの衣装をキャラクターBに変更することもできます。

カテゴリーを明示的に指定する必要はありません。マスクの種類に応じて、対象の衣類を試着できます。トップス、パンツ、スカートを個別に、または複数の衣類を同時に変更することも可能です。

もしそうなら、それはどのようにして達成されたのでしょうか?

軽量モデルアーキテクチャ

CatVTON は豊富な機能を誇りますが、そのモデル アーキテクチャは驚くほどシンプルで効率的です。

  • 2つのネットワークモジュール(VAE + UNet)
  • 合計パラメータ899.06M
  • 推論メモリ8GB未満(出力画像1024×768)

軽量アーキテクチャは、CatVTON が既存の方法論の冗長性を観察した結果生まれました。

  • ワーピングベースの方法は、試着モジュールの融合において衣服を変形して再利用するために幾何学的なマッチングを利用するため、硬くて不自然な結果になります。
  • 拡散モデル法に基づくReferenceNetの導入により、トレーニングと推論の負担が増加しました。

具体的には、CatVTON は、入力のチャネル次元で人物と衣服を連結することで追加の ReferenceNet への依存を構造的に排除し、画像の仮想試着にはあまり役立たないテキストのクロスアテンションをスキップし、生成を支援するための追加の画像エンコーダも必要としません。

以下の表は、CatVTON と比較したさまざまな方法のモジュール数、パラメータ数、トレーニング可能なパラメータ数、メモリ使用量、推論条件を詳細に比較したものです。

ネットワーク モジュールの点では、CatVTON は追加のエンコーダーなしで VAE+UNet のみを必要とします。モデル パラメーターの総数に関しては、CatVTON は他の方法と比較してその数を少なくとも44%削減します。GPU メモリ使用量の点では、CatVTON は他の方法の半分以下であり、軽量モデル アーキテクチャにおける CatVTON の利点を示しています。

△モデルの効率性に関する項の詳細な比較

トレーニングの点では、CatVTON は、事前トレーニング済みの拡散モデルを TryOn タスクに転送するときに実際に役割を果たす、UNet のノイズ除去モジュールを調査します。

まず、ノイズ除去UNetは、異なる特徴スケールを持つResNetブロックとTransformerブロックを積み重ねた構造で構成されています(下図参照)。このうち、ResNetは空間不変性を持つ畳み込みネットワークであり、特徴抽出に適しています。空間間の特徴相互作用は発生しません。この部分は、拡散モデルを大規模に事前学習した時点で既に十分な特徴符号化能力を備えているため、TryOnタスクへの転移とは強い関連性がありません。

Transformerブロックの内部構造は、Self Attention、Cross Attention、FFNの3つの部分に分けられます。Cross AttentionはT2Iタスクにおけるテキスト情報とのインタラクションに使用され、FFNは特徴マッピングとして機能します。そのため、Self Attentionは衣服や人間の特徴とのインタラクションに最も関連しています。

CatVTONの論文では、トレーニングが必要なモジュールを理論的に決定した後、アブレーション実験も実施し、UNet、Transformer Block、Self Attentionを個別にトレーニングした場合の可視化結果に大きな違いはなく、指標も非常に類似していることがわかり、「Self Attentionは、事前トレーニング済みの拡散モデルをTryOnタスクに転送するための重要なモジュールである」という仮説が検証されました。

最後に、理論と実験によって決定されたSelf Attention部分は、わずか4957万個のパラメータで構成されており、全体のパラメータのわずか5.71%を占めています。これを微調整することで、よりリアルな試着効果を実現できます。前のセクションの表に示すように、CatVTONは他の手法と比較して、学習可能なパラメータ数を10倍以上削減しています

結論として、CatVTONは、拡散モデルに基づくバーチャル試着フレームワークを再考・再設計し、マルチタスク・マルチカテゴリーのバーチャル試着を単一のモデルに統合しました。軽量なフレームワークとパラメータ効率の高いトレーニング戦略により、最先端の試着結果を実現し、モデルのトレーニングと推論計算の要件を削減し、バーチャル試着モデルの実用化を促進します。

プロジェクトホームページ: https://zheng-chong.github.io... 論文リンク: https://arxiv.org/abs/2407.15886