618ZXW

360AI は、パラメータが 85% 削減され、最先端のパフォーマンスを誇る、DiT アーキテクチャに基づく ControlNet の「コスト削減バージョン」をリリースしました。

RelaCtrl チームは、その成果を QbitAI (WeChat 公式アカウント) に提出しました。

既存の制御可能な拡散トランスフォーマー法は、テキストから画像やビデオへの生成の進歩に大きな進歩をもたらしましたが、多数のパラメーターと計算オーバーヘッドも導入しました。

同時に、これらの方法では、異なる Transformer レイヤー間の制御情報の相関関係を効果的に考慮することができず、結果としてリソースの割り当てが非効率的になります。

360 AI 研究所の研究チームは、制御関連性に基づいて設計された、非常に効率的で制御可能な新世代の生成フレームワーク、 RelaCtrl を提案しました。

このフレームワークは、制御信号の統合を最適化し、拡散トランスフォーマー内でより効率的でリソースが最適化された制御を実現することで、前述の問題を効果的に解決します。

チームは一般的な T2I 拡散変圧器に関する実験検証を実施し、重要な成果を達成しました。

論文の第一著者は中国科学技術大学の修士課程2年生Cao Ke氏であり、共同第一著者兼プロジェクトリーダーは360 AI ResearchのAIGC研究者Ma Ao氏である。

現在、関連する研究論文、プロジェクトのホームページ、コードリポジトリが正式に公開されており、まもなくオープンソース化される予定です。

研究動機

現在、Diffusion Transformer (DiT) に基づく制御可能な生成方法 (PixArt-δ、OminiControl など) は、その強力なアーキテクチャとスケーラビリティを最大限に活用して、生成された結果の忠実度と、指定されたテキスト記述との一貫性を大幅に向上させます。

しかし、DiT の制御された生成方法には、依然として 2 つの主な問題があります。

まず、これらの方法では多数の追加パラメーターと計算が導入され、トレーニングと推論の負担が増加します。

第二に、異なるネットワーク層間の制御情報の相関関係が見落とされることが多く、その結果、コンピューティング リソースの割り当てが非効率的になります。

モデルの量子化とプルーニングに関する関連研究では、積み重ねられたTransformer構造を持つLLMモデルの影響は層ごとに異なることがわかっており、層ごとに詳細なプルーニング戦略を設計することが可能です。

これにヒントを得て、研究者らは推論段階で制御ネットワークのさまざまなレイヤーをスキップすることで、生成された画像の品質と制御精度を測定し、「ControlNet関連性スコア」を取得しました。このスコアは、その後の制御可能な生成の条件付き注入を導くために使用されました。

図に示すように、DiTでは異なる層間で制御情報の相関に大きな差があります。この相関は最初は増加し、その後減少する傾向を示しており、前層中央部では相関が高く、深層部では相関が低くなっています。

既存の方法では、この変化を適切に考慮できず、すべてのレイヤーに均一な設定が適用されるため、特に冗長なパラメータと低い相関関係のある計算では、パラメータと計算リソースの割り当てが非効率的になります。

そこで研究チームは、相関ガイダンスに基づく効率的かつ制御可能な生成フレームワークを提案しました。このフレームワークは、正確なパラメータ割り当てと制御戦略、そして軽量な制御モジュールを組み合わせることで、モデルパラメータと計算複雑さを効果的に削減します。

高効率で制御可能な発電フレームワークRelaCtrl

研究チームはまず、ControlNet の関連性スコアに基づいて、制御モジュールを統合するために最も重要な制御場所 11 か所 (関連性の高いものから低いものの順に並べた) を特定して選択しました。

この手法を用いることで、研究チームはパラメータ数を約15%削減しながら、13個のレプリカブロックを使用するPixArt-δに匹敵する制御性能を実現した。

この方法はモデルのサイズと計算オーバーヘッドを効果的に削減しますが、制御モジュールの内部設計には依然として冗長性が残ります。

MetaFormer は、Transformer の有効性を次の 2 つの主要コンポーネントに帰しています。

自己注意メカニズムを使用して実装されたトークン ミキサーと、フィードフォワード ネットワーク (FFN) レイヤーを使用して実装されたチャネル ミキサー。

しかし、研究によると、FFNはモデルパラメータのかなりの部分を消費するにもかかわらず、非常に冗長であることが多いことが示されています。この問題に対処するため、研究チームは軽量モジュールである関連性誘導型軽量制御ブロック(RGLC)を導入しました。このブロックは、トークンミキシングとチャネルミキシングを単一の操作に統合します。具体的には、著者らは、オリジナルのPixArt Transformerブロックのアテンション層とFFN層を置き換える新しい2Dシャッフルミキサー(TDSM)を設計し、アーキテクチャを簡素化して効率を向上させました。

この方法により、トークンとチャネル次元間の情報交換とモデリングが容易になり、複製されたブロックのパラメータ数と計算要件が大幅に削減されます。

2 つの主要部分の実装については、以下で詳しく説明します。

DiT-ControlNet 関連性以前

DiT-ControlNet の各レイヤーと生成品質および制御精度との相関関係を体系的に評価するために、研究チームは 27 個のコピー モジュールを含む完全に制御された PixArt-α ネットワークをトレーニングしました。

推論プロセス中、研究者は各制御ブロック層を体系的にスキップし、最終的に生成される結果への影響を評価しました。

定量的な評価では、画像生成の品質を測定するためにフレシェ開始距離 (FID) が導入され、制御精度を評価するためにハウスドルフ距離 (HDD) が使用されました。

これらの指標は、制御ブランチにおけるレイヤーのスキップが全体的なパフォーマンスに与える影響を分析し、各制御ブロックの関連度スコアを提供するのに役立ちます。最終的に、研究チームはこれら2つの指標の組み合わせに基づいてControlNetの関連度スコアを計算し、図中の白い数字で示されているように、制御モジュールを統合する上で最も重要な11箇所の制御箇所(関連度の高い順に並べられています)を選択しました。

2次元シャッフルミキサー

制御ブランチの計算負荷を軽減するために、研究チームはトークンをグループ化して計算する方法を提案し、トークン グループ間の相互作用とモデリング機能を強化するための特定の戦略を採用しました。

具体的には、この操作では、まずランダムなチャネル選択を実行し、次にトークン次元空間で入力シーケンスをランダムにシャッフルし、最後にローカル自己注意計算を実行します。

後続の注意メカニズムは固定のグループに限定されますが、関係するトークンはそのグループの外部から来る可能性があります。

この操作により、トークン間の固有の関係が効果的に破壊され、他のローカル ウィンドウ間にある程度の情報が導入され、それによって、通常はローカル アテンションによって課されるインタラクション制約が解除されます。

さらに、分割操作が回復プロセス中に埋め込まれた潜在コードの意味情報に影響を与えないようにするために、研究チームは、自己注意計算後にトークンとチャネル次元に逆回復操作を適用するように設計しました。

シャッフルとリカバリを組み合わせたこの包括的なアプローチは、2次元シャッフルミキサー(TDSM)と呼ばれます。可逆変換ペアの機能を活用することで、自己注意計算中に情報が保持されることが保証され、チャネル次元とトークン次元をまたがる効率的な非局所情報交換が可能になります。

実験結果

著者らは、RelaCtrl の有効性を検証するために、さまざまな条件下での制御可能な生成タスクについて定性的および定量的な評価を実施しました。

定性的な比較

図に示すように、RelaCtrlは視覚効果の比較において非常に競争力のある性能を示し、与えられた制約下で実画像に非常に近いフォトリアリスティックな画像を生成できます。また、さまざまな条件下でも強力な画像生成能力を発揮します。

定量分析

研究チームは、COCO検証セットを用いてRelaCtrlと比較手法を定量的に評価しました。その結果、RelaCtrlは制御指標、視覚品質、テキスト類似性において優れた性能を示し、あらゆる側面でその有効性が実証されました。

計算複雑性分析

下表に示すように、PixArt-αベースのRelaCtrlは、パラメータの増加がわずか7.38%、計算複雑度の増加が8.61%にとどまっており、パラメータと計算複雑度がともに約50%増加したControlNet法の増分増加率を大幅に下回っています。Flux.1-devでの実験では、このことがさらに検証され、RelaCtrlはパラメータの増加と計算複雑度のバランスを保ちながら、複数の指標でControlNet法を大幅に上回っていることが示されました。この優位性は実際の推論時間にも反映されており、RelaCtrlはより高い効率を示しています。

アブレーション実験

コミュニティ モデルとの互換性:

研究チームは推論にLoraを介して微調整されたPixArtの重みを使用しました。RelaCtrlはこれらのコミュニティの重みを効果的に活用できます。下の図は、指定された条件下でモデルによって生成された絵画、油絵、アンティーク、ピクセル風の画像を示しています。

論文リンク: http://arxiv.org/abs/2502.14377 プロジェクトのホームページ: https://360cvgroup.github.io/... コードリポジトリ: https://github.com/360CVGroup...