フラクタル生成モデルの新たなパラダイムを切り開きました！計算効率が4000倍向上し、初めて高解像度のピクセル単位の生成を実現しました。

何開明は再び新たな学派を確立しました！彼は生成モデルにおける全く新しいパラダイムを開拓しました。

フラクタル生成モデルにより、初めてピクセル単位で高解像度の画像を生成することが可能となり、論文のタイトルもこれまでのシンプルなスタイルを継承しています。

チームは、生成されたモデル自体を再利用可能な「アトミックモジュール」に抽象化しました。

生成モデル内でこれらの原子生成モジュールを再帰的に呼び出すことで、自己相似フラクタルアーキテクチャを構築できます。

その発想の源は数学におけるフラクタル概念です。フラクタルとは、粗く断片化された幾何学的形状を複数の部分に分割し、それぞれの部分が（少なくとも近似的に）全体の縮小版となることを意味します。つまり、フラクタルは自己相似性という性質を持っています。

はい、ロシアの入れ子人形のようなものです。

ちなみに、「ロシアの入れ子人形」という用語はすでに他の論文で使用されています。残念です。

研究チームは、パラメータ化されたニューラルネットワークをフラクタルジェネレーターとして使用し、データからこの再帰ルールを学習することで、材料やタンパク質などにも使用できる高次元の非連続データのモデリングを実現することを提案しました。

結果は、「ピクセル単位の画像生成」タスクにおいて優れたパフォーマンスを示しました。

この画像を見ると、必然的に Kaiming He の代表作の一つである Mask Autoencoder (MAE) を思い浮かべます。

欠落したピクセルは、入力画像のランダムなブロックをマスクすることによって再構築されます。

チームはMAEの結果に基づいていくつかの可能性も検討しました。これらの結果のコードは現在オープンソース化されています。

ピクセルごとに高解像度の画像を生成する

自己回帰モデルをフラクタルジェネレーターとして使用するにはどうすればよいでしょうか?

まず、多数のランダム変数の結合分布をモデル化することが目的であることを考慮すると、単一の自己回帰モデルを直接使用する場合の計算コストは非常に高くなります。

チームの主な戦略は「分割して統治する」ことで、自己回帰モデルをモジュール単位に抽象化しました。

ジェネレーターの各レベルは単一の入力から複数の出力を生成できるため、フラクタルフレームワークは、線形数の再帰レベルのみで、生成される出力の指数関数的な増加を実現できます。

最終的に、各フラクタルレベルで、自己回帰モデルは前のジェネレータからの出力を受け取り、それを対応する画像パッチと連結し、複数のトランスフォーマーモジュールを使用して次のジェネレータの出力セットを生成し、画像パッチからピクセルへの生成プロセスを徐々に改良していきます。

ピクセルレベルの画像生成を選択した理由は、元の画像データが高次元かつ複雑であり、ピクセル間に豊富な構造パターンと相互依存性があるためです。

これらの高次元生成問題は、要素ごとにデータを生成しますが、長シーケンスモデリングとは異なります。通常、分子構造、タンパク質、生物学的ニューラルネットワークなどの非シーケンスデータが対象となります。

チームは、フラクタル生成モデルはコンピュータービジョン手法であるだけでなく、高次元の非シーケンシャルデータモデリング問題の処理におけるフラクタル手法の可能性を示し、他のデータ分野での応用の参考になると考えています。

ただし、ピクセルレベルの画像でのパフォーマンスを見てみましょう。

まず、直感的な視覚効果があります。ImageNet 256×256 データセットでは、ピクセルごとに画像を生成するのに 1.29 秒かかります。

テスト指標の点では、フラクタルモデルは ImageNet 64×64 無条件生成で 3.14 ビット/次元の負の対数尤度を達成し、これまでの最高の自己回帰モデルを上回りました。

画像品質の点では、FractalMAR-H モデルは FID 6.15 と Inception Score 348.9 を達成しました。

さらに注目すべきは、フラクタルアーキテクチャにより従来の方法に比べて計算効率が 4,000 倍向上し、初めてピクセル単位で高解像度の画像を生成できるようになったことです。

研究チームはまた、マスクの再構築とフラクタル生成モデルを組み合わせることも検討し、実験により、マスクされたピクセルを正確に予測できることが示されました。

さらに、クラスラベルから高レベルの意味を効果的に捕捉し、それを予測ピクセルに反映させることも可能です。例えば、最後の列で猫の顔を犬の顔に置き換えるといった具合です。これらの結果は、既知の条件下で未知のデータを予測する際のこの手法の有効性を実証しています。

最後に、生成された結果のサンプルをさらに添付します。

この成果は、MIT の Kaiming He 氏が率いるチームと Google DeepMind の中国人チームによって達成され、Google は TPU と GPU リソースを提供しました。

第一著者は、He Kaiming 氏の弟子であるLi Tianhong氏です。

李天紅は清華大学学際研究院姚学級を卒業し、学士号を取得しました。MITで修士号と博士号を取得後、現在は賀開明研究室でポスドク研究を行っています。

彼の主な研究分野は、表現学習、生成モデル、そして両者の相乗効果です。彼の目標は、人間の知覚を超えた世界を理解できるインテリジェントな視覚システムを構築することです。

彼は以前、Kaiming He 氏とともに自己条件付き画像生成フレームワーク RCG の開発を共同で手がけており、チームの最新の研究プロジェクトのいくつかにも参加しています。

Qinyi Sunは現在、MITの学部3年生です。

清華大学コンピュータサイエンス学部の卒業生であるファン・リージエ氏は、昨年 MIT CSAIL で博士号を取得し、現在は Google DeepMind の研究科学者として、生成モデルと合成データに焦点を当てています。

以前、彼はLi TianhongとFLUID研究で協力していました。

VQを必要としない、スケーラブルな自己回帰テキスト画像変換モデル。10パラメータモデルにより、最先端のパフォーマンスを実現します。

論文の宛先:

https://arxiv.org/abs/2502.17...