618ZXW

拡散モデルの50倍高速!OpenAIがマルチモーダルモデルのリアルタイム生成の進捗状況を発表。著者は清華大学の卒業生で、休職中のCEOグレッグ氏も登場。

清華大学の卒業生2人がOpenAIで最新の研究を発表した。

画像を生成しますが、その速度は拡散モデルより 50 倍高速です

Lu Cheng と Song Yang は一貫性モデルをさらに簡素化し、わずか 2 回のサンプリング ステップで拡散モデルに匹敵する生成品質を実現しました。

彼らは、連続時間一貫性モデルのトレーニング規模を前例のない 15 億パラメータにまで拡大することに成功し、512×512 の解像度で ImageNet データセットのトレーニングを実現しました。

15 億のパラメータを持つモデルは、推論の最適化を行わずに、単一の A100 GPU で 0.11 秒でサンプルを生成できます

チームはまた、システムをカスタマイズして最適化することで、プロセスをさらに加速し、画像、音声、ビデオのリアルタイム生成の新たな可能性を提供できるとも述べています。

この論文の著者のうち2人はともに清華大学の卒業生であることは特筆に値します。

この研究は発表後、ネットユーザーから多数の「いいね!」やシェアを獲得した。

休暇中だったOpenaiの会長グレッグ・ブロックマン氏も隠れ場所から連れ出された。

マルチモーダルモデルはリアルタイム生成に向かっています

では、sCM はどのように実装されるのでしょうか?

2段階サンプリング、50倍の高速化

一貫性モデルは、拡散モデルの高速な代替手段です。

現在の拡散モデルのサンプリング方法では、通常、単一のサンプルを生成するために数十から数百の連続したステップが必要であり、リアルタイム アプリケーションの効率とスケーラビリティが制限されます。

多数のノイズ除去ステップを経て段階的にサンプルを生成する拡散モデルとは異なり、 1 ステップで直接ノイズをノイズのないサンプルに変換することを目的としています

OpenAI のこの最新の研究では、連続時間一貫性モデルを改善するための包括的なアプローチを提案しており、主にタイトルに記載されている 3 つの重要なポイント、つまり簡素化、安定性、拡張が含まれています。

本論文では、既存の整合性モデルは主に離散時間学習を採用しており、これにより追加のハイパーパラメータが導入され、離散化エラーが発生しやすいことを指摘しています。連続時間式ではこれらの問題を回避できますが、連続時間整合性モデルに関するこれまでの研究では、学習の不安定性という課題が常に存在していました。

この目的のために、この論文ではまず、EDM (指数拡散モデル) とフロー マッチングの 2 つの手法を巧みに統合したTrigFlow を提案します。

TrigFlow を使用すると、以下に示すように、拡散プロセス、拡散モデルのパラメータ化、PF-ODE、拡散トレーニング目標、一貫性モデルのパラメータ化を簡潔に表現できます。

これを基に研究者らは、連続時間一貫性モデルのトレーニングにおける不安定性につながる原因について詳細な分析を実施しました。

TrigFlow フレームワークの上に、パラメータ化、ネットワーク アーキテクチャ、トレーニング目標に重点を置いたいくつかの理論的な改善が導入されました。

連続時間一貫性モデルをトレーニングするための鍵は次のとおりです。

に応じて:

さらに分析を進めると、不安定性は時間微分に起因することが明らかになりました。

これに基づいて、次の 3 つの重要な改善が提案されました。

  • 元の対数正接変換は、恒等時間変換 c_noise(t)=t に置き換えられ、これにより、t が π/2 に近い場合の数値不安定性が回避されます。
  • フーリエ埋め込みの代わりに位置時間埋め込みを使用すると、微分振動が減少します。
  • AdaGN に代わる適応型二重正規化レイヤーが導入され、モデルの表現力を維持しながらトレーニングの安定性が向上しました。

さらに、この論文では、接線ベクトルの正規化や適応重みなどの手法を含め、トレーニング目標を改善しています。

これらの改良により、研究者は時間一貫性モデルのトレーニング規模を 15 億パラメータまで拡張し、複数のベンチマーク データセットで優れたパフォーマンスを達成することができました。

CIFAR-10 の FID (低いほど良い) は 2.06、ImageNet 64×64 では 1.48、ImageNet 512×512 では 1.88 です。

特に注目すべきは、これらのモデルはわずか 2 回のサンプリング ステップでほぼ最高の生成品質 (10% の FID 差以内) を達成し、計算コストは​​後者のわずか 10% であることです

研究者らは、改良されたコンセンサスモデルを変分分留(VSD)法と比較し、コンセンサスモデルの方がより多様なサンプルを生成し、より高いレベルのガイダンスでより優れたパフォーマンスを発揮することを発見しました。

また、彼らは、教師普及モデルの規模の拡大に伴って、SCM の改善が比例して増加するという重要な発見もしました。

FID スコアの比率を使用してサンプル品質の相対的な差を測定する方法は、さまざまなモデル サイズにわたって一貫しており、モデル サイズが大きくなるにつれてサンプル品質の絶対的な差が減少することを意味します。

さらに、sCM にサンプリング ステップを追加すると、品質ギャップをさらに削減できます。

著者について

ルー・チェン

昨年、私は清華大学のTSAILラボで朱軍教授の指導の下で博士号を取得しました。2019年には清華大学でコンピューターサイエンスとテクノロジーの学士号を取得しました。

彼は現在、OpenAI の研究科学者であり、大規模な深層生成モデルと強化学習アルゴリズムに興味を持っています。

私は数学の理論と実践的な応用スキルの理想的なバランスを見つけるのが好きです。

彼は、一貫性モデル、拡散モデル、正規化フロー、エネルギーベースモデル、およびそれらの画像生成、3D 生成、強化学習への応用に関する幅広い研究経験を持っています。

ソン・ヤン

清華大学で数学と物理学の学士号を取得した後、Song Yang 氏はスタンフォード大学でコンピューターサイエンスの博士号を取得しました。指導教官は Stefano Ermon 氏でした。

その研究目標は、さまざまな形式の高次元データを理解、生成、処理できる強力な AI モデルを開発することです。

現在、Song Yang は、トレーニング方法、アーキテクチャ設計、アライメント、堅牢性、評価手法、推論効率など、生成モデルの改善に重点を置いています。

彼はまた、科学的発見のためのツールとしての生成モデルの可能性を探ることにも興味を持っています。

参考文献: [1] https://x.com/OpenAI/status/1... [2] https://luchengthu.github.io/ [3] https://yang-song.net/