AIによる逆さ絵が大ヒット！ワシントン大学がワンクリックでゴッホの「星月夜」を再現。

ゴッホの名画もAIでリバースエンジニアリングできるのか？

AIに元画像を与えるだけで、ゴッホベンゴに変身して絵全体を少しずつ描き直してくれます（元画像はどんな画像でも構いません）。

AIは、両側を注意深く比較することで、ほぼ1:1の複製を実現し、絵を描く初心者である私たちに画像を作成するプロセス全体を明確に示しました。

この魔法は、ワシントン大学の「Inverse Painting」というプロジェクトから生まれました。関連論文はSIGGRAPH Asia 2024に選出されており、著者のうち2人はノースイースタン大学（Bowei Chen）と上海科技大学（Yifan Wang）の卒業生です。

このプロジェクトはリリースされるとすぐにRedditで白熱した議論を巻き起こし、最も多くの賛成票がアーティストコミュニティ（doge）への懸念を示しました。

アーティストはこれに怒っているかもしれない。

しかし、これは絵の描き方を学ぶのに非常に役立つと言う人もいます。

いくつかの傑作を「解読」し、隠された技術や失われた技術を抽出するためにも使用できます。

拡散モデルに基づく

Inverse Painting では、元の画像からペイントプロセスのタイムラプスビデオまで、拡散ベースの逆ペイント手法を採用しています。

実際のアーティストの絵画ビデオを研究し、テキストと領域理解を組み合わせて絵画の「指示」を定義し、拡散ベースのレンダラーを使用してキャンバスを更新することで、人間のアーティストの絵画プロセスに似たビデオが生成されます。

さらに分解すると、このプロセスには主に次の手順が含まれます。

アーティストの絵画制作過程を学習します。アクリル画による風景画制作過程の動画294本（平均9分）を収集し、動画フレームの分割、切り取り、フィルタリングなどの前処理を行い、モデルが絵画制作過程を学習できるようにしました。
描画指示を定義します。絵画内の様々な要素（空、木、人物など）とそれらの要素間の関係性を理解した上で、モデルに何を最初に描き、何を後で描くかを指示する「描画指示」のセットを生成します。
拡散モデルを使用します。拡散モデルを使用してリアルな画像を生成し、アーティストが絵を描くようにキャンバスに徐々にディテールを追加します。
テキストと領域の理解。このモデルはテキスト指示と領域マスクも生成します。前者はモデルに描画内容を指示し、後者はコンテンツの正確な位置を指定します。
段階的なレンダリング。空白のキャンバスから始まり、絵画のプロセス全体が徐々に生成されます。
時間制御。現実世界のアーティストの絵画速度をシミュレートするために、モデルは各ステップ間の時間間隔も考慮します。

これらの手順は、以下に示すように、 2 段階のトレーニング + テストプロセスとして要約できます。

フェーズ1: 命令生成

このステージでは、主にテキスト命令ジェネレータとマスク命令ジェネレータという2 つの主要な命令セットが生成されます。

前者は、対象の絵画と現在のキャンバスの状態を比較して、「空を描く」や「花を追加する」などの短いテキスト指示を生成し、次に追加する要素を決定します。

後者は、キャンバスのどの部分を更新する必要があるかを示すバイナリイメージです。

これら 2 つの方法を組み合わせることで、モデルがキャンバスの適切な領域にのみ描画されるようになります。

△生成されたテキスト指示

フェーズ2: キャンバスレンダリング

次に、最初の段階で生成された命令を使用してキャンバスを更新します。

テキストコマンドと領域マスク、現在のキャンバスイメージ、ターゲットアートワークを使用し、拡散ベースのレンダラーを使用してキャンバスを更新します。

このレンダラーは、「ノイズ除去拡散確率モデル」と呼ばれる手法を使用して、ノイズの多い画像からノイズを徐々に除去し、連続した画像フレームを生成します。

要約すると、レンダラーはキャンバスを更新するときに、テキストコマンド、領域マスク、時間間隔、ターゲットペイントと現在のペイントの特性など、さまざまな条件信号を考慮します。

これらの条件付き信号は、レンダラーが人間のアーティストの絵画スタイルとプロセスをより正確にシミュレートするのに役立ちます。

テスト時間生成

テスト段階では、モデルはトレーニング済みのパイプラインを使用して、絵画をゼロから生成します。

ここで重要なポイントが 2 つあります。

自己回帰プロセス。各ステップは前のステップで生成された結果に依存し、一貫した描画プロセスを実現します。
固定時間間隔。各ステップの間には固定時間間隔が使用され、キャンバスが更新されます。これは、実際の絵画制作プロセスにおける時間の経過をシミュレートするものです。

最終的に、その生成結果は、3 つのベースラインメソッド (Timecraft、Paint Transformer、Stable Video Diffusion) の結果よりも大幅に優れています。

一方、関連するバリアントも最先端 (SOTA) の結果を達成しました。

著者のうち2人は中国系です。

ここでプロジェクトの著者を簡単に紹介します。著者は全部で 5 名で、そのうち 2 名は中国人です。

Bowei Chen (陈柏维) は、中国のノースイースタン大学 (2016 年入学) でソフトウェアエンジニアリングの学士号を取得し、その後、カーネギーメロン大学ロボティクス研究所とワシントン大学で修士号と博士号を取得しました。

研究の関心はコンピュータービジョンとグラフィックスの交差点にあり、画像とビデオの生成に重点を置いています。

Yifan Wang 氏は上海科技大学でコンピュータサイエンスの学士号を取得し、今年ワシントン大学でコンピュータサイエンスの博士号を取得しました。

彼の個人プロフィールには複数の職歴（ByteDance、Google、Adobe など）が記載されており、現在は Meta Reality Labs Research の研究科学者です。

実はこのチームは以前にもAIによる逆ペイントを実施しており、ネットユーザーもPaints Undoプロジェクトについて言及していました。

当初は主にアニメーション業界で使用され、わずか 3 か月以内に GitHub で 3.3K 個のスターを獲得しました。

この件についてはさまざまな意見があり、最も大きな論争は、誰かが AI を使って著者になりすますのではないかという懸念から生じている。

結局のところ、芸術的コンセプトを説明することは、著者が作品の独創性を証明する方法の 1 つです。

絵を描くことを教えることができるという主張に関しても、一部のネットユーザーは自身の経験を挙げてこれを反論している。

実際の塗装工程とは若干異なります。

それで、絵を描くことについて何か知っていて、自分の考えを共有できる生徒はいますか?

618ZXW