618ZXW

10秒で世界を創る!Wu Jiajunチームの新作:リアルタイムインタラクティブ3Dワールド生成。

スタンフォード大学の Jiajun Wu チームが MIT と共同で行った最新の研究結果により、オープンワールド ゲームのリアルタイム生成に一歩近づきました。

1 枚の画像から始めて、リアルタイムのユーザー インタラクションを通じて無限に拡張可能な 3D シーンを生成します。

一枚の画像をアップロードするだけで、AIが作り出した仮想世界に入り込むことができます。ユーザーは視点を動かしたり、テキストプロンプトを入力したりすることで、リアルタイムで探索する方向やシーンを決めることができます。

俯瞰すると、仮想世界を作成するプロセスが明確にわかります。

魔法の森でも、リアルな街でも、静かな田舎でも、WonderWorld なら瞬く間に現実のものにすることができます。

「WonderWorld」と題されたこの作品は、スタンフォード大学とMITのJiajun Wu氏のチームの共同作品です。

WonderWorld プロジェクトのホームページには、一人称視点で移動できるインタラクティブなシーンも掲載されています。

GOATのベテランゲーム起業家であり、最高AI責任者でもあるGamin氏は、「非現実的な画像でも動作します。可能性は無限大です!」と興奮気味に語った。

WonderWorld は、シリコンバレーの人気ニュースサイト Hacker News のトップページにも掲載されました。

従来の生成AI手法では、1つのシーンを生成するのに数十分、あるいは数時間もかかっていたことは注目に値します。WonderWorldのスピードは、まさにインタラクティブな体験の新たな世界への扉を開きました。

それで、これは具体的にどのように行われたのでしょうか?

インタラクティブな3D世界の生成

ユーザーが3D世界の生成を制御できるようにする上での最大の課題は、生成速度にあります。従来のAIによる3Dシーン生成では、対象シーンの遮蔽部分を補うために、まず多数の2D画像を生成し、その後、それらを最適化してシーンの3D表現を取得する必要がありました。このプロセスは非常に時間のかかるものでした。

WonderWorld の核となるブレークスルーは、その驚異的なスピードにあります。

研究チームは、 FLAGS (Fast Layered Gaussian Surfels)シーン表現手法を開発しました。これにより、システムはわずか10秒で新しいシーンを生成できます。この速度は既存の手法の約100倍に相当し、インタラクティブな3D世界の生成を真にリアルタイムの限界へと押し上げます。

具体的には、WonderWorld は新しいシーンを生成する際に、まずシーンの 2D イメージを生成し (最初のシーンでは入力イメージを直接使用)、そのイメージから 3 つのレイヤー イメージを生成し、次にレイヤー イメージから FLAGS 表現を生成します。

FLAGSは、ガウスサーフェルの3つのレイヤー(空レイヤー、背景レイヤー、前景レイヤー)を表します。各レイヤーは、対応するレイヤー画像から生成されます。空レイヤー画像と背景レイヤー画像はそれぞれオクルージョン情報でパディングされているため、WonderWorldは複数の画像を段階的に生成する必要がありません。

さらに、FLAGS によって表される各ガウス サーフェルは、レイヤー イメージ上のピクセルに一意に対応するため、推定されたピクセル レベルの幾何学的情報 (単眼深度や単眼法線ベクトルなど) を使用してガウス サーフェルのパラメータを初期化し、最適化プロセスを加速することができます。

最後に、WonderWorldは、複数の3Dシーン間に頻繁に発生する幾何学的な「ギャップ」に対処するため、 「ガイド付き深度拡散」も提案しました。その核となるアイデアは、既に生成された3Dシーンの深度情報をガイドとして使用し、新しく生成されるシーンの深度が元のシーンの深度と一致するようにすることです。接続点において古いシーンと新しいシーンの深度が一致していれば、シーン間のギャップを埋めることができます。

2D 画像生成モジュールと深度推定モジュールの両方で事前トレーニング済みのモデルを直接使用できるため、フレームワーク全体でトレーニングは不要であることは注目に値します。

実験テスト

これまでの手法ではインタラクティブな3Dシーン生成を実現できなかったため、研究者らは、一貫性のある3Dシーン生成手法であるWonderJourney 、および単一シーンを生成するText2RoomLucidDreamerと比較しました。既存の評価データセットが不足していたため、研究者らはテスト用に28個のシーンを生成しました。

研究者たちはまず、よりインタラクティブに生成されたシーンを実演し、WonderWorld がさまざまなシーン タイプやビジュアル スタイルに適用できることを示しました。

ベンチマーク方法との比較では、WonderWorld が他のすべての方法よりも大幅に優れていることがわかります。

人間の嗜好評価の観点からも、WonderWorld は大幅に好まれています。

さらに、WonderWorld はさまざまなユーザー コントロールを受け入れ、単一の入力画像からさまざまなシーン コンテンツを生成できます。

著者について

この論文の主著者はスタンフォード大学の Jiajun Wu 氏のチームです。

論文の第一著者は、スタンフォード大学博士課程5年生のYu Hongxing氏です。

彼の主な研究分野は、インタラクティブな物理世界の再構築です。SIGGRAPH Asia Best Paper Award、Qualcomm Scholarshipを受賞し、Meta ScholarshipとNVIDIA Scholarshipにもノミネートされています。

Jiajun Wuは現在、スタンフォード大学の助教授であり、スタンフォード ビジョン アンド ラーニング ラボ (SVL) およびスタンフォード人工知能ラボ (SAIL) に所属しています。

彼はMITで博士号を取得し、清華大学姚学級を卒業して学士号を取得しました。かつては「清華大学十傑の学才」の一人と称されました。

論文リンク:
https://arxiv.org/pdf/2406.09394

参考リンク:
[1]https://x.com/Koven\_Yu/status/1835769026934673595
[2]https://kovenyu.com/wonderworld