|
『Black Myth: Wukong』の人気は、3Dゲーム自体の人気を高めただけでなく、その背後にあるAI 3D生成技術の底流も築いています。 長らく、3D大規模モデルの分野は、言語モデルや動画モデルに比べて、外部からの注目度がやや低かった。しかし、世界中の3D大規模モデルプレイヤーは、ひそかに競争と努力を重ねてきた。a16zのYellowへの賭けから、Fei-Fei LiのWorld Labsに至るまで、3D大規模モデルのイテレーション速度は遅れをとっていない。 ちょうど今、中国を代表する3D大規模モデルビルダーであるVASTが、数千万人のユーザーを抱える独自の高品質ネイティブデータベースでトレーニングされた超強力なバージョンである大規模モデルTripoをアップデートしました。 新しい 3D 生成ツールでは、さらに一歩進んで、テキスト、単一の画像、複数の画像を入力として使用できるようになりました。 幾何学的な詳細と画像の忠実度への影響については、新しいツールを使用して生成された 3D モデルの短いビデオをご覧ください。 VASTは新製品の発表に加え、もう一つの大きなニュースも発表した。同社は数億人民元の資金調達を完了した。これは3D大型模型分野で最大の資金調達額である。 もちろん、資金調達におけるリーダーシップは、単に技術力の証明に過ぎません。VASTの技術と応用シナリオはまさに最高レベルです。 素晴らしい効果で完璧な結果を素早く生成します。AI 3D の基準を再び引き上げるモデルはTripo 2.0と呼ばれます。 Tripo 2.0 は、まず数秒でシェイプ ジオメトリのプレビューを生成し、次に数秒でそれを「スキン化」して、テクスチャと PBR を生成します。 Tripo 2.0 は正式にリリースされ、すでに多数のユーザーがテストを開始しています。 QuantumBit もすぐにこの楽しみに参加しました。 Tripo 2.0 はテキストと単一の画像からの 3D 生成をサポートします。Tripo 1.4 は複数の画像からの 3D 生成もサポートします。 プロンプトを入力すると、一度に 4 つの 3D モデルを生成できます。 入力に応じて、量子ビットの実践的な実験結果は、以下の 2 つの部分に分かれます。
Tripo 2.0 Wensheng 3Dモデルの実世界テスト早速、Wensheng 3D 効果を見てみましょう。 最初のステップは、アニメの女の子の半身に似た幾何学的形状を生成することです。 複雑な構造を生成する効果から判断すると、詳細はかなり良好です。 次にスキンを貼ります。 20 秒未満で微細なテクスチャとレイヤーを実現します。手動モデリングでこのレベルの詳細を実現するには、数千倍の時間がかかります。 別のアプローチを試してみましょう!Tripo 2.0 を使って、漫画キャラクターの全身画像を生成してみましょう。 まずは漫画の小人になってみましょう! 結果は非常に可愛らしくなりました(Song Dandan のように聞こえます)。次のようになります。 別の小さなモンスターを生成し、生成された個々のモデルを拡大しました。 360度回転させても、肉眼でバグや欠陥は見当たりませんでした。モンスターの背中の密集した鋭いトゲは、人間のモデラーにとっては悪夢のような存在です。彼らは通常、このような複雑なデザインを敬遠しますが、Tripoはそれを完璧にこなしました。 また、より困難で複雑な 3D モデル生成タスクも処理できます。 透視構造の理解は、生成AIにおいて常にボトルネックとなってきました。例えば、RAW画像モデルにおける指の問題などが挙げられます。3Dモデルの空間構造は極めて重要であり、Tripoの強力な透視構造理解機能は、複雑な構造を持つモデルを完璧に生成することができました。 最後に、もう一つ印象的な例をご紹介します。このショッピングカートの例を見れば、その難しさが一目瞭然です。 Tripo 2.0 画像生成 3D モデルの実世界テスト生成された3D画像の効果をもう一度見てみましょう。 一枚の画像から3Dモデルを生成するアルゴリズムは、画像の空間情報の理解度と精度をテストします。今回は、その結果を市場の他のプレーヤーの結果と比較しました。 ご注意:以下の各画像の最後の 3D モデルは Tripo 2.0 によって生成されました。 前回のバラの画像と模型の比較です! 比較してみると、どの角度から見ても死角のない幾何学的形状を生成できるのはこれだけであり、花や葉の完成度が最も高いことがわかります。 マテリアルのレイヤーにテクスチャを適用すると、元の画像の色とテクスチャを再現するのに最適な結果が得られます。 植物生成効果をテストした後、無生物のグラフィカル モデルもテストしました。 ロシアのイースターエッグの写真を入力すると、Tripo 2.0 の出力は最も「エンボス加工」された感じになり、比較すると最も精巧なテクスチャの詳細が得られます。 複数のテストを実施した結果、Tripo 2.0 が全体的な生成パフォーマンスに大きな違いを示していることが簡単にわかります。 たとえば、生成された PBR マテリアルは忠実度が高く、元のチャートの視覚的な属性と効果が保持されます。 たとえば、側面であろうと背面であろうと、それぞれの面は元の画像の複雑な特徴を捉えることができます。 Tripo 2.0 は優れた品質を実現するだけでなく、強化された制御性も大きな特徴です。 入力は、マルチモーダル入力をサポートするだけでなく、Wensheng 3D モデル モードが選択されている場合 (つまり、生成されたモデルに要素が含まれないようにする) は否定プロンプト入力もサポートします。 出力モデルのポーズの制御も優れています。 生成された 3D モデルの頭、脚、腕などの比率をカスタマイズできます。 「A ポーズ」と「T ポーズ」を選択して、瞬時に脚が長く見えるようにすることもできます。 生成された 3D モデルは、ワンクリックでボーンにバインドしてスタイル設定することもできます。 3Dモデルの人には自分専用のレゴがあります! 他にもたくさんの遊び方があるので、自分のペースで自由に試してみてください。ぜひコメント欄で、あなただけのオリジナルゲームプレイを投稿してください! Tripo 2.0はとてもうまく機能するので、 Tripo 2.0 はどのようにして作成されましたか?技術的な観点から見ると、Tripo 2.0 の実装プロセスは、 「3D スケーリング法」という 1 つの言葉で特徴付けられます。 まず、Tripo 2.0は、数千万件のレコードを収録した大規模な3D高品質データベースを基盤としています。確率的生成モデリング手法を採用し、大規模データ内の形状と材質分布を捉える方法を学習します。 その結果、Tripo 2.0 では出力の品質がより確実に保証され、モデルの堅牢性と一般化能力が向上します。 第二に、 DiT モデルと U-Net モデルを組み合わせた複雑なハイブリッド アーキテクチャを採用しています。 DiTは3D構造におけるグローバルコンテキストと長距離依存関係のキャプチャに優れており、U-Netは細部や局所的な特徴の保持に優れています。Tripo 2.0は、これら2つのアーキテクチャの利点を組み合わせています。 さらに、最先端のトレーニング アルゴリズムを採用した Tripo 2.0 のジオメトリおよびマテリアル生成モデルは、数億のパラメータを持つ最先端の大規模フロー モデルに基づいています。 ガイダンス蒸留とステップ蒸留の両方を採用し、蒸留による効率向上と、品質を犠牲にすることなくパフォーマンスを大幅に最適化します。 Tripo 2.0は、さまざまなテクノロジーのサポートにより、3D形状生成、テクスチャ品質、詳細レンダリング、入力条件の順守、出力の多様性において最先端のパフォーマンスを実現し、新たな「五角形」の戦士になりました。 これまで、Tripo 2.0 のチームは他のチームと協力して、Siggraph、CVPR、ICLR、ECCV などのトップ カンファレンスで認められた豊富な学術成果を生み出してきました。 たとえば、 Wonder3D は、クロスドメイン拡散モデルを通じて一貫性のあるマルチビュー法線マップと対応するカラー画像を生成し、新しい法線融合アルゴリズムを使用して、迅速かつ高品質で 3D ジオメトリを再構築します。 Wonder3D は、既存の分別蒸留サンプリング (SDS) 方法と比較して、効率、一貫性、詳細度が大幅に向上し、2 ~ 3 分以内に再構築を完了できます。 もう 1 つの例は、CVPR 2024 にも含まれていたTGS: Triplane Meets Gaussian Splattingです。 このテクノロジーは、Transformer ネットワークと新しい Triplane-Gaussian ハイブリッド表現を活用し、単一の画像から 3D モデルをより効率的かつ正確に再構築します。 詳細については、興味のある学生は自分で調べることができます。 つまり、Tripo 2.0 は一夜にして実現したわけではなく、膨大な技術的蓄積の集大成なのです。 3D世界におけるスケーリング則最後に、Tripo 2.0 を開発している会社についてご紹介します。 VASTは昨年3月に設立され、大規模3Dモデルの研究開発に特化したAI企業です。 同社の目標は、「大衆市場向けの 3D コンテンツ作成ツールを作成し、3D ベースの空間をユーザー エクスペリエンス、コンテンツ表現、および新製品の品質強化の重要な要素にすることで、3D UGC コンテンツ プラットフォームを構築すること」です。 公開情報によれば、同社の CEO と CTO はともに SenseTime 出身とのことだ。 創業者兼CEOの宋亜塵(ソン・ヤチェン)は、センスタイムで複数のAIプロジェクトをゼロから立ち上げ、大規模モデル分野におけるAI企業6社のうちの1社であるMiniMaxの設立にも携わってきました。CTOの梁丁(リャン・ディン)は、清華大学で学士号、修士号、博士号を取得しており、院士の戴瓊海(ダイ・チオンハイ)に師事しました。以前はセンスタイムでジェネラルモデル部門の責任者を務めていました。 この会社は設立から1年半、頻繁に移転を繰り返してきました。 まず、今年の初めに、初の大型3Dモデル「Tripo 1.0」を発表しました。 Tripo 1.0 には数十億のパラメータがあり、これを使用すると、単一の画像/テキストから 3D メッシュ モデルを生成するのにわずか 8 秒しかかかりません。 △Tripo 1.0で生成されたクラシックな3Dモデル「アボカドアームチェア」 Tripo 1.0 はリリースから 6 か月以内に、世界中で 500 万を超える 3D モデルを生成しました。 500 万というのはどういう意味でしょうか? これは、世界トップ 3 の 3D モデル データベースの合計数とほぼ同等です。 今年 3 月初旬、VAST は Stable Diffusion を支える Stability AI と共同で、オープンソースの 3D 基盤モデルTripoSR をリリースしました。 たった 1 枚の画像から 0.5 秒で 3D モデルを生成できるため、3D 生成のオープンソース コミュニティで広く人気があり、これまでに GitHub で 4.3k 個のスターを獲得しています。 現在、Tripo 2.0 がリリースされ、オンラインでプレイできます。 3D スケーリング法によってパフォーマンスが向上したおかげで、Tripo の 3 回のアップデートはわずか 9 か月間隔で行われました。 さらに、スピードと高品質を両立しており、その有効性は業界内外で広く認められています。 この点を説明するために、最近のニュースを紹介します。少し前に、世界最大のオンライン ゲーム開発プラットフォームである Roblox が AI 3D 生成への参入を正式に発表しましたが、これまでのところ、Roblox プレイヤーの間では Tripo が最も人気のある 3D モデリング ツールとなっています。 VAST は次に Tripo をどのような方向に導くのでしょうか? QuantumBit が見つけた答えは、少なくとも技術的には、VAST は、データ、表現、およびモデル アーキテクチャのスケーラブルなパラダイムを模索しながら、3D 生成 AI のスケーリング法則におけるモデル サイズ、データ量、および生成品質の関係の基本原則を追求し続けるというものでした。 当社は 3D 生成 AI の限界を押し広げることに注力しており、より総合的な 3D 生成を今後も探求し続けます。 それは楽しみなことだ。 言語モデルとビデオモデルが世界にちょっとした衝撃を与えた後、人々は3D生成トラックが独自のChatGPTの瞬間を育むことができることも期待しています。 3D AI生成は、他のAI生成トラックと比べてかなり特殊です。AI生成モデルを手動で修正するのは技術的に難しいだけでなく、モデルの性能が良くない場合は、ガチャ回数を増やすだけで満足感を得たいのであれば、できるだけ早く自分で描いた方が良いでしょう(実際はそうではありません)。 幸いなことに、3D 生成業界は幅広い信頼を獲得しており、前進し続けています。 過去2年間、特に2023年末から2024年にかけてを振り返ると、3D生成技術は急速に発展しました。 有効性と速度の面の向上だけでなく、「高効率、低コスト、強力なイノベーション、強力なカスタマイズ性」という特徴も実現します。 テクノロジーが急速に進歩するにつれ、業界全体の人材密度は増加し続けています。 国内では、VASTのような企業は、世界的に著名な大学や研究機関から生まれたスタートアップがほとんどです。国際的には、AIの第一人者、フェイフェイ・リー氏が設立した初の空間インテリジェンス企業であるWorld Labsも、3D生成世界に注力しており、3D世界を認識、生成、そしてインタラクションするためのLarge World Models(LWM)を構築するという長期目標を掲げています。 多くの手で仕事をすると楽になります。 人材、テクノロジー、エフェクト、シナリオの明確化と進歩により、AI 3D生成の分野が徐々により多くの人々の目に留まり始めていると言えます。 3D スケーリング法則がもたらす可能性のある画期的な進歩は、人工知能の分野における次の焦点を示しているようです。 |
AI 3D生成が新たな高みに到達!清華大学チームが3Dスケーリング法則を開発。
関連するおすすめ記事
-
世界初の AI 搭載ストリーミング音楽アプリが登場! 中国製。
-
AI大規模モデルエコシステムとコンピューティングパワーカンファレンスが9月25日に開催され、約20名の業界リーダーが大規模モデルアプリケーションの新しいエコシステムについて議論しました。
-
「中国の電気自動車市場は攻撃的すぎる」ホンダと日産は生き残りをかけて上場廃止し、合併を発表。
-
大手配車サービス会社は、ロボタクシー専用の滴滴出行の自動運転プログラムにさらに21億元を投資する。
-
テレンス・タオ氏に続いて、セーラム数学賞を受賞した中国人もおり、彼も90年代以降の世代である。
-
オープンソースのデジタルヒューマンリアルタイムダイアログ:外観をカスタマイズでき、音声入力をサポートし、ダイアログの最初のパケット遅延は 3 秒まで短縮されます。