618ZXW

Tencent の 3D 大規模モデルは完全にオープンソースであり、モデルの重みと推論コードが完全にオープンになっており、テキストと画像を 10 秒で 3D アセットに変換できます。

テキストと画像から 3D への変換を同時にサポートする初のオープンソース 3D 生成モデルが登場し、その結果は今もなお最先端レベルにあります。

ちょうど今、テンセントは Hunyuan3D-1.0 のリリースを発表し、モデルの軽量バージョンと標準バージョンの両方をオープンソース化しました。

わずか10 秒でエンドツーエンドのデータを生成できます。

まず、6 つのマルチビュー画像を生成し、次にマルチビュー再構築を実行すると、瞬く間に死角のない 360 度 3D アセットが作成されます。

キャラクターの外見に関係なく:

下のブドウのような複雑な構造でも、細部は非常によくできています。

薄いカエデの葉でも完全に生成できます。

Belike: くり抜き彫刻模様生成効果

実験では、Hunyuan3D-1.0は定性的評価と定量的評価の両方において、従来の最先端オープンソースモデルを上回り、推論性能が大幅に向上しました。A100 GPUの軽量版での生成時間は約10秒でしたが、標準版では約25秒でした。

現在、Hunyuan3D-1.0 のモデルの重み、推論コード、モデル アルゴリズムはすべてオープンソース化されています。

ローンチ イベントでは、私たちのチーム メンバーは 3D で生成され、直接 3D プリントされたミニチュア フィギュアを受け取りました。

2ステップでマルチビューを生成および再構築

技術的な実装に関しては、テンセントのHunyuanチームが技術レポートを発表しました。

Hunyuan3D-1.0 モデルのアーキテクチャは次のとおりで、マルチビュー生成とマルチビュー再構築の 2 段階生成方式を採用しています。

入力画像に対して、まずマルチビュー拡散モデルを用いて、固定カメラビュー下で6枚の新しいビュー画像を合成します。これにより、3Dアセットの豊かなテクスチャと幾何学的事前分布を様々な視点から捉えることができ、3D画像生成タスクをシングルビュー再構成から、より難易度の低いマルチビュー再構成タスクへと変換できます。

生成されたマルチビュー画像は、Transformer ベースのスパースビュー大規模再構成モデ​​ルに入力されます。

再構成モデ​​ルは、前の段階で生成されたマルチビュー画像を使用して、マルチビュー拡散によって導入されたノイズと不整合を処理する方法を学習し、条件付き画像で利用可能な情報を使用して 3D 構造を効率的に復元します。

最終的に、このモデルは任意の単一の視点から 3D アセットを生成できます。

具体的には、マルチビュー生成の第 1 段階では、適応型 CFG (分類器フリー ガイダンス) を採用し、異なる視点と時間ステップに異なる CFG スケール値を設定しました。

隣接する視点での CFG が大きいほど、生成制御が強化され、入力画像との類似性が高まります。一方、より遠い視点での CFG が小さいほど、生成の多様性が高まり、生成された画像のリアリティが確保されます。

さらに、角度の堅牢性とあらゆる入力視点との互換性を確保するために、トレーニング データをレンダリングするときに、さまざまなピッチ角度が入力としてレンダリングされ、0° ピッチ角度の複数のビューが出力されます。

任意の視点からの画像を入力し、周囲にピッチ角0の画像を6枚生成します。これにより、複数の視点間の可視領域が最大化され、アテンションによって複数の視点間の一貫性が維持されます。これにより、マルチビュー再構成モデ​​ルの次のステップに使用できる、一貫性が高くリアルなマルチビュー画像が得られます。

マルチビュー再構成の第2段階では、Hunyuan3D-1.0は、キャリブレーション済み(生成されたマルチビュー画像)とキャリブレーションされていない(ユーザー入力)の混合入力を組み合わせ、専用のビューに依存しないブランチを通じて条件付き画像情報を統合し、生成された画像内の目に見えない部分の精度を向上させます。

画像情報は、クロスアテンションを介して三面機トークンに注入されます。

Hunyuan3D-1.0 は、線形レイヤーを通じて特徴平面の解像度を 64 から 256 にアップサンプリングし、特徴表現をより繊細にし、生成されるオブジェクトをより詳細にします。

注目すべきは、Hunyuan3D-1.0 も符号付き距離関数 (SDF) の暗黙的表現を採用しており、最終的にマーチング キューブ アルゴリズムを使用して 3 次元空間でサンプリングとクエリを実行して符号付き距離を取得し、3D パイプラインと直接組み合わせることができる 3D メッシュを出力することです。

新しいオープンソースSOTAの勝利

実験結果によると、Hunyuan3D-1.0 は強力な一般化能力と制御性を備えており、大規模な建物から小さなツールや植物まで、さまざまな規模のオブジェクトを再構築できます。

3D生成の品質は、GSOとOmniObject3Dという2つの公開3Dデータセットを用いて、面取り距離(CD)とFスコア(FS)の指標を含めて定量的に評価されました。Hunyuan3D-1.0は、総合的に最も優れたパフォーマンスを示しました

定性的な評価では、Hunyuan3D-1.0 は、幾何学的詳細、テクスチャの詳細、テクスチャと幾何学的形状の一貫性、3D の合理性、命令の準拠など、あらゆる評価次元で最先端のオープンソース モデルを上回っています。

ユーザーの嗜好評価結果は次のとおりです。

Hunyuan3D-1.0 では、高品質で多様な生成を保証するだけでなく、推論パフォーマンスも大幅に向上し、3D アセット生成に必要な時間が大幅に短縮されました。

「3D生成技術は今年、急速な発展の段階に入った。」

Hunyuan3D-1.0のリリースに合わせて、テンセントのHunyuan 3D大規模モデルも実用化されています。

テンセントマップはすでにテンセント渾源3D大型モデルをベースにしたカスタム3Dカーナビロゴ機能をリリースしており、ユーザーは自分好みの3Dカーナビロゴを作成できるようになっているという。

テンセント元宝アプリは、パーソナライズされたUGC 3Dキャラクターの生成をサポートする「3Dキャラクタードリームファクトリー」もリリースしました。

今年の3Dトラックはまさに​​興奮に満ち溢れています。

国内では、VASTやAVAR AIといったスタートアップ企業があり、その多くは世界的に著名な大学や研究機関から生まれています。海外では、AIの第一人者、フェイフェイ・リー氏が自身の最初のベンチャーとして設立した空間インテリジェンス企業、World Labsがあります。同社も3D生成世界に注力しており、3D世界を認識、生成、そしてインタラクションするための大規模世界モデル(LWM)の構築を長期目標として掲げています。

Tencent のオープンソースへの移行により、誰もが 3D モデルを操作できるようになるための参入障壁が間違いなく下がりました。

テンセントのHunyuan 3Dプロジェクトの責任者であるGuo Chunchao氏は次のように述べた。

3D生成技術は今年、急速な発展段階に入りました。新たな生産性ツールとして、3D AIGCは複雑な従来の3D生産プロセスの効率を向上させ、ゲーム、工業製造、ソーシャルエンターテイメントなどの分野への応用が可能です。将来的には、ロボット工学などの分野と融合し、空間インテリジェンスを強化する可能性も秘めています。

公式サイト:https://3d.hunyuan.tencent.com/