618ZXW

わずか 30 秒でプロ品質のメッシュを生成できます。面の最大数が 1600 に増加しました。GitHub で 1.9k 個のスターを獲得しました。

AI は、わずか30 秒で、3D モデラーのようにさまざまな指示に従って高品質の人工メッシュを生成できます。

NeRF と 3D ガウス スプラッティングによって生成された 3D 再構成画像のメッシュ効果は次のとおりです。

ポイント クラウドは複雑なメッシュを作成します。

高密度メッシュに基づいて生成することもできます。

写真やテキストによる説明でも十分です。

GitHub で 1,900 個のスターを獲得したMeshAnythingプロジェクトは、南洋理工大学、清華大学、インペリアル・カレッジ・ロンドン、ウェストレイク大学などの研究機関の研究者によって完成された V2 バージョンをリリースしました。

V1 と比較して、MeshAnything V2 では新しく提案されたAdjacent Mesh Tokenization (AMT) アルゴリズムが使用され、生成できる顔の最大数が 800 から 1600 に増加しました。

以前のメッシュ トークン化方法と比較して、AMT では同じメッシュを表すのに平均して半分の長さのトークン シーケンスのみが必要です。

この研究は発表後すぐに多くのネットユーザーから注目を集めました。

では、MeshAnythingとは何でしょうか?MeshAnything V2ではどのような改良が加えられたのでしょうか?

高度に制御可能な人工メッシュ生成

AI は以前からメッシュを生成できてきましたが、これは上記のような人工メッシュの生成とは大きく異なる点に注目すべきです。

研究チームによると、Marching CubesやGet3Dなどの従来の手法では、非常に密度の高いファセットを持つメッシュが生成され、人工メッシュの数百倍にもなることが多く、ゲームや映画などの実際の3D業界に適用するのはほぼ不可能だという。

さらに、その表面構造は人間の直感に沿わないため、3D モデラーがそれをさらに改良することは困難です。

下の画像に示すように、この問題は単純に remesh だけでは解決できません。remesh 法は、全体的な効果に影響を与えずに面の数をわずかに減らすことができます。

前述の問題は、産業界における 3D 研究の応用に直接影響を及ぼします。

3D業界のパイプラインは、3D表現としてほぼすべて人工メッシュを使用しています。たとえ3D研究分野で高精度なNeRFや3Dガウス分布を生成できたとしても、それらを業界で適用可能なメッシュに変換できなければ、その応用範囲は著しく制限されてしまいます。

そこで研究チームは、これまでに高度に制御可能な人工メッシュ生成の実現を目指すMeshAnythingを提案してきた。

MeshAnything は、メッシュの各ファセットをトークンとして扱い、メッシュ全体をトークンのシーケンスとして扱い、大規模な言語モデルのように、メッシュ全体を 1 トークンずつ生成する自己回帰トランスフォーマーです。

MeshAnything は、ポイント クラウドを条件として使用して、高度に制御可能な人工メッシュ生成を実現する独創的な条件設計を採用しています。

MeshAnything のポイント クラウド ベースの設計により、さまざまな 3D スキャン、3D 再構築、3D 生成方法と組み合わせることができます。

これらの多様な方法から得られる 3D 表現はそれぞれ異なりますが、いずれもポイント クラウドをサンプリングすることができ、それを MeshAnything に入力して人工メッシュに変換することで、これらの 3D モデル出力を実際の 3D 業界で適用できるようになります。

さらに、この設計によりMeshAnythingの学習難易度が大幅に低減され、パフォーマンスが向上します。点群は詳細な3D形状情報を提供するため、MeshAnythingは複雑な3D形状分布を学習する必要はなく、与えられた点群に適合する人工メッシュの構築方法を学習するだけで済みます。

MeshAnything V2 ではどのような改善が行われていますか?

MeshAnything V2 ではバージョン V1 と比較してパフォーマンスが大幅に向上し、生成できる面の最大数が 800 から 1600 に増加しました。

その主な改良点は、新たに提案された隣接メッシュトークン化 (AMT) アルゴリズムによるものです。

以前のメッシュ トークン化方法と比較すると、 AMT では同じメッシュを表すのに平均してトークン シーケンスの半分の長さしか必要ありません

変換の計算量はO(n^2)であるため、トークン列の長さが半分になると、注意計算量は4分の1に削減されます。さらに、AMTによって得られるトークン列はよりコンパクトで、構造が優れており、変換の学習により適しています。

AMT は、各ファセットを可能な限り単一の頂点のみで表現することで、上記の進歩を実現します。

上の図は、AMTの動作を明確に示しています。AMTは、隣接する面の表現を優先することで、1つの頂点を使用して面を表現します。表現されていない隣接する面が存在しない場合、AMTはその状況を示す特別なトークン「&」を追加し、処理を再開します。

AMT の助けにより、V2 はパフォーマンスと効率の面で従来の方法を大幅に上回り、高品質の人工メッシュ生成を実現しました。

トレーニング データの場合、MeshAnything は ShapeNet と Objaverse からの人工メッシュを使用し、これらのメッシュをトークン シーケンスに展開してから、クロスエントロピー損失を使用して監視します。

V1 と V2 はどちらも 350m のトランスフォーマー アーキテクチャのみを使用し、10 万のトレーニング データで上記の結果を取得しました。これは、この方向へのスケールアップにはまだ大きな可能性があることを示しています。

その他の結果は次のとおりです。

V1 プロジェクトホームページ:

https://buaacyw.github.io/mes...

V2 プロジェクトホームページ:

https://buaacyw.github.io/mes...