618ZXW

Kunlun Tech が Matrix-Zero 世界モデルをリリースし、空間インテリジェンスの新時代を切り開きます。

2月14日、Kunlun TechはMatrix-Zero世界モデルを正式に発表し、宇宙知能を探査するための3Dシーン生成モデルとインタラクティブビデオ生成モデルを同時に発表した中国初の企業となった。

Matrix-Zero 世界モデルには、次の 2 つのサブモデルが含まれます。

01

3Dシーンから大規模なモデルを生成する

崑崙科技が自社開発した3Dシーン生成大規模モデルは、ユーザーが入力した画像を、リアルで合理的な3Dシーンに変換し、自由に探索できるようにします。World Labsが生成したシーンよりも探索範囲が広く、より自由度が高く、動的な物理効果も備えています。

02

インタラクティブビデオ生成大規模モデル

崑崙科技が自社開発したインタラクティブ動画生成モデルは、ユーザー入力を駆動するインタラクティブな空間インテリジェント動画生成ソリューションを提供します。リアルタイムのユーザー入力に基づくインタラクティブな動画エフェクトの生成をサポートし、より精密に制御可能なアクションモデルを備えています。

画像と動画は、現代社会において人間が情報を得るための主要な手段となっています。3Dシーン生成技術と動画生成技術の発展は、コンテンツ制作の方法を根本的に変革し、クリエイティブな効率性を大幅に向上させる可能性を秘めています。既存の3D AIGCツール(TripoAIやMeshyなど)は、主に単一のオブジェクトの生成に重点を置いているため、完全かつ合理的な3Dシーンを構築することが困難です。一方、従来の3Dモデリング手法はコストと時間がかかり、大規模なコンテンツ制作のニーズを満たすことが困難です。

一方、AI駆動型2D動画生成技術と3Dシーン生成技術を組み合わせることで、生成効率と汎用性が大幅に向上し、より幅広い応用シナリオへの適応性が向上するだけでなく、結果の一貫性と物理的な妥当性も向上し、よりリアルで没入感のあるインタラクティブ体験を提供できます。この融合技術は、デジタルコンテンツ制作モデルを再構築し、映画・テレビ制作、ゲーム開発、身体性知能などの分野における制作効率とイノベーション能力を向上させ、業界をより高いレベルの発展へと導くでしょう。

空間インテリジェンスは、新興の最先端技術として、ビデオ生成、3Dモデリングなどの技術を統合し、物理空間のデジタル再構築を実現します。その中核的な目的は、2D画像をインタラクティブな3Dシーンに変換し、より自然で直感的、そして没入感のある体験をユーザーに提供することです。デジタル時代のAIの波の中で、3Dシーン生成、ビデオ生成モデル、そして関連する空間インテリジェンス技術は、特に身体性知能、映画・テレビ制作、ゲームといった多くの業界に急速に破壊的な変化をもたらしています。

01

崑崙科技が自社開発した3Dシーン生成大型モデルは、空間インテリジェンスの時代を先導する第一歩となることを敢えてしています。

Kunlun TechのMatrix-Zero 3Dシーン生成機能は、ユーザーが入力した画像を、リアルで合理的な3Dシーンに変換し、自由に探索できるようにします。グローバルな一貫性、自由な探索、異なるスタイルの画像入力のサポート、スタイル転送のサポート、そして動的なシーン生成のサポートといった特徴を備えています。

Matrix-Zeroは、大域的に一貫性のある3Dシーンを生成します。「城の庭の一角」のような画像を入力すると、360度パノラマビュー後も変化のない3Dシーンを生成できます。最後のフレームは開始フレームに戻るため、生成結果に矛盾はありません。3Dゲームシーンの制御可能かつ迅速なモデリングや、具現化されたインテリジェントシミュレーションシーンの迅速な構築に応用できます。

Matrix-Zero がさらに印象的なのは、シーン内のあらゆる方向への長距離、広範囲の探索をサポートし、映画や短編ドラマのシーンショットを生成する可能性を広げる点です。

移動方向に関しては、前進前に周囲を見回す、後退、前進後に右折、360度俯瞰、180度後方視、連続左折、シーンのパノラマビュー、大規模な前進といったアクションが可能になり、より広く自由な探索が可能になります。ホールに入ると、視点と移動方向がシームレスに切り替わります。

あるいは、同じ 3D シーン内で、最初に 180 度回転させて (右上の画像)、次に周囲を見回す (右下の画像) ことで、探索方向をスムーズに切り替えることができます。

入力画像が漫画風であろうと写実的であろうと、Matrix-Zeroはリアルな3Dシーンを生成できます。さらに、同じ入力画像から異なるスタイルのシーンを生成することも可能で、Matrix-Zeroは異なるスタイルの入力画像とスタイルの変換をシームレスにサポートします。

「蓮の池」と「森の中の家」の写真を入力してみましょう。Matrix-Zeroは、リアルな蓮の池のシーンを瞬時に生成します。また、出力シーンのスタイルを簡単に切り替えて、漫画風の家を生成することもできます。

さらに、動的なシーン生成も非常に簡単です。Matrix-Zeroは、照明効果、動的な水しぶき、動的な雲や霧など、物理法則に基づいたリアルな3Dシーンを生成できます。現実の物理法則に準拠した3Dシーン/動画を生成し、現実世界のモデルを構築することができます。

自然界によく見られる照明効果と水の流れのダイナミクスを、Matrix-Zeroがいかに巧みに生成できるか見てみましょう。「小川にかかる小さな橋」の写真を入力すると、Matrix-Zeroはリアルな照明効果と水の流れ効果を、擬人化して生成します。

このリアルな効果は、Kunlun Techが独自に開発した3Dシーン生成モデルによって実現されています。このモデルは、シーンレイアウト生成モジュールとテクスチャ生成モジュールという2つのコアモジュールで構成されています。ジオメトリ生成モジュールは、微分可能レンダリングと拡散モデル技術を活用し、入力画像と一致する3Dシーンレイアウトを作成します。テクスチャ生成モジュールは、画像生成モデルと動画生成モデルを学習し、ユーザーがシーン内を移動するにつれて、欠落しているジオメトリ領域とテクスチャ領域を継続的に補完することで、ユーザーがどの位置や角度から見ても、違和感のない一貫したシーンを視覚的に確認できます。

02

当社が独自に開発したインタラクティブなビデオ生成モデルにより、3D 世界の自由な探索が現実になります。

以前、GoogleのGenie(インタラクティブ生成環境)シリーズは、ワールドモデルの機能と魅力を既に披露していました。よりスムーズで一貫性のある動作を実現するために、 Kunlun Wanweiのインタラクティブビデオモデルは、高度な生成ビデオモデルを基盤とし、自社開発のユーザーインタラクションモジュールと組み合わせることで、ユーザー入力に基づいた空間インテリジェントビデオ生成ソリューションを実現しています。

この手法は、オープンドメインの動画生成機能を維持しながら、動画コンテンツ内の視点移動の精密な制御をさらに強化し、ユーザーのインタラクションニーズと期待にさらに合致したものになります。これにより、ユーザーの意図に合致した動画コンテンツを生成するだけでなく、空間インテリジェンスモデルの適応性を最適化することで、仮想環境、インタラクティブアプリケーション、没入型体験などにおける応用シナリオを拡大することができます。

例えば、「夜の街」の写真を入力すると、Matrix-Zero はユーザーからのあらゆるキーボードの移動方向の制御とマウスの移動制御を受け入れ、前後左右や視点を移動できる対応するビデオを生成します。

別の「砂漠」画像を入力すると、Matrix-Zero は 3D 世界を探索する際にさらに自由度を高めることができます。

Matrix-Zeroでは、インタラクティブビデオモデルの中核コンポーネントであるユーザー入力インタラクションモデルが、ユーザー入力情報を解析し、ビデオ調整信号に変換するよう特別に設計されています。これにより、ビデオコンテンツがユーザーアクションに正確に反応し、より直感的でスムーズなインタラクティブ体験を実現します。このモジュールには、さまざまな種類のユーザー入力を処理するための複数のサブシステムが含まれており、ビデオの動的な変化に的確に作用することができます。主なコンポーネントは以下のとおりです。

  • 離散モーション制御モジュール

このモジュールは、前進、ジャンプ、後退といった基本的な動作コマンドなど、ユーザーが入力する個別の制御信号を解析するために使用されます。システムはこれらの入力を解析し、対応する動作軌跡に変換することで、ビデオ内のオブジェクトの動作に影響を与え、ユーザーのインタラクティブなニーズを満たします。

  • 連続表示制御モジュール

視点移動モジュールは、主にマウスやその他の入力デバイスからの連続的な制御信号(視点の変更や方向調整などの動的な操作)を解析するために使用されます。このモジュールは、リアルタイムのユーザー入力に応答し、それに応じてビデオコンテンツを調整することで、スムーズで一貫した視点遷移を実現します。

  • 3Dシーン位置追跡モジュール

このモジュールは、3D空間測位技術を活用し、視点移動時の位置安定性を向上させます。正確な空間座標トラッキングにより、異なるシーン間で自然な視点遷移を実現し、急激なシーンジャンプを軽減することで、より一貫性のある映像コンテンツを実現します。

  • スライディングウィンドウ機構により操作性が最適化されます

このメカニズムは、時系列の入力履歴情報を統合することで、システムがユーザーの次の行動をより正確に予測し、制御応答のスムーズさを最適化することを可能にします。スライディングウィンドウ技術により、システムはインタラクションの流暢性を向上させ、入力レイテンシを効果的に短縮し、全体的なユーザーエクスペリエンスを向上させます。

画像に対応する 3D 世界を自由に探索できるように設計されたビデオ生成システムである Matrix-Zero は、ビデオの滑らかさ、一貫性、妥当性を確保しながら、さまざまな環境で高品質のビデオ コンテンツを効率的に生成できます。

03

AI時代の到来を先取りし、中国の宇宙情報探査のリーダーになりましょう。

クンルンテックは、中国を代表するAI企業として、汎用人工知能を実現し、誰もがより良く自分を形作り、表現できるようにするという使命を常に掲げ、人工知能分野での自主的な研究開発に注力し、AI製品を継続的に発表しています。

崑崙科技は過去3年間、ビジュアルマルチモーダル、ディープラーニング、強化学習といった主要技術において一連の成功を収めてきました。同時に、金融と学術分野における知見が最も豊富な天宮AI検索、世界初のAI音楽制作プラットフォーム「Mureka」、AI短編ドラマプラットフォーム「SkyReels」、AIソーシャルプロダクト「Linky」、AIゲームなど、包括的なAIマトリックスを構築し、「AI最先端基礎研究 - 基盤モデル - AIマトリックス製品・応用」という産業チェーンを形成しています。

2025年1月、「天宮ビッグモデル4.0」O1版と4O版が天宮アプリとウェブサイトで正式リリースされました。2025年2月8日、崑崙科技の「天宮AI」はPC版の大型アップデート「DeepSeek R1 + オンライン検索」機能を正式にリリースしました。

時代の最前線に立ち、果敢にパイオニアとなる。今日、崑崙科技のMatrix-Zeroシリーズモデルの開発とイテレーションは、同社の将来のAI技術に対する早期戦略計画を象徴し、AIビジネスマトリックスをさらに強化するものです。インタラクティブ生成モデルの実装は、インタラクティブコンテンツエンジンを変革し、同社のマルチマトリックスAI製品の生産性を大幅に向上させます

Matrix-Zeroの世界モデルは4月にローンチ予定で、同社のAIゲーム制作、AI短編ドラマ制作・編集事業をさらに強化し、ユーザーと開発者に新たなプラットフォームとツールを提供します。動画モデルが現実世界をリアルにシミュレートできるレベルまで発展すると、ゲームは従来の3Dエンジンを必要としなくなり、多くの実験やシミュレーションが仮想環境で実施できるようになり、映画やテレビ番組の制作はより普及し、誰もが習得できる基本的なスキルになるでしょう。これらは未来のシナリオのように思われますが、テクノロジーの進歩によって徐々に現実のものとなりつつあり、動画生成モデルの普及はまさにこの潮流を象徴するものです。

今後の大規模モデル開発は、インテリジェントエージェントツールとユーザーインタラクションに重点を置くことになります。空間知能技術は、将来のインテリジェントエージェントの研究開発のための仮想プラットフォームを提供するだけでなく、生成された世界とのインタラクションという全く新しい体験をユーザーに提供し、インタラクションの多様性を大幅に向上させます。空間知能技術の開発は、身体性知能、さらにはAGIへの道のりにおける重要な技術的マイルストーンとなるでしょう。私たちは、アップグレードとイテレーションを継続し、より高度なAIプラットフォームを開発し、より優れたユーザーエクスペリエンスを備えたAI製品を改良し、人工知能の繁栄をさらに促進していきます。