618ZXW

オンラインチュートリアル | 物理AIシステムの革新:日光と霧のシミュレーションが可能なNVIDIAのワールドベースモデルをすぐに使い始める

1月初旬のCES 2025で、ジェンセン・フアンは新作のレザージャケットで会場を驚かせました。「世界最速GPU RTX 5090」に加え、世界最速のベーシックモデル「Cosmos」も注目を集めました。

「AIの次のフロンティアは物理学です」と、Lao Huang氏はCosmosを使って、このトレンド評価の起源と信頼性を直感的に説明しました。

名前が示すように、ワールドモデルは仮想世界を生成・シミュレートし、シーン内のオブジェクトの空間関係や物理的な相互作用をシミュレートします。具体的には、 Cosmos World Base Model(Cosmosワールドベースモデル)は、オープンソースの拡散・自己回帰型Transformerモデルであり、物理認識動画を生成するために設計されています。このモデルは、実世界の人間の相互作用、環境、産業、ロボット工学、運転に関する2,000万時間分のデータに基づいて、9京個のトークンで学習されています。

NVIDIA のシニア サイエンティストである Jim Fan 氏は、自身のソーシャル メディア アカウントで Cosmos の正確な概要を次のように説明しています。

  • 2つのモードが利用可能です:
    拡散パターン(連続ラベリング)と自己回帰パターン(離散ラベリング)
  • 2つの生成方法をサポートします:

テキストからビデオへの変換(テキスト→ビデオ)とテキスト + ビデオからビデオへの変換(テキスト+ビデオ→ビデオ)

この革新的なコスモス世界モデルを誰もが手軽に体験できるよう、HyperAIウェブサイトのチュートリアルセクションに「コスモス世界モデルのワンクリック展開」機能を追加しました。ご興味のある方はぜひお試しください!

チュートリアルアドレス:

https://go.hyper.ai/GTCAL

デモ実行中

1. hyper.ai にログインし、「チュートリアル」ページで「Cosmos ワールド ベース モデルのワンクリック展開」を選択し、「このチュートリアルをオンラインで実行」をクリックします。


2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。

3. 「NVIDIA RTX A6000」のコンピューティングパワーと「PyTorch」イメージを選択します。ニーズに応じて、「従量課金制」または「日単位/週単位/月単位のサブスクリプション」を選択できます。最後に「続行」をクリックします。

以下の招待リンクを使用して登録した新規ユーザーには、4 時間の無料 RTX 4090 トレーニングと 5 時間の無料 CPU トレーニングが提供されます。

HyperAI 限定招待リンク (コピーしてブラウザに直接貼り付けてください):

https://openbayes.com/console/signup?r=Ada0322_QZy7

さらに、OpenBayes の旧正月プロモーションも実施中であり、シングルカード RTX 4090 および RTX A6000 カードの毎日/毎週のサブスクリプションが 50% 割引になります。

4. リソースが割り当てられるのを待ちます。最初のクローン作成には約7分かかります。ステータスが「実行中」に変わったら、「ワークスペースを開く」をクリックし、「ターミナル」を開きます。


5. 環境をアクティブ化するには、次のコマンドを入力します。

 conda activate ./cosmos

6. 次のコマンドを入力して、Cosmos ディレクトリを切り替えます。

 cd Cosmos

7. 次のコマンドを入力して、モデルの gradio インターフェースを起動します。

 PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/gradio_text2world.py --checkpoint_dir checkpoints --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World --offload_prompt_upsampler --offload_text_encoder_model --offload_guardrail_models --video_save_name Cosmos-1.0-Diffusion-7B-Text2World --checkpoint_dir /input0

ポート 8080 が表示されたら、右側の API アドレスを開いて gradio インターフェイスにアクセスします。

8. gradioインターフェースに入ったら、「プロンプトを入力」にプロンプ​​トワードを入力し、「送信」をクリックして推論を開始します。数分待つと、生成されたビデオが表示されます。

デモを見るにはリンクをクリックしてください。

「安定した拡散チュートリアル交換グループ」を作成しました。ぜひご参加いただき、さまざまな技術的な問題について議論し、アプリケーションの経験を共有してください。

WeChat で Hyperai01 (WeChat ID: Hyperai01) を追加し、「SD Tutorial Exchange Group」とメンションしてグループ チャットに参加します。