618ZXW

北京で、NVIDIA はヒューマノイド ロボットの未来を明らかにしました。それは、「3 台のコンピューター」によって駆動される 50 年の開発経路を 5 年間に凝縮するというものでした。

2025年はヒューマノイドロボットが大量生産される年となるでしょう。

黄氏が14台のロボットを携えてCESにデビューしてから間もなく、セミアナリシスのアナリストによる予測が再び白熱した議論を巻き起こした。

Nvidia は最終的には単なる半導体企業ではなく、ロボット工学企業になるでしょう。
製造からソフトウェアに至るまで、最も基本的なレイアウトを理解している人はわずかです。

この見解はどこから来ているのでしょうか?NVIDIAのロボット工学に関する計画とは一体何なのでしょうか?そして、なぜ同社はロボットを直接製造しないと明言しているのでしょうか?

NVIDIA の北京オフィスでは、NVIDIA のロボティクスおよびエッジ コンピューティング担当副社長の Deepu Talla がすべての質問に答えました。

3 台のコンピューターがロボットのための ChatGPT の瞬間を告げます。

(以下はディープ・タラ氏のスピーチの要約です)

私にとって、ロボット工学が不可欠となった主な理由は3つあります

危険な仕事。例えば、鉱業や危険な環境での作業では、ロボットが人間に代わって危険な作業を担うことができます。

労働力不足です。世代ごとに職業選択が異なります。例えば、私の祖父母は農家でしたが、両親は農業を辞め、私は農業に携わったことがありません。職業が進化するにつれて、労働力不足の問題は深刻化します。

高齢者介護の必要性。人間の寿命は延びています。世界の平均寿命は現在75歳を超えていますが、25年前はわずか67歳、50年前は57~58歳でした。さらに25年後には平均寿命は100歳を超え、将来的には150歳に達するかもしれません。しかし、もし人間の寿命が200歳になったらどうでしょうか?75歳の子供に介護してもらいたいと思いますか?おそらくそうは思わないでしょう。だからこそ、介護と仲間関係の問題を解決するために、「ソーシャルコンパニオン」、つまりロボットが必要なのです。

これは新しい情報ではありませんが、状況は確かに変化しています。2024年から2025年にかけて、ロボット工学への関心は大幅に高まりました。

世界中の企業がヒューマノイドロボットの開発方法を模索しています。なぜ2年前ではなく今なのでしょうか?何が変わったのでしょうか?

主な理由は 2 つあります。

特に生成 AI (GenAI) の分野における技術の進歩

約2年前、大規模言語モデル(LLM)はデジタルアプリケーションの分野に革命をもたらしました。現在、これらの技術はロボティクスにも応用され、デジタルアプリケーションと物理アプリケーションの境界が曖昧になっています。

シミュレーション環境の改善により、製造ロボットは大量生産がまだ実現されていないため、コストが高くなり、非常に高価になっています。

物理世界における進歩にも、かなりの時間がかかります。なぜなら、すべてが「実時間」(つまり「壁時計の時間」)に従うからです。以前は、ロボットのテストは物理環境に大きく依存していたため、進歩は非常に遅くなっていました。では、この12ヶ月で何が変わったのでしょうか?

NVIDIAは昨年、Omniverseと呼ばれる技術を開発しました。これはシミュレーション環境、つまり「グリーン」な環境と捉えることができます。この技術は大きく成熟しており、すべての問題を完全に解決できるわけではありませんが、その開発レベルはシミュレーションにおける生成AIに匹敵するほどです。これらの技術進歩によって、ロボット開発プロセスがどれほど加速するか想像してみてください。

そのため、今後5年から10年の間にロボット工学分野は大きく変化するでしょう。だからこそ、あらゆる企業がこの分野の発展に注力しているのです。私は、ロボット工学関連の課題を研究し、汎用ロボットの「脳」モデルを開発している多くの企業と話をしてきました。これこそが未来であり、危険な仕事、人手不足、そして事業運営の課題を解決するのに役立つ未来なのです。

この進歩は非常に刺激的です。1年前は、この方向性が成功するかどうかは不透明でした。それ以前にも相当な努力が払われていましたが、ここ6~12ヶ月の画期的な進歩によってすべてが変わりました。

今日、ロボットについて語るとき、ほとんどの人は物理的なロボット、つまり人間や産業用ツールに似た具体的な機械を思い浮かべます。この物理的な形態こそが目標であり、究極の成果です。しかし、この目標への道筋は非常に複雑です。ロボット工学分野の課題を真に解決するには、3台のコンピュータが必要です。

最初のコンピュータはトレーニングに使用されます。これはAIモデルのトレーニングに使用されるシステムです。トレーニングは通常、クラウド、データセンター、またはNVIDIA DGXのような強力なシステムで行われます。これはロボットの「脳」を構築する上で重要なステップです。

2台目のコンピュータはシミュレーションに使用されます。トレーニングが完了したら、テストが必要です。従来の標準的な方法は物理的なテストですが、これは時間がかかり、費用がかかり、リスクも伴います。より良い解決策は、「シミュレーションレイヤー」または「デジタルツイン」を導入し、仮想環境でテストを実行することです。シミュレーションにより、現実世界の時間やコストの制限を受けることなく、数千ものシナリオテストを大規模かつ迅速かつ安全に実行できます。

3台目のコンピューターは展開に使用されます。これはロボット内部に搭載される3台目のシステムで、物理的なロボットを操作する「頭脳」となります。NVIDIAの場合、これはJetsonやAGXなどのシステムを通じて実現できます。

これら3つのシステムを統合することで、開発期間を大幅に短縮できます。実稼働前にシミュレーションを通じて数千ものテストを実施することで、開発プロセス全体を加速します。設計が実環境でうまく機能しない場合は、シミュレーション環境で再度最適化・テストを実施できます。この循環的なプロセス(トレーニング、シミュレーション、テスト)により、ロボット工学の進歩は50年ではなく5年で達成できるようになります。

このアプローチは、ロボット工学が自動運転よりも難しい理由も説明しています。自動運転は主に、物理的な物体と接触することなく障害物を回避し、安全を確保することを目的としています。一方、ロボット工学は物体との接触、衝突、そして複雑な物理的相互作用を伴い、これらはすべてテストと最適化がより困難です。

シミュレーションは新しい概念ではありません。例えば、チップ設計の分野では、チップが完全に機能することを確認するために、製造前に100%のチップをシミュレーションする必要があります。チップ設計におけるエラーは、数ヶ月の遅延や数百万ドル、場合によっては数十億ドルものコストにつながる可能性があるからです。

ロボット工学分野における大きな課題の一つは、「シミュレーションと実機のギャップ」、つまりシミュレーション結果と実際の性能の差です。最近まで、シミュレーション技術は十分な精度を欠いていたため、広く普及していませんでした。しかし、Omniverseのような技術革新により、このギャップは大幅に縮小しました。ギャップが完全に埋まったわけではありませんが、シミュレーションはロボット開発において現実的かつ効果的なツールとなるには十分な進歩を遂げています。

NVIDIAはロボットを直接製造するのではなく、ロボット製造やロボットソリューションの開発に関わるすべての人々と連携しています。私たちは、3つのコンピューティングシステムと関連ソフトウェアツール、そしてワークフローを含むプラットフォームを構築しており、ロボット工学の専門家、研究者、機械エンジニア、そしてテスターがロボットソリューションをより容易に開発できるよう支援します。このプラットフォームは、プロセス全体を簡素化し、加速させるように設計されています。

ここで、ロボット開発における 3 つの主なステップである、トレーニング、テスト、展開に焦点を当てましょう。

AIモデルの学習を例に挙げてみましょう。ChatGPTのような人気のモデルは、大規模なGPUとインターネット上の膨大なテキストデータを用いて学習されます。しかし、ロボットモデルの学習には全く異なるデータが必要です。ロボットは、物体を拾う、移動する、インタラクションを行う、タスクを完了するといった動作を実行する必要があります。残念ながら、現時点ではそのような大規模なデータは存在しません。

データの収集と解決には次のような課題があります。

現実世界のデータの限界: 既存の車両を利用してセンサーを通じてデータを収集できる自動運転車とは異なり、現在のロボットの数は、同等の量のデータを生成するには到底足りません。

現在の手法としては、Apple Vision Proやモーションキャプチャキットを用いて人間の動作を録画する方法があります。これらの手法は有用なデータを提供しますが、ロボットモデルの学習ニーズを完全に満たすには規模が小さすぎます。

合成データ生成の重要性:この問題に対処するには、合成データ生成が不可欠となります。合成データを用いることで、特定の動作(例えば物体を掴むなど)の無数のバリエーションを生成したり、完全な仮想環境を構築したりすることが可能になります。

NVIDIA Cosmosは、ロボットのトレーニング用に、非常にリアルでビデオゲームのような環境を生成する「ワールド基盤モデル」です。ここで言う「ワールド」とは、地球ではなく、ロボットが活動する部屋内の可視領域など、ロボットが相互作用する環境を指します。

実世界データと合成データを組み合わせることで、少量の実世界データとNVIDIA Cosmosなどのツールを用いて生成された大規模な合成データを統合し、ロボティクスにおけるデータ不足の課題を克服できます。この新しいワークフローはすでに発表され、一部が稼働中です。私たちは、ロボティクス分野における根本的なデータ課題に対処するため、世界中のパートナーと協力してこのソリューションを実装しています。

十分なデータがなければ、ロボットモデルを効果的に訓練、テスト、展開することはできません。そのため、データの収集と生成は、ロボット開発の課題に対処するための重要な第一歩となります。NVIDIAは、実世界データと合成データを組み合わせたこの革新的なワークフローを採​​用することで、ロボティクス分野における大きな進歩への道を切り開いています。

もう一つ

では、このソリューションは実際のアプリケーションでどれほど効果的でしょうか?

Galaxy General の創設者兼 CTO である Wang He 氏は、同社が NVIDIA とどのように連携し、どのような成果を達成したかを紹介しました。

Galaxy General は、NVIDIA Isaac シリーズと Omniverse テクノロジを活用し、シミュレータを使用して大量のロボット動作データを合成し、ロボットモデルに変換します。

システムは、さまざまな 3D ソリッド アセット、環境、マテリアル、テクスチャを統合することで、ロボットの操作シナリオをシミュレートし、ロボットがオブジェクトを操作する方法を探ります。

このプロセスにおいて、シミュレータとレンダリングエンジンは重要な役割を果たし、合成されたシーンが物理的に正しいかどうかを確認します。シーンが正しい場合、並列レンダラーを使用してデータをレンダリングし、ロボットのトレーニングデータを保存することで、最終的に数十億に及ぶ膨大な量の合成データを取得できます。

Galaxy General は、自社開発した 10 億単位の合成ビッグデータに基づいて、照明一般化、背景一般化、平面位置一般化、空間高さ一般化、行動戦略一般化、動的干渉一般化、オブジェクト カテゴリ一般化という 7 つの一般化の「ゴールド スタンダード」を満たす世界最大の基本ロボット モデルをトレーニングしました。

総じて、NVIDIA の「3 台のコンピューター」ソリューションは、ロボット開発の課題を体系的に解決したと言えます。

一方、仮想シミュレーションは物理的な時間の制限を打ち破り、50 年かかるかもしれない開発サイクルを 5 年に短縮します。

一方、ロボットを直接製造するのではなく、オープンプラットフォームを構築してパートナーに完全なソフトウェアおよびハードウェアツールチェーンを提供するというアプローチも、業界のエコシステム全体にメリットをもたらします。