618ZXW

Zhihui Junのティーザー公開!Zhiyuan Roboticsが初のユニバーサルエンボディベースモデル「GO-1」をリリース。

穴埋めした直後に、また「サプライズ予告」が仕掛けられた??

数日間の期待の後、Zhihui は初のユニバーサル具現化ベースモデルであるGenie Operator-1 (GO-1) を正式に発表しました。これにより、具現化インテリジェンスがユニバーサルかつ全能になるためのハードルがさらに下がります。

さらに、番組放送後には毎日サプライズが起こります。

まとめると、今回発売されたGO-1大型モデルの主な特徴は以下のとおりです。

  • 人間のビデオ学習: この方法では、インターネット ビデオと実際の人間のデモンストレーションを組み合わせて、モデルによる人間の行動の理解を強化します。
  • 少ないサンプルで迅速に一般化: 非常に少ないデータ、またはサンプルがゼロであっても、新しいシナリオやタスクに一般化できるため、トレーニング後のコストが非常に低くなります。
  • 1 つの脳、複数のフォーム: さまざまなロボット フォーム間を移行し、さまざまな体型に素早く適応できます。
  • 継続的な進化: Zhiyuan の完全なデータ フィードバック システムと組み合わせることで、実際の実行で発生した問題データから継続的に進化し、学習することができます。

ネットユーザーも、万能ロボットの登場はもうすぐだと言っている。

初のユニバーサル・エンボディド・ベースモデル「GO-1」

具体的には、GO-1大型モデルは、Zhiyuan Roboticsと上海AI Labが共同でリリースしました。

GO-1 は大規模かつ多様なデータトレーニングを通じて、強力な汎用性インテリジェンスを実証し、これまで具現化されたインテリジェンスが直面していた多くのボトルネックを打破しました。

公式声明によると、GO-1の最大の特徴は、ロボットの機動性を拡大することに加え、 AI機能を強化し、それによってロボットの実用的価値を大幅に高めることだという。

まず、人間が行動しているビデオから学習することで、ロボットは新しいスキルを素早く習得できます。

たとえば、水を注ぐという動作:

さらに、ロボットは一定の物体追跡能力も備えており、カップがランダムに動かされても正確に水を注ぐことができます。

同時に、ロボットは既に学習した操作を習得するだけでなく、これまで見たことのない物体を認識して操作することもできます(数百個のデータだけで迅速な一般化を実現できます)。

例えば、水を注いだ後、パンをトーストしてジャムを塗ります。

さらに、現在の具現化モデルは通常、単一のハードウェア具現化用に設計されており、次の 2 つの問題が発生します。

  • データ利用率が低い: 異なるロボットによって収集されたデータは共有が難しく、トレーニングにエンティティ間のデータを十分に活用することができません。
  • 展開の制限: 十分にトレーニングされたモデルは異なるタイプのロボットに転送するのが難しく、各オントロジーではモデルの独立したトレーニングが必要になることが多く、適応コストが増加します。

これらの問題は、GO-1 大型モデルの使用により解決されました。

ご覧のとおり、同じまたは異なるボディの複数のロボットが連携して複雑なタスクを完了できます。

さらに、GO-1大規模モデルは、データフライホイールによる継続的な改善もサポートしています。これは、データ、特に実行上の問題を引き起こすデータが、実際の運用中に継続的にフィードバックされ、モデルのパフォーマンスを継続的に最適化することを意味します。

たとえば、以下のケースでは、ロボットがコーヒーカップを置くときに間違いを犯した場合、データのフィードバック(および人間によるレビュー)を通じて最適化できます。

ちなみに、GO-1 大型モデルでは、ロボットに新しい音声インタラクション方法も追加されており、これにより、ユーザーは実際のシナリオで自分のニーズを自由に表現することが容易になります。

新しいViLLAアーキテクチャに基づいて

実際、GO-1 モデルの中核は、データを最大限に活用することを中心に構築されています。

具体化された領域のデジタルピラミッドに基づいて、GO-1 大規模モデルは、人間の世界内の複数の次元とタイプからのデータを組み込んでいます。

  • 基礎レイヤー: インターネット上の膨大なプレーンテキストと画像データは、ロボットが一般的な知識やシナリオを理解するのに役立ちます。
  • レイヤー 2 : 大規模な人間の操作/エンティティ間のビデオにより、ロボットは人間や他のエンティティの行動や操作パターンを学習できます。
  • レイヤー 3 : 一般化を強化し、ロボットがさまざまなシナリオやオブジェクトなどに適応できるようにするために使用されるシミュレーション データ。
  • トップレベル: 正確な動作実行をトレーニングするための高品質な実デバイスのティーチング データ。

このデータにより、ロボットは最初から一般的なシーン認識および言語機能、一般的な動作理解機能、および正確な動作実行機能を備えることができます。

もちろん、このプロセスでは適切なデータ処理アーキテクチャも不可欠です。

既存の VLA (Vision-Language-Action) アーキテクチャでは、デジタルピラミッド内の大規模な人間/クロスオントロジー操作ビデオデータを活用しないため、重要なデータソースが不足し、反復コストが高くなり、進化が遅くなります。

そこで、Zhiyuanチームは革新的なViLLA(Vision-Language-Latent-Action)アーキテクチャを提案しました。

VLAアーキテクチャと比較して、ViLLAは潜在行動トークンを予測することで、画像・テキスト入力とロボットの行動の間のギャップを埋めます。高品質なAgiBot Worldデータセットとインターネット上の大規模な異種ビデオデータを効果的に活用することで、ポリシーの汎化能力を強化します。

詳細には、ViLLA アーキテクチャはVLM (マルチモーダル ラージ モデル) + MoE (ハイブリッド エキスパート)で構成されます。

その中で、VLM は大量のインターネット画像とテキストデータを使用して一般的なシーン認識と言語理解機能を獲得し、MoE の Latent Planner は大量のクロスオントロジーと人間の操作データを使用して一般的なアクション理解機能を獲得し、MoE の Action Expert は数百万の実際のデバイスデータを使用して正確なアクション実行機能を獲得します。

推論中は、VLM、潜在プランナー、アクション エキスパートが連携して動作します

  • VLM は、InternVL-2B を使用して、マルチビュー視覚画像、力信号、音声入力などのマルチモーダル情報を受信し、一般的なシーン認識とコマンド理解を可能にします。
  • Latent Planner は、一般的なアクションの理解と計画のための VLM の中間層出力に基づいて、潜在アクション トークンを CoP (計画の連鎖) として予測する MoE の専門家グループです。
  • アクション エキスパートは、VLM と潜在アクション トークンの中間出力に基づいて最終的なきめ細かいアクション シーケンスを生成する、MoE の別のエキスパート グループです。

例えば、ユーザーがロボットに「服を掛けて」というコマンドを与えると、モデルは表示された画像に基づいてタスクの要件を理解します。そして、トレーニング中に学習した服を掛けるデータに基づいて、そのプロセスに必要な手順を推測し、最終的にそれらの手順を実行してタスクを完了します。

一方、Zhiyuan チームは ViLLA アーキテクチャを使用して、複雑性の異なる5 つのタスクで GO-1 をテストしました。

結果によると、GO-1は既存のベストプラクティスモデルを大幅に上回り、平均成功率が32%(46%→78%)向上しました。特に「水を注ぐ」「テーブルに料理を運ぶ」「飲み物を補充する」というタスクで優れたパフォーマンスを発揮しました。

さらに、研究チームはViLLAアーキテクチャにおけるLatent Plannerの役割を別途検証し、Latent Plannerを追加すると成功率が12%(66%->78%)向上することを発見しました。

イースターエッグもあります。

GO-1 リリース ビデオの最後に、誰もが隠されたサプライズに気づいたと思います。

内容が志輝君の最新ティーザーと関係があるかどうかはわかりませんが、明日に注目しましょう〜

論文: https://agibot-world.com/blog..._go1.pdf