|
穴埋めした直後に、また「サプライズ予告」が仕掛けられた?? 数日間の期待の後、Zhihui は初のユニバーサル具現化ベースモデルであるGenie Operator-1 (GO-1) を正式に発表しました。これにより、具現化インテリジェンスがユニバーサルかつ全能になるためのハードルがさらに下がります。 さらに、番組放送後には毎日サプライズが起こります。 まとめると、今回発売されたGO-1大型モデルの主な特徴は以下のとおりです。
ネットユーザーも、万能ロボットの登場はもうすぐだと言っている。 初のユニバーサル・エンボディド・ベースモデル「GO-1」具体的には、GO-1大型モデルは、Zhiyuan Roboticsと上海AI Labが共同でリリースしました。 GO-1 は大規模かつ多様なデータトレーニングを通じて、強力な汎用性とインテリジェンスを実証し、これまで具現化されたインテリジェンスが直面していた多くのボトルネックを打破しました。 公式声明によると、GO-1の最大の特徴は、ロボットの機動性を拡大することに加え、 AI機能を強化し、それによってロボットの実用的価値を大幅に高めることだという。 まず、人間が行動しているビデオから学習することで、ロボットは新しいスキルを素早く習得できます。 たとえば、水を注ぐという動作: さらに、ロボットは一定の物体追跡能力も備えており、カップがランダムに動かされても正確に水を注ぐことができます。 同時に、ロボットは既に学習した操作を習得するだけでなく、これまで見たことのない物体を認識して操作することもできます(数百個のデータだけで迅速な一般化を実現できます)。 例えば、水を注いだ後、パンをトーストしてジャムを塗ります。 さらに、現在の具現化モデルは通常、単一のハードウェア具現化用に設計されており、次の 2 つの問題が発生します。
これらの問題は、GO-1 大型モデルの使用により解決されました。 ご覧のとおり、同じまたは異なるボディの複数のロボットが連携して複雑なタスクを完了できます。 さらに、GO-1大規模モデルは、データフライホイールによる継続的な改善もサポートしています。これは、データ、特に実行上の問題を引き起こすデータが、実際の運用中に継続的にフィードバックされ、モデルのパフォーマンスを継続的に最適化することを意味します。 たとえば、以下のケースでは、ロボットがコーヒーカップを置くときに間違いを犯した場合、データのフィードバック(および人間によるレビュー)を通じて最適化できます。 ちなみに、GO-1 大型モデルでは、ロボットに新しい音声インタラクション方法も追加されており、これにより、ユーザーは実際のシナリオで自分のニーズを自由に表現することが容易になります。 新しいViLLAアーキテクチャに基づいて実際、GO-1 モデルの中核は、データを最大限に活用することを中心に構築されています。 具体化された領域のデジタルピラミッドに基づいて、GO-1 大規模モデルは、人間の世界内の複数の次元とタイプからのデータを組み込んでいます。
このデータにより、ロボットは最初から一般的なシーン認識および言語機能、一般的な動作理解機能、および正確な動作実行機能を備えることができます。 もちろん、このプロセスでは適切なデータ処理アーキテクチャも不可欠です。 既存の VLA (Vision-Language-Action) アーキテクチャでは、デジタルピラミッド内の大規模な人間/クロスオントロジー操作ビデオデータを活用しないため、重要なデータソースが不足し、反復コストが高くなり、進化が遅くなります。 そこで、Zhiyuanチームは革新的なViLLA(Vision-Language-Latent-Action)アーキテクチャを提案しました。 VLAアーキテクチャと比較して、ViLLAは潜在行動トークンを予測することで、画像・テキスト入力とロボットの行動の間のギャップを埋めます。高品質なAgiBot Worldデータセットとインターネット上の大規模な異種ビデオデータを効果的に活用することで、ポリシーの汎化能力を強化します。 詳細には、ViLLA アーキテクチャはVLM (マルチモーダル ラージ モデル) + MoE (ハイブリッド エキスパート)で構成されます。 その中で、VLM は大量のインターネット画像とテキストデータを使用して一般的なシーン認識と言語理解機能を獲得し、MoE の Latent Planner は大量のクロスオントロジーと人間の操作データを使用して一般的なアクション理解機能を獲得し、MoE の Action Expert は数百万の実際のデバイスデータを使用して正確なアクション実行機能を獲得します。 推論中は、VLM、潜在プランナー、アクション エキスパートが連携して動作します。
例えば、ユーザーがロボットに「服を掛けて」というコマンドを与えると、モデルは表示された画像に基づいてタスクの要件を理解します。そして、トレーニング中に学習した服を掛けるデータに基づいて、そのプロセスに必要な手順を推測し、最終的にそれらの手順を実行してタスクを完了します。 一方、Zhiyuan チームは ViLLA アーキテクチャを使用して、複雑性の異なる5 つのタスクで GO-1 をテストしました。 結果によると、GO-1は既存のベストプラクティスモデルを大幅に上回り、平均成功率が32%(46%→78%)向上しました。特に「水を注ぐ」「テーブルに料理を運ぶ」「飲み物を補充する」というタスクで優れたパフォーマンスを発揮しました。 さらに、研究チームはViLLAアーキテクチャにおけるLatent Plannerの役割を別途検証し、Latent Plannerを追加すると成功率が12%(66%->78%)向上することを発見しました。 イースターエッグもあります。GO-1 リリース ビデオの最後に、誰もが隠されたサプライズに気づいたと思います。 内容が志輝君の最新ティーザーと関係があるかどうかはわかりませんが、明日に注目しましょう〜 論文: https://agibot-world.com/blog..._go1.pdf |
Zhihui Junのティーザー公開!Zhiyuan Roboticsが初のユニバーサルエンボディベースモデル「GO-1」をリリース。
関連するおすすめ記事
-
清華AI病院が開設!第一陣のAI医師42名が展示され、300以上の病気を診断しています。
-
Microsoft の「事故」により Linux が混乱に巻き込まれる: アップデート後、Linux が開かなくなる。
-
ドイツ・ミュンヘンに研究開発センターを建設中!中国のスマートビークル、ノルマンディー上陸作戦開始。
-
GitHubはOpenAIをバックアッププランとして活用し、CopilotはClaudeとGeminiとの統合を進めている。ネットユーザーの間では「Cursorのビジネスモデルは終わった」という声が上がっている。
-
国産AIロボットがこんなに進化してるなんて…ピアノ弾いたり、お茶を入れたり、詠春拳を練習したり、さらには猫を撫でたりもできるなんて!?
-
話題のトップトピック!DeepSeekはAI人材の採用に数百万ドルの年俸を提示。インターンでも月1万元以上稼げる。