OpenAIとの提携を解消した後、人型ロボットのユニコーンがデビュー。ニューラルネットワークが上半身全体を制御し、人間の言葉を理解して、あらゆるものを掴むことができる。

OpenAIとの関係を断って以来のFigureの最初の成果:

Helixは、ロボットが人間のように認識し、理解し、行動できるようにするエンドツーエンドのユニバーサル制御モデルです。

自然言語による指示だけで、ロボットは、この生き生きとした小さなサボテンなど、これまで見たことのないものでも、何でも拾うことができます。

公式デモでも見られるように、人間からの指示を受けて、テーブルの上のアイテムを一つずつ拾い上げて冷蔵庫に入れていきます。

ロボットは静かに立って、ただ命令を実行しているだけだった。

2 台のロボットが連携して動作することも可能ですが、興味深いことに、それらのロボットは同じニューラルネットワークセットを共有しています。

△スピード2倍

実際に何が起こったのか見てみましょう。

技術レポートによると、この一般的な「Vision-Language-Action」(VLA) モデルは、次のような一連の初めての成果を達成しました。

完全な上半身制御を備えたHelix は、上半身全体 (手首、胴体、頭、個々の指を含む) を高速 (200 Hz) で連続制御できる初の VLA です。

マルチロボットコラボレーションは、2 台のロボットで同時に実行される初の VLA であり、これまでにないアイテムを使用して、共有の遠隔操作タスクを解決できます。

自然言語のプロンプトに従うだけで、これまで見たことのない何千ものアイテムを含め、ほとんどあらゆる小さな家庭用品を拾うことができます。

従来の方法とは異なり、Helix はニューラルネットワークの重みのセットを使用して、タスク固有の微調整を行わずに、すべての動作 (アイテムの選択と配置、引き出しや冷蔵庫の使用、ロボット間の対話) を学習します。

すぐに商用展開できる状態です。組み込みの低消費電力GPUで完全に動作し、すぐに商用展開できる初のVLAです。

Helix は、エンドツーエンドでトレーニングされ、相互に通信できる 2 つのシステムで構成されています。

システム 2 : インターネット規模のデータで事前トレーニングされた 7B オープンソース VLM に基づく VLM バックボーン。単眼ロボット画像とロボット状態情報 (手首の姿勢や指の位置を含む) を視覚言語埋め込み空間に投影して処理します。

7〜9 Hz の周波数で動作し、シーン理解や言語理解に使用され、さまざまなオブジェクトやコンテキストに対して広範な一般化を実行できます。

システム1 ：低レベル制御を処理するための8000万パラメータのクロスアテンション・トランスフォーマー。視覚処理には、完全な畳み込み型マルチスケール・ビジュアルバックボーンを採用しており、これは完全にシミュレーションによる事前学習によって初期化されます。

S2によって生成された潜在的な意味表現は、必要な手首の姿勢、指の屈曲と外転の制御、そして胴体と頭部の方向付け目標を含む、正確で連続的なロボット動作に変換されます。速度は200Hzです。

彼らは、アクションスペースに合成的な「タスク完了率」アクションを追加し、Helix が独自の終了条件を予測できるようになり、複数のタスクの並べ替えが容易になりました。

この分離されたアーキテクチャにより、各システムは最適なタイムスケールで動作できます。S2は高レベルの目標について「ゆっくり考え」、S1は「素早く考え」、リアルタイムでアクションを実行・調整します。

トレーニングプロセスは完全にエンドツーエンドで、生のピクセルとテキストコマンドを標準的な回帰損失を使用して継続的なアクションにマッピングします。

さらに、Helix ではタスク固有のチューニングは不要です。単一のトレーニングフェーズと単一のニューラルネットワークウェイトセットが維持されるため、個別のアクションヘッドやタスク固有の微調整フェーズは不要です。

CEOは、汎用ロボットの問題を解決することを目指したこのプロジェクトに1年以上を費やしたことを明らかにした。

人間と同様に、Helix は会話を理解し、問題について推論し、あらゆる物体をつかむことができます。

わずか2週間前、同社はOpenAIとの提携を解消すると発表し、今後30日以内に「ヒューマノイドロボットで誰も見たことのないもの」を披露することを明らかにした。

それがHelixであることが明らかになりました。

Helix が新しいタイプのスケーリング法則を表していることも言及する価値があります。

彼らは、ロボットにとって最大の課題は家庭であると考えています。管理された産業環境とは異なり、家庭には無数の物体が溢れています。ロボットが家庭内で効果的に機能するには、特に見たことのない物体に対して、要求に応じて新たな知的行動を生成できる必要があります。

現在、ロボットに新しい行動を教えるには、相当な人的労力が必要です。これには、博士号レベルの専門家による何時間にも及ぶ手動プログラミングや、何千回ものデモンストレーションが必要になる場合があります。

どちらの方法もコストがかかりすぎるため、機能しません。

従来のロボットシステムとは異なり、 Helix は、タスク固有のデモンストレーションや大規模な手動プログラミングを行わなくても、広い視野、協調性、器用さを備えた操作を即座に生成できます。

Helix は強力なオブジェクト一般化機能を備えており、自然言語で質問するだけで、トレーニング中には見たことのない、さまざまな形、サイズ、色、材質の特性を持つ何千もの新しい家庭用品を拾い上げることができます。

これは、Figure がヒューマノイドロボットの行動を拡張する上で変革的な一歩を踏み出したことを意味します。

ヘリックスが1000倍に拡大してロボットの数が10億台になったらどうなるんだろう？ちょっと楽しみだな。

参考リンク: [1] https://www.figure.ai/news/helix [2] https://x.com/adcock_brett/status/1892577936869327233