618ZXW

ロボットは物流仕分け作業員を8時間で訓練できます!図02は、大規模導入にわずか30日しかかからなかったことを示しています。

まあ!

工場には荷物の仕分け作業を行うロボットが配備されており、そのスキルは人間と同等に優れています。

数日前、Figure は、ロボットが人間のように知覚し、理解し、行動できるようにするエンドツーエンドのユニバーサル制御モデルであるHelixをリリースしました。

さて、最新の調査結果をテストする時が来ました。

ビデオでは、一連のFigure 02ユニットが生産ラインで、速達パッケージを整然と仕分けし、機械スキャン用にバーコードの位置を正しく調整している様子が見られます...

最も重要なのは、公式声明によると、このシーンの調整にはわずか30日しかかからなかったことです。対照的に、最初のクライアントのケースでは12か月もかかりました。

エンドツーエンドの学習アプローチにより、Figure のロボットは新しいタスクを迅速に学習できます。

こうした急速な進化を目の当たりにして、ネットユーザーたちは「私たちは絶望だ!」と叫んだ。

その鍵:Helixシステム1の改良

Figure はビデオに加え、今回の実験の高速小包物流シナリオにおけるHelix の進捗状況に関する最新レポートも公開しました。

先週金曜日、OpenAIとの関係を断った後、Figure は最初の成果であるHelixを発表しました。

エンドツーエンドのユニバーサル制御モデルであるこのロボットは、自然言語による指示だけで、これまで見たことのないもの(この生き生きとした小さなサボテンなど)でも、何でも拾うことができます。

さらに興味深いのは、2 台のロボットが連携して動作することもでき、同じニューラル ネットワーク セットを使用していることです。

当時の紹介によれば、Helix は主にエンドツーエンドでトレーニングされ、相互に通信できる 2 つのシステムで構成されています。

  • システム 1:低レベルの制御を処理するための80M クロスアテンション トランスフォーマー。
  • システム 2: シーン理解と言語理解のために、インターネット規模のデータで事前トレーニングされた 7B オープンソース VLM に基づいています。

今回、Figure は物流シナリオにおいてシステム 1 (低レベル制御) に一連の改良を加えました

1. 暗黙的ステレオビジョン:3D 空間認識を強化し、ロボットの動きをより正確にします。

2. マルチスケールの視覚表現:シーンの詳細と全体的な理解を組み合わせて操作精度を向上します。

3. 視覚的固有受容感覚の学習: 各 Figure ロボットは自己調整が可能になり、ロボット間でのスキルの伝達が簡素化されました。

4. スポーツ モード: シンプルなテスト時間加速テクノロジを使用して、高い成功率とより高速な実行速度を維持します。

最も重要なのは、図がこの特定のシナリオにおけるデータの品質と量のトレードオフをさらに探求し、予備的な調査結果を導き出していることです。

柔軟で適応性のある戦略は、厳選された 8 時間のデータのみを使用してトレーニングできます

詳細については以下で詳しく説明します。

物流シナリオでは、重要なステップに梱包と仕分けが含まれ、主にコンベアベルト上でパッケージを転送し、ラベルが正しくスキャンされていることを確認することが含まれます。

単純に聞こえるかもしれないが、この作業においてロボットが人間に取って代わるには課題がある。

荷物のサイズ、形状、重量はさまざまであるため、ロボットは荷物を拾い上げるだけでなく、荷物をつかんで移動する最適なタイミングを判断し、間違った場所に置いた場合にはすぐに修正する機能も必要です。

上記の目標を達成するために、Figure はまず Helix System 1 の視覚機能を改善しました。

新世代システム 1 では、ステレオ ビジョン バックボーン ネットワークとマルチスケール特徴抽出ネットワークを採用することで、空間理解機能を強化しています。

簡単に言えば、このシステムは各カメラからの画像特徴を個別に処理するのではなく、まず2台のカメラからの画像特徴をマルチスケールステレオネットワークで統合し、その後トークン化処理を実行します。

これを実行する利点は、クロスアテンショントランスフォーマーに入力されるビジュアルトークンの合計数が一定に保たれ、計算オーバーヘッドが回避されることです。

一方、マルチスケールの特徴抽出ネットワークは、詳細とより広範なコンテキスト情報の両方をキャプチャできるため、操作の精度と信頼性が向上します。

さらに、この研究では、複数のロボットに統一されたポリシーを展開する際の課題と、オンライン自己調整を通じてロボット間のポリシー移行を実現する方法についても説明します。

たとえば、ロボットのハードウェアの違いによって観測空間と動作空間の分布オフセットが生じるため、従来の手動キャリブレーション方法は大規模なロボット グループには適していません。

Figure は、各ロボットが独自の視覚入力を使用して自己調整し、エンドエフェクタ (物体をつかむ部分) の正確な位置と方向を推定できるようにする視覚固有受容モデルをトレーニングしました。

さらに、この自己キャリブレーションはオンラインで実行されるため、ロボットは作業しながらキャリブレーションを実行でき、キャリブレーションに必要なダウンタイムを最小限に抑えることができます

ちなみに、トレーニング中、Figure は遅いケース、見逃されたケース、失敗したケースを除外しましたが、修正アクション (リモート オペレーターによって発生したものではなく、自然に生成されたもの) を含むケースは意図的に保持しました

最後に、人間の操作速度に到達しそれを上回るために、Figure は「モーション モード」と呼ばれるテスト時間加速テクノロジを採用しています。

具体的には、システム 1 に、アクション「チャンク」と呼ばれる一連のアクションを 1 秒あたり 200 回の頻度で出力させました。

次に、これらのアクションブロックの実行を高速化するために、補間手法が用いられました。補間とは、既存のデータポイントの間に新しいデータポイントを生成できる数学的手法です。この研究では、補間によって元のアクションブロック(例えば、Tミリ秒を表すアクション)を0.8Tミリ秒のアクションブロックに短縮しましたが、短縮されたアクションブロックは1秒あたり200回の頻度で実行されました。

この手法は、ロボットの学習プロセスを変更する必要がなく、テスト時のアクション実行を高速化するだけです。この手法を用いることで、Figureロボットは実世界テストにおいて最大20%の速度向上を達成しました。

創設者の数字:今後4年間で10万台を納入予定

つまり、技術の向上により、Figure は工場への導入がはるかに早くなったのです。

公式筋が言及する最初の顧客は、昨年 8 月にリリースされ、自動車組み立てのために BMW の工場に投入された Figure 02 を指すはずです。

BMWはロボットに適切な仕事を割り当てるのに12カ月を要したが、今回は物流部門でロボットが正式に運用されるまでにわずか30日しかかからなかった。

Figure 社の創設者が、今後 4 年間で 10 万台のヒューマノイド ロボットを出荷すると自信を持って発表したのも不思議ではありません。

一方、国内外の様々な企業のロボットが工場に「働く」ために入ってくるにつれ、徐々に次のようなコンセンサスが形成されてきました。

2025年はロボットの大量生産にとって重要な年です。

各社のデモを見る限り、ヒューマノイドロボットの技術は基本的に成熟していると言えるでしょう。そのため、次回のコンテストでは主に量産化、そして実際の生産シナリオへの移行がテーマとなるでしょう。

例えば、上海のロボット工場では、多数の「未来の労働者」が生産に携わっています。

よし、全部巻き上げよう!