618ZXW

ロボットが靴ひもを結べる!スタンフォード大学チームがロボットに新たなスキルを付与 | オープンソース化

スタンフォード大学は今年初めにロボットに料理の仕方を教えたばかりですが、今度は靴ひもを結ぶことを教えているところです。

また、ロボットが自律的に靴ひもを結ぶ様子を映した世界初のビデオも公開した。

以前の調理バージョン 1.0 と比較して、このバージョンでは、より軽量で複雑なタスクを実行できます。

コメント欄には賞賛の声が溢れていました。

ネットユーザー1:彼はとても器用な手を持っているので、私よりも上手に靴ひもを結ぶことができます!

ネットユーザー2:うわあ!これはすごい!大量生産だ!

ネットユーザー3: かわいい!リボンもつけられる!

とても器用な小さな手

動画に登場するアロハ2ロボットは、靴ひもを結ぶだけでなく、衣服を掛けたり、ギアを回したり、キッチンを片付けたり、さらには「同僚」のためにさまざまな目的に合わせてアクセサリーを交換することさえできる。

そのパフォーマンスを見てみましょう〜

まず、服を掛けます。デモ動画では、Aloha 2は素直に服を並べ、スムーズにハンガーに掛けています(落ちないように支えることも知っています)。

データベースにない衣類の種類もリストできます。

ギア締め付け試験でも優れた性能を発揮し、3つのプラスチックギアを摩擦力で作動するソケットに挿入し、完璧に噛み合うことに成功しました。

「キッチンを片付ける」コーナーでは、アロハ2号は散らかった食器を素直に集めてきれいに整頓していました。

私の「同僚」の部品交換の時は、すべてがスムーズに完了しました。まず古い部品を取り外し、新しい部品を取り出し、調整して取り付けるだけでした!

どうやって学んだんですか?

研究チームは、Aloha 2 ロボットを訓練するために、大規模訓練用の拡散戦略を使用し、 5 つのタスクにわたって26,000 個のデモンストレーション データ ポイントを収集しました。

彼らのトレーニングは模倣学習のみに基づいており、強化学習は含まれていなかったことは言及する価値があります。

Aloha 2 ロボットのニューラル ネットワーク アーキテクチャは ACT モデルに基づいており、条件付き VAE エンコーダー (変分オートエンコーダー) は使用しません。

彼らが実際に行ったことは次のとおりです

研究者らは、埋め込みに位置埋め込みを追加し、それを 8500 万の Transformer エンコーダーに入力し、双方向アテンションを使用してデコードして、観測の潜在的な埋め込みを取得しました。

これらの潜在的なパラメータは、5500 万のパラメータと双方向アテンションを備えた Transformer エンコーダーに送られます。

デコーダーの入力は50×14のテンソルで、これは位置情報を持つノイズを含む行動のブロックです。これらの埋め込みは、観測エンコーダーの潜在埋め込みと時間ステップ(ワンホットベクトルで表現)とクロスアテンションされます。

デコーダーは最終的に50×512次元を出力し、線形層を用いて50×14にマッピングされます。これが次の50アクションの予測ノイズとなります。

ベースモデルには合計2億1,700万個の学習可能なパラメータがあります。より小規模なモデルでは、研究者は1,700万個のエンコーダと3,700万個のデコーダを使用し、合計1億5,000万個のパラメータを使用しました。

トレーニング中、研究者は JAX フレームワークを使用して、バッチ サイズ 256 の 64 個の TPUv5e インスタンスで並列にトレーニングし、合計 200 万のトレーニング ステップを実行しました。

さらに、重み減衰 0.001、5000ウォームアップ ステップの線形学習率を持つ Adam オプティマイザーを使用し、その後1e-4 の一定学習率を維持します。

最終結果は次のとおりです。

研究者たちは最終結果に非常に満足し、驚きを表現する記事を書きました。

実験全体の成功率は非常に高かったです!模倣学習は99%の成功率を達成するための効果的な方法かもしれません!

もう一つ

Aloha 2 研究チームは主に DeepMind とスタンフォード大学の研究グループで構成されています。

Aloha 2 はオリジナルの Aloha システムの強化版で、両手によるリモート操作をより適切にサポートするように設計されています。

以前のバージョンと比較して、Aloha 2 ではハードウェアにいくつかの改良が加えられ、より複雑で詳細な操作タスクを実行できるようになりました。

研究チームは現在、Aloha 2 のすべてのハードウェア設計をオープンソース化し、研究者や開発者による大規模な両手操作研究を容易にするための詳細なチュートリアルとシミュレーション モデルを提供しています。