618ZXW

3Bモデルはロボット工学の潜在能力を最大限に引き出します!コーヒーを淹れたり、服を畳んだり、7つの異なる動作モードに適応したりできます。OpenAIも投資しています。

3Bパラメータを搭載した大型モデルだけで、ロボットを操作してさまざまな家事を手伝ってもらうことができます。

服を畳むことやコーヒーを入れることはこのモデルで簡単に処理され、リモコンを必要とせずにすべてがモデル自身によって自律的に制御されます。

重要な点は、これがさまざまな種類のロボットに使用できる汎用ロボット制御モデルでもあることです。

これらの操作の背後にある大きなモデルはπ0と呼ばれ、3B 個のパラメーターのみを持ち、今年設立されたスタートアップ企業Physical Intelligence (略して π) が開発したモデルです。

πは設立後まもなく、 OpenAIなどの投資家からシリーズAの資金調達で7,000万ドル(約5億人民元)を調達した。

同社は汎用的なロボット制御モデルの開発を目指しており、今回のπ0はその最初の成果となる。

一部のネットユーザーは、π0が操作するロボットはこれまで見た中で本物の汎用ロボットに最も近いと述べている。

重要なのは、パラメータ数がわずか3Bで、計算消費電力が非常に小さいことです。パフォーマンス特性が同サイズのモデルと同等であれば、安価なグラフィックカードでも実行可能です。

ハギングフェイスのロボットチームのリーダーであり、テスラのオプティマスチームの元メンバーでもあるレミ・カデーン氏も、 π0がオープンソースであれば、人々はそれを自宅で体験できるだろうと語った。

7種類のロボットすべてを操作可能

公式発表では、π チームは、衣服を畳む、テーブルを片付ける、卵を箱に詰めるといった(ロボットにとっては)複雑な作業を披露しました。

これらのタスクでは、長期間にわたって複数の段階にわたって継続的に意思決定を行う必要があるだけでなく、アクションが頻繁かつ正確であることも求められます。

多くのタスクには、衣服の変形や可塑性、段ボール箱の硬さ、卵の壊れやすさなど、複雑な接触ダイナミクスが関係します。

ロボットは、これらの動的なプロセスを正確にモデル化して制御する必要があり、さらに物体のバランスを維持したり衝突を回避したりするなど、より多くの物理的な制約を満たす必要があります。

最終的に、πチームは成功しました。π0はロボットだけでなく、さまざまなロボットを制御し、これらのタスクを正常に完了することができました。

例えば、二本腕の移動ロボットに洗濯した衣類を片付けさせる。

ロボットは洗濯機の前に立ち、ドアを開けて、洗濯した衣類を取り出してバスケットに入れました。

それから彼はテーブルに行き、かごから衣服を取り出し、広げて、きれいに畳みました。

もうひとつの方法は、双腕ロボットを使って皿の上の卵を箱に入れ、箱を閉じるというものだ。

広げられたままの段ボール箱も、きちんと折りたたんでいました。

彼らはまた、このロボットのようなツールを使って、残った食べ物をフォークでテイクアウト用の箱に入れる方法も知っています。

テーブルを片付ける作業になると、担当するロボットは片腕のロボットになりました。

保管したいアイテムを収納バスケットに入れて、不要なゴミをゴミ箱に捨てることができます。

物品とゴミが混在している場合でも正確に作動します。

もちろん、データから判断すると、π0 はゼロショット一般化能力、言語制御応答、新しいタスクの学習、多段階タスクなどの側面でも優れたパフォーマンスを発揮します。

ゼロショット一般化能力の点では、π0 はすべてのタスクでベースライン モデルを大幅に上回り、事前トレーニング済みの視覚モデルを追加しない π0-small でもこれらのベースラインを上回ります。

指示処理の面では、π0 は人間の指導による 3 つの言語指示タスクで最高の自律パフォーマンスを達成し、高レベルの戦略ガイダンスでも改善を示しました。

事前トレーニング データと大きく異なる新しいタスクでは、特に微調整データの量が少ない場合に、π0 はほとんどのタスクで最高のパフォーマンスを発揮します。

つまり、特別なトレーニングなしでも、π0 によってロボットは多くのオープンエンド タスクを自動的に完了できるようになります。

最後に、π チームは、微調整と言語コマンドを組み合わせて、一連の非常に困難で複雑なタスクで π0 をテストしました。

その結果、π0は服を畳む、テーブルを片付ける、段ボール箱を組み立てる、卵を梱包するといった5~20分かかる作業を完了することができ、平均スコア50%以上を達成しました。

効率に関しては、公式の技術レポートで 4090 での π0 の実行時間が公開されました。

完全な順方向伝播にも 73 ~ 86 ミリ秒かかるため、リアルタイム要件が高いシナリオでは課題となる可能性があります。

ただし、ストリーム マッチング プロセスでは 50 個のアクション ステップを生成できることを考慮すると、アクション ステップあたりの平均生成時間はそれほど長くありません。

つまり、π0の計算効率、あるいはリアルタイム性能は全体的に見て比較的高いと言えるでしょう。もちろん、ネットユーザーが期待するように、各家庭で使えるレベルに到達するには、まだ高速化の余地があるかもしれません

それで、π チームは π0 モデルでどのようなテクノロジーを使用したのでしょうか?

ビジュアル大規模モデルを修正

π0 は視覚モデルPaLM-ViTの修正版で、投影層多層パーセプトロン、および小型のモーション エキスパート モジュールが追加されています。

投影層はロボットの状態とアクションの入出力を処理するために使用され、多層パーセプトロンはフローのマッチングタイムステップ情報を統合するために使用され、エキスパートモジュールは個別の重みを使用してロボットの状態とアクショントークンを処理します。

モデルの入力には、画像、言語コマンド、ロボットの固有受容状態、ノイズ駆動型アクション ブロックが含まれます。

画像トークンと言語トークンは VLM バックボーン ネットワークに送信され、状態トークンとアクション トークンはアクション エキスパート モジュールに送信されます。

最終的に、モデルはアクション ブロックのベクトル フィールド表現を出力します。

連続的な運動分布をモデル化するために、π0 モデルでは条件付きフロー マッチング法が使用されます。

ストリーム マッチングは、拡散モデルと似た動作をします。基本的な考え方は、徐々にノイズを追加してデータ配布を簡素化し、その後徐々にノイズを除去してプライバシーを保護したデータを取得することです。

トレーニング中は、ガウスノイズがアクションにランダムに適用され、モデルはノイズ除去されたベクトルフィールドを出力するようにトレーニングされます。推論中は、ガウスノイズから開始し、ベクトルフィールドの数値積分を通じてアクションシーケンスが生成されます。

違いは、フロー マッチングではデータとノイズ分布の間のベクトル フィールドを直接モデル化し、トレーニングの目標はこのベクトル フィールドを一致させることであるのに対し、拡散モデルでは通常、各ノイズ除去ステップの条件付き分布を学習することです。

フローマッチング法は、複雑なマルチピーク分布を高精度でモデル化できるため、高頻度で器用な操作を必要とするタスクに非常に適しています

トレーニング データに関しては、π0 は現在までに最大のロボット インタラクション データセットでトレーニングされています。

事前トレーニング段階のデータセットには、OXE、DROID、Bridge などのオープンソース データセットに加え、チームが 8 つの異なるロボット プラットフォームで収集した大量の器用さのタスク データが含まれています。

チームが収集したデータセットには、片腕タスクで1億600万歩、両腕タスクで7億9700万歩を含む68のタスクが含まれています。データは50Hzの高周波で制御されました。

オープンソース データとチーム自身が収集したデータの比率はおよそ 1:9 です。

さらに、チームはπ0が特定の複雑なスキルを習得できるように、20以上の下流タスクを微調整しました。

タスクの難易度と類似性に応じて、微調整データの量は5時間から100時間以上に及びます。一部のタスクでは、複雑な目標を分解するために、高水準言語戦略モジュールも組み込まれています。

チームメンバーのチェルシー・フィン氏によれば、事前トレーニングはモデルがさまざまなシナリオに対応できるようにするためのものであり、事後トレーニング(微調整)はπ0がより多くの戦略を習得できるようにするためのものである。

「ロボットを作らない」ロボット企業

今年設立されたPhysical Intelligenceは、シリーズAの資金調達で総額7,000万ドルを調達した。

この資金調達ラウンドはセコイア・キャピタルが主導し、 OpenAIを含む6社が参加した。

同社には π という略語もあります。これは、Physical Intelligence の略語 pi が π のラテン語翻字であるためです。

Pi はロボット工学の会社ですが、ロボットのハードウェアを製造しているわけではなく、普遍的に適用可能なロボット モデルを構築することを目標に、モデルのトレーニングのみを行っています

これに対して、πの共同創設者兼CEOであるカロル・ハウスマン氏は次のように公に説明した。

私たちの目標は、あらゆるロボットや物理デバイスに動力を与え、事実上あらゆるアプリケーションに適用できる汎用モデルを通じて、AI を物理世界に導入することです。

このことの重要性について、同社のもう一人の共同創設者であるセルゲイ・レヴィン氏は、Twitter で次のような例を挙げました。π Startup が行っている作業は、NLP が大規模モデルにとって重要であるのと同じくらい、ロボット制御にとって重要です。

π の創設者もまた素晴らしい経歴の持ち主で、全員がロボット工学やエンジニアリング、その他多くの分野で豊富な経験を持つロボット工学と AI の専門家です。

CEOのカロル・ハウスマン氏は、以前はGoogle Brainでロボット工学研究の責任者を務め、2021年からスタンフォード大学の客員教授を務めている。

共同創設者のセルゲイ・レヴィン氏は、カリフォルニア大学バークレー校の電気工学およびコンピュータサイエンス学部の准教授であり、Google Scholar で 127,000 回以上引用されています。

さらに、彼はまさにトップカンファレンスの天才です。不完全な統計によると、レビンは2018年に機械学習と自然言語処理のトップカンファレンスで合計22本の論文を発表し、他の2人と並んで世界1位を獲得しました。

レビン氏はカリフォルニア大学バークレー校の人気教授でもあり、同氏が以前開始したディープラーニングのコース「ディープ強化学習(コースコード CS 285)」は非常に人気があります。

一方、スタンフォードの家庭用ロボットALOHAに関連する論文にも、レビン氏の名前は頻繁に登場している。

共同創設者のチェルシー・フィンは、スタンフォード大学のコンピュータサイエンスおよび電気工学部の助教授であり、彼女の Google Scholar 論文は 47,000 件以上引用されています。

ALOHA チームの論文では、Fen 氏が責任著者として登場することが多い。

さらに、Google Brainのロボット工学チームの元科学者であるブライアン・イヒター氏や、トヨタ・リサーチ・インスティテュートのML研究チームの研究科学者であるスラジ・ネア氏もいます。

ラインナップは信じられないほど素晴らしいと言ってもいいでしょう。

Pi は、その優秀なチームとともに、研究科学者、ML エンジニア、データ エンジニアなど、さまざまな職種の従業員やインターンを採用し、採用活動を継続しています。

技術レポート: https://www.physicalintelligence.company/download/pi0.pdf 参考リンク: [1] https://www.physicalintelligence.company/blog/pi0 [2] https://www.reddit.com/r/sing...\_3b\_pretrained\_generalist\_model\_trained\_on\_8/ [3] https://twitter.com/chelseabf...