618ZXW

任少青氏へのインタビュー:世界モデルは自動運転とロボット工学の新たなパラダイム

レン・シャオチン氏との会話は、インテリジェント運転の活用という非常に基本的なシナリオから始まりました。

インテリジェント運転システムは、人間と同じように、北京、上海、広州などの大都市の高速道路で、指定された時間帯にバスレーンの通行制限を回避しながら、通行制限のない時間帯を効率的に活用するにはどうすればよいでしょうか。

かつてのAIシステムは、人間が作成したルールに厳密に従って運転していました。しかし、エンドツーエンドの自動運転モデル​​のパラダイムの下では、手動でルールを作成するという手法は排除されつつあります。これは、AIシステムが「時間制限付きバスレーン」の特殊な道路状況やシナリオを自ら学習する必要があることを意味します。これには時間がかかり、短期的にはニーズに直接応えられない可能性があります。

では、スマートカー業界内外の人々は「エンドツーエンド」ソリューションに過度に依存しているのでしょうか?

包括的なエンジニアリング プロジェクトとして、エンドツーエンドの自動運転がなぜ必要なのでしょうか?

なぜ今この瞬間にエンドツーエンドの通信が行われるのでしょうか?その本質とは何でしょうか?

これはインテリジェント車両の研究開発や自動車産業の変革にどのような影響を与えるのでしょうか?

これらの問題について語るにあたり、任少慶氏以上にふさわしい人物はいないだろう。彼は世界トップクラスのAI科学者であり、ディープラーニングの古典的成果であるResNetの開発者の一人である。また、10年近くにわたり業界の最前線で活躍し、研究開発から実車導入まで、自動運転技術を目の当たりにし、実践してきた。現在はNIOのインテリジェントドライビング担当副社長を務め、自動運転研究開発の責任者も務めている。

任少青氏は、自動車製造が統合へと向かう必然的な流れと同様に、エンドツーエンドは避けられないものだと考えている。技術的な難しさはあるものの、誰も独自の秘密を持っているわけではなく、むしろ「過度に強調」されてきた。彼が共有した4つの重要な技術要素のうち、モデルは最初のポイントに過ぎない。データ、最適化メカニズム、そして機能体験は、いずれも4つが一体となり、どれ一つ欠けてもいけないのだ。

彼の視点から見ると、AIと自動運転は近年変化を遂げているものの、その本質は依然として変わりません。そのため、業界で熱く議論されている多くの具体的な問題に対して、彼は根本的な答えを提示しています。

以下は会話の記録です。

エンドツーエンドのチャット

QuantumBit : 時間ベースの回避と利用を実現するために、バスレーンをエンドツーエンドで識別するにはどうすればよいでしょうか。

任少青:確かに方法はいろいろありますが、文字を非常に正確に識別したいのであれば、文字を認識する方法を学ぶ必要があるかもしれません。

QuantumBit : まだですか?

任少青:私たちは今、物事を歴史的経験の観点から見ていますが、そこには多くのノイズが含まれている可能性があります。

ノイズとは一体何でしょうか?現在のシステムは、過去の経験と実際の知覚結果の両方に頼っています。例えば、車がバスレーンに進入してきた場合、システムは進入可能かどうかを検討します。しかし、バスレーンに車が進入していなければ、システムは進入しません。しかし、交通規則では、車はバスレーンに進入すべきではありません。つまり、それがノイズなのです。

まさにこれが核心的な問題だと思います。それをどのように正確に特定するか。これは取り組むべき課題です。

QuantumBit : 過去 2 年間、誰もがエンドツーエンドのソリューションについて語り、多くのプレーヤーが全力で取り組んできました。

もし私たちがそこまで原理主義的でないなら、バスレーンをいつ使えるかをシステムに指示するルールを書いて、それで問題を解決した方がよいのではないでしょうか? なぜ手書きのルールを全て廃止することにこだわるのでしょうか?

任紹慶:例えば、北京のバスレーンは他の都市と比べて比較的規則的です。ほとんどの場合、ラッシュアワー(午前7時から9時、午後5時から7時)はバスレーンの通行が禁止されています。

例えば、上海では延安路に71番バス専用レーンが設けられています。このレーンは、他のバス路線が通行することは禁止されています。また、このレーンには専用の信号機が設置されており、通常の信号機とは見た目が異なる場合があります。

そのため、都市によって「バスレーン」に関するルールやシナリオは様々であり、もし今日ルールが変更されたらどうなるでしょうか?エンジニアがそれぞれのシナリオに合わせてルールを作成するのは非常に困難です。

実際、そのようなケースは非常に多くあります。では、なぜこれまで誰もがエンドツーエンドのソリューションを検討しなかったのでしょうか?これは機能面とシナリオ面の両方に関係しています。

例えば、3~5年前、高速道路で誰もがNOA(騒音、到着、出口)を使用していた頃は、状況は比較的単純でした。高速道路では、ほとんどの場合、前方の3台の車だけを見ていました。

この車の前の車、左車線に1台、右車線に1台、そして3台すべてをまとめてモデル化し、ルールを記述します。それでも数万行のコードが必要になりますが、シナリオはシンプルです。

さて、市街地道路におけるナビゲーション支援と、NIOINが発表し、皆様が話題にしているアクティブセーフティ機能についてお話ししましょう。これらは様々な複雑なシナリオに対応する必要があり、一つ一つルールを策定していくのは当然ながら非常に困難です。基本的に、第一の課題は効率性、第二の課題は有効性です。

エンドツーエンドの自動運転が必要な主な理由は、包括的かつ複雑なシナリオをより良く、より人間のように処理することにあると私は考えています

自動運転の分野から離れてこの問題を見てみると、エンドツーエンドのテクノロジーに移行するもう 1 つの理由があります。それは、誰もがより高い一貫性を実現したいと考えていることです。

実際、「エンドツーエンド」と「非エンドツーエンド」という言葉を使うのは自動運転の分野に限られており、他のAI応用分野ではこの用語はあまり使われていないようです。例えば、言語モデルやロボティクスの分野では、「今日はエンドツーエンドを達成した」といった発言を耳にすることはほとんどありません。

自動運転の歴史は非常に長いです。何年も前は、アルゴリズムやモデルの性能はそれほど高くなく、プロセスはまるで組立ラインのようでした。自動運転では比較的早い段階で自己回帰モデルが使用され、初期の開発も比較的容易だったため、エンドツーエンドではないアーキテクチャを採用していました。今日では、モデルの性能向上が感じられるようになり、これらの技術が統合されています。

例えば、自動車の製造におけるダイカストの技術と同じです。かつて、このプロセスが今ほど進歩していなかった頃は、まず多数の小さな部品を製造し、それを溶接して組み立てていました。しかし現在では、統合型ダイカストマシンと技術が非常に成熟しており、時間効率が大幅に向上しています。

そこで、自動運転に戻ると、エンドツーエンドの本質は、時間効率や人的効率を含め、より統一された方法で計画効率を向上させることです。

さらに詳しく説明すると、AI開発の観点から見ると、ディープラーニングも同じ論理に従っています。過去10~15年間、あらゆるAIアルゴリズム(その応用も含む)の開発は、本質的に2つの点に集約されてきました。1つ目は、より良い結果を生み出すこと、2つ目は、より良い一般化を実現することです。

まず第一に、比較的理解しやすい点があります。過去には、AIはあるタスクにおいて、はるかに劣ったパフォーマンスを発揮していたかもしれません。例えば、現在最も一般的に使用されているタスクは顔認識、特に見知らぬ人の顔の一般的な認識です。当初、AIの認識性能は人間ほどではありませんでしたが、その後は人間とほぼ同等になり、現在では認識性能において人間をはるかに上回っています。

AIは徐々に人間との差を縮め、最終的には人間を上回る成果を上げています。これがパフォーマンスの向上であり、AI開発の第一の方向性です。

2番目の開発方向は汎用性です。

例えば、画像認識アルゴリズムと物体検出アルゴリズムは、それぞれ画像のカテゴリと画像内の物体を判別するために使用されます。当初は、これらは異なるフレームワークを持つ別々のアルゴリズムでした。しかし、後に、これら2つの画像検出アルゴリズムと物体検出アルゴリズムを融合することが可能になります。その結果、ほぼすべての画像関連タスクが融合され、近い将来、画像関連タスクと音声関連タスクも融合される可能性があります。

最終的な目標は、自動運転、ロボットの歩行、ロボット犬の登山など、あらゆる知能エージェントがタスクを行えるようにすることです。エンドツーエンドの実装後、すべてのタスクは同じフレームワークを使用して実行されます。

QuantumBit : Transformer はパフォーマンスやアルゴリズムの機能の向上をもたらす非常に重要な変数ですが、他には何をもたらすのでしょうか?

任少青:トランスフォーマーはその中のツールです。

しかし、AI開発は実際にはこの2つのことを追求していると言いたいのです。今日では、Transformerがなくても他のツールがあるかもしれませんが、誰もが追求している方向性は変わっていません。より良い結果とより普遍的な能力の追求です。先ほどの議論に戻ると、エンドツーエンドの自動運転は、ある程度、この2つのことを追求していると言えるでしょう。

もう一つの側面はフレームワークです。自動運転を除けば、関連するすべてのインテリジェントエージェントやロボットのような分野に同様の方法で対処できます。

これは誰かが必ずやるだろうし、誰もがやりたいことだと思います。

QuantumBit :最近、ユーザーは皆、自動車メーカーのインテリジェント運転システムがエンドツーエンドであるかどうかを気にしています。これは少し奇妙です。エンドツーエンドシステムの重要性は、研究開発やメーカー自身にあるため、ユーザーにとってそれほど重要ではないからです。車がエンドツーエンドシステムを搭載しているかどうかは、私にとっては気になりません。多くのタスクを処理でき、優れた体験を提供してくれる限りは。

任少青:これはかなり興味深いことだと思います。

ユーザーがこの作業に注目してくれるのは良いことです。例えば、言語モデルのユーザーの多くは、モデルの学習方法に関心を持ち始めています。つまり、誰もがこの作業に興味を持っているのは良いことです。特にアーリーアダプターの中には、こうした議論のトピックに興味を持っている人もいるため、プロセスに参加している人もいます。

今後、業界の技術が進化するにつれて、人々は他のトピックについて議論することになり、これらの技術の反復によって新しい体験や製品の形態ももたらされるでしょう。

QuantumBit : エンドツーエンドによって R&D プロセスはどのように変わりますか?

任紹慶:これは実はモデリングの問題です。今は誰もが研究開発プロセスやアーキテクチャの調整といったことに注力しすぎているかもしれませんが、自動運転の研究開発においては、モデリングはここ6ヶ月で完結できるものではありません。

ディープラーニングは2013年頃から自動運転に活用されており、徐々にその割合は増加しています。ただ、最近になって話題になっているので、もう少し詳しく説明します。

QuantumBit : 自動運転は「9.11 と 9.9 のどちらが大きいか分からない」といった常識的なミスを犯すでしょうか?

任少青:はい、同じです。言語モデルでは「錯覚」と呼ばれます。自動運転では、誰もが話題にしている「コーナーケース」、つまり誤検知と誤検知です。

例えば、言語モデルが突然意味不明な文を出力した場合、自動運転の知覚モデルでは、フレームが突然消えたり、実際には存在しないものが突然現れたりするような感じになります。どれも似たようなものです。

自動運転は、主に時系列のセグメンテーションや検証などのメカニズムを通じて、比較的早い段階でこの問題に対処し始めました。

実際、言語モデルにおける制御コミットメントにも同様のロジックが適用されます。COT(マインドチェーン)のロジックの一つの側面は、システムが自己検証できるようにすることです。つまり、より複雑な出力表現を通して、システムが自己検証を行うのです。

現在では、MOEのような手法や、実際のアプリケーションにおけるオンエンド検証やバックエンド検証といった他の手法が存在します。これらはすべて同じロジックに従っているため、全体としてはモデルのトレーニング、パフォーマンスの調整、そして人間の好みに近いものの出力が重要になります。

もう一つの問題はエラーです。ニューラルネットワーク、非ニューラルネットワーク手法、そして人間によるルールベースの手法を用いた複数回の検証を通じて、エラーを特定し修正することができます。

世界モデル

量子ビット: システムに入力されるビデオ データは、一方ではラベル付けされた実際のデータ、他方では世界モデルの生成データで構成されます。これは、LLM の合成データに似ています。

任紹慶:タスクを定義する場合、最終的に答えなければならない問いは、定義するタスクがどの程度一般化されているかということです。自己回帰的な観点から見ると、定義されたタスクが一般化されているほど、学術的な観点からの重要性は高まり、応用的な観点からも同様です。

10年前、コンピュータービジョンにおける3つの基本的なタスク、すなわち画像分類、検出、そしてセグメンテーションについて議論されていました。画像を理解し、分類し、境界ボックスを作成し、そして画像内のオブジェクトをセグメンテーションする。これらこそがまさに基本的なタスクでした。

しかし、今日では、この基本的なタスクの定義だけでは不十分です。より根本的な疑問に取り組む必要があります。

言語問題によって定義される基本的な問題は、次のトークン、次の単語を予測することです。

ビジョンにも同じことが当てはまります。問題を解決するためのより基本的で根本的なタスクを定義できれば、それに基づいたアプリケーションを見つけることで、ビジョンの範囲が広がり、より普遍的なものになります。

QuantumBit : ビデオからビデオを生成することは、本質的には問題を徹底的に探索することなのでしょうか?

任少青:はい、基本的なタスクとして、最も基本的かつ不可欠なのは、これを定義することです。つまり、現在の定義では、ビデオ生成ビデオは他のあらゆる可能性を包含できるため、より重要であるということです。

出力ビデオは分類が可能で、中央からオブジェクトを抽出するため、オブジェクト検出に適しています。出力がセグメンテーション結果であれば、セグメンテーションタスクに使用できます。出力が3D再構成であれば、別の観点から見ると、3D再構成タスクに使用できます。したがって、ビデオ生成は、その定義において、実際にはより根本的な問題です。

さらに、私たちは、再構築が時空間の理解と元のデータの包括的な理解の最も深遠な表現であると信じています。

基本的に、中間タスクを実行する前に、すべての元の情報を再構築する必要があるためです。

QuantumBit : 今日の世界モデルと以前の仮想シミュレーションの根本的な違いは何ですか?

任少青:仮想シミュレーションは全く異なる論理だと思います。実際には二つの方向性があり、一つはコンピュータービジョン、もう一つはコンピューターグラフィックスです。

実は、私は二つの別々のことをやっていました。一つは世界を理解すること、そしてもう一つは世界を再構築すること、つまり架空のビジョンを創造することでした。しかし、ここ二年間で、二つの方向性はますます似通ってきました。

一般的に、世界を完全に理解することが世界モデルの目的です。

現在、生のビデオデータを用いたシミュレーションもいくつかありますが、その本質は状況を完全に理解することではありません。入力を与えて完全に理解しようとするのではなく、何かを再構築することです。しかし、再構築されるものが必ずしも世界のすべてであるとは限りません。したがって、シミュレーションの問題点は、世界に関するすべての情報が含まれていないことです。

例えば、ゲームを例に挙げると、シミュレーションの最も初期の形態は、ある意味ではシミュレーションの一種と言えるでしょう。初期のシミュレーションは、ファミコンのゲームをプレイしているようなもので、粗い情報(ピクセル化)があり、細かいディテールが欠けていました。そのため、シミュレーションの問題は、現実世界に近づいてはいるものの、依然として現実世界からかけ離れているという点にあります。

QuantumBit :Wei氏が世界モデルについてお話しした際、人間の脳のように2つの部分に分けたアプローチを取られました。これは聴衆の理解を分かりやすくするためだったのでしょうか、それともシステム自体が2つの部分に分かれているのでしょうか?

任紹慶:皆さんに分かりやすくするために、このように分けてみました。実際には、完全に別々ではなく、一緒に制作しました。

実は、プレゼンテーションの最初の部分である空間再構成については、再構成ビデオも作成しています。この再構成ビデオには、ある程度の時間情報も含まれていますが、ここで示す例はそれほど長くはありません。

時間知覚に関する第2部では、想像と推論の能力を重視します。推論の結果は時間がかかり、多岐にわたりますが、実際には第1部から得た空間を再構築する能力と結びついています。

QuantumBit :生成AIに注目していますか?

任少青:素晴らしいと思います。実際、最近は多くの変化がありました。なぜ私たちが世界モデルについて話しているのか、そしてなぜこの方向へ進んでいるのか、という点が重要なのです。

先ほどの話題に戻ると、エンドツーエンドと非エンドツーエンドは、インテリジェント運転の分野で議論されているトピックのほんの一部に過ぎません。技術的な観点から、より大規模な視点で、自動運転とロボティクスを大規模言語モデルと統合するにはどうすれば良いでしょうか?

QuantumBit : 世界モデルはあなたが提案したアプローチです。

任紹慶:はい、より普遍的なアプローチです。自動運転に使えるのであれば、ロボットにも使えるはずです。言語モデルとそれに続くネイティブスケールにも、同様のフレームワークが用いられます。

もちろん、すべてのドメインを統合するというさらに根本的なアプローチもありますが、それについては後で説明します。

QuantumBit : これほど大規模な場合、エンジニアリング上の課題は発生しますか?

任少青:私たちは多くのエンジニアリング上の問題に直面することになるでしょう。そこで、私が今お話しする世界モデルは、ロボット工学、自動運転、言語モデルの次の段階の基本的な枠組みに近いものになるでしょう。

QuantumBit : 世界モデルの多変量自己回帰生成構造とは何ですか?

任紹慶:実は、これら 3 つは、皆さんが開発している言語モデルやロボット フレームワークと非常によく似ています。

右から左へ、3つのキーワードがあります。1つ目は生成です。この生成手法には多くの利点があります。ラベル付きデータを必要とせず、学習効率が高いためです。そのため、言語モデルは古くから生成的でした。

自己回帰は本質的に長期的な問題を解決できるため、長いコンテンツを持つ言語モデルも同様に機能します。自動運転やロボット工学でも、長期的な問題を解決するためにこのアプローチを活用する必要があります。

多変数とは?多変数とは、多変数の入力と出力を意味します。本質的には、複数のデータソースの問題を解決することです。将来、自動運転がインターネットのデータを利用したり、インターネットがより多くの分野のデータを利用したりする場合、同様のアプローチが必要になるでしょう。

私たちの目標は、これらのフレームワークを使用して、学際的な問題をつなぐことです。

インテリジェント運転の4つの主要な技術要素

QuantumBit :今では誰もが都市部でNOAを行っていますが、最終的な体験はそれぞれ異なります。その要因は何だと思いますか?

任少青:大まかに4つの主な要因が考えられます。

1つ目はモデル、2つ目はデータ、そして3つ目は最適化です。モデルには常に問題がつきものですが、問題が発生した際に、他の手法、あるいは最適化に基づく手法をどのように活用して相乗効果を生み出すことができるでしょうか。

4 番目の要素は機能と特徴の数です。これは前の 3 つの要素に基づいていますが、完全に関連しているわけではありません。

最初のポイントは、実はここで議論している内容の核心、つまりモデルです。各企業はそれぞれ異なり、企業間にもかなりの差異があります。これがモデルの観点です。

2つ目の側面はデータです。データはどれくらいの量があり、どれくらいの頻度で生成されるのでしょうか?私たちにとって、NIOのデータループはおそらく世界最高です。

第三に、モデルの出力結果にも問題がある可能性があります。では、処理方法はより良い結果をもたらすのでしょうか、それとも悪い結果をもたらすのでしょうか?どうすればより良い結果を得ることができるのでしょうか?実際には2つのポイントがあります。1つは、モデルから得られた良い結果を誤って却下しないようにすることです。もう1つは、モデルのパフォーマンスが低い場合でも、比較的スムーズな状態を維持することです。つまり、モデルの前半はオープンなのに後半はオープンではない、あるいは後半の出力の軌跡がスムーズでないといった状況は絶対に避けるべきです。

例えば、突然障害物が現れたにもかかわらず、システムが壁にぶつかることなく正しく操縦できたとしても、ユーザーエクスペリエンスは明らかに不快なものとなり、不快感を覚えるでしょう。このような体験は好ましくありません。そのため、システムの最適化は非常に重要です。

4つ目に、上記を踏まえて、どのような新機能が可能でしょうか。また、ユーザーエクスペリエンスの観点から、それらを改善することは可能でしょうか。これには、ユーザーのアクティビティやインタラクションの追跡などが含まれます。

まとめると、技術が一定のレベルに到達できるかどうかが非常に重要です。

モデルは、ある程度、効率性を向上させるために根本的に設計されています。モデルは上限を引き上げるかもしれませんが、下限が必ずしも上昇することを保証するものではありません。下限が下がる可能性はあります

したがって、後続の融合モデルと最適化手法は、効率を低下させることなく、下限値を維持、あるいはさらに向上させることを保証する必要があります。同時に、ユーザーフレンドリーで、より使いやすく魅力的な機能をユーザーに提供する必要があります。

自動運転とロボット工学

QuantumBit :多くのロボット工学スタートアップが、仮想世界と現実世界の橋渡しを謳っています。それと、異なる分野を橋渡しすることの違いは何でしょうか?

任少青:それは別のエンジニアリングモデルです。

異なる分野の連携について話すとき、実際には異なるアプリケーションの連携について話しています。例えば、自動運転、ロボット工学、大規模言語モデルといった技術の統合には、一貫して同じフレームワークを使用する必要があります。

実は、これは誰にとっても非常に分かりやすいことです。自動運転とは本質的に特別な種類の「ロボット」であり、ロボット工学における最大かつ最も価値の高い応用分野の一つです。自動運転の研究開発費は、これまでも非常に高額であったことにお気づきでしょう。だからこそ、現在、誰もが自動運転に多額の投資を行っており、初期の商用化は莫大な規模に上ります。

現在の自動運転と同じ世代の技術スタックを使用してロボットを作成する場合、現時点ではどのロボット アプリケーションもこの投資をサポートできる可能性は低いでしょう。

しかし、長期的には自動運転もロボット工学の汎用分野になると考えています。つまり、同じフレームワークを、より高いスケーラビリティと低コストで、あらゆる種類のロボット開発に活用できるということです。この汎用ロボット技術は確実に実現可能だと考えています。

しかし、対応する技術を見つけるために、先に述べた世界モデルを使用してロボットを作ることもできると考えています。

QuantumBit : NIO はロボットも作れるということを示唆しているのでしょうか?

任少青:技術的な観点から言えば、これが基本的にこの課題が達成された道筋だと思います。

ロボットが統一されたフレームワークを発見すれば、間違いなく自動運転に復帰できるでしょう。なぜなら、その根底にある原理は非常に似ており、これらの方法には大量のデータが必要となるからです。

自動運転でははるかに大量のデータが関係するため、このように完全に理解されたフレームワークが開発される可能性が高くなります。

ロボットに関しては、3つの層に分けるべきだと思います。ロボットには実際には3つの能力があると考えています。第1層は概念認知、第2層は時空間認知、そして第3層は動作、あるいはインタラクションと呼ばれています

概念認知の第一レベルは、本質的にはモデルの解釈に関するものです。第二レベルは、先ほどお話しした空間・時間認知です。第三レベルは、ある程度、車輪の制御、脚の制御、片手の使い方、道具や物体の拾い上げと使用に関する運動能力です。しかし、一般的に言えば、私たちが話している第二レベルの能力、つまり空間・時間認知は、非常に普遍的な能力です。

QuantumBit :ここ数年の業界全体の変化をどのように見ていますか?

任紹慶:実は、技術的な観点から見ると、業界全体では自動運転技術はここ数年大きな変化はなかったと思いますが、ここ半年から1年の間に大きな変化がありました。これらの変化の多くは、自動運転分野に起因しているわけではなく、先ほど述べたように、他の分野におけるAI技術の発展に起因しています。

QuantumBit : おそらく最終的には、人間のようなインテリジェントエージェントを作成し、汎用モデルとなることを目指すことになるのでしょうか?

任少青:その通りです。残る問題は、それをどのように構築するかです。AIの汎用モデルとロボット工学などの技術の重複が拡大しているため、インテリジェント運転システムの開発においては、インテリジェント運転だけに焦点を当てるだけでは不十分だと思います。