任少青氏へのインタビュー：世界モデルは自動運転とロボット工学の新たなパラダイム

レン・シャオチン氏との会話は、インテリジェント運転の活用という非常に基本的なシナリオから始まりました。

インテリジェント運転システムは、人間と同じように、北京、上海、広州などの大都市の高速道路で、指定された時間帯にバスレーンの制限を回避しながら、制限のない時間帯を効率的に活用するにはどうすればよいでしょうか。

かつてのAIシステムは、人間が作成したルールに厳密に従って運転していました。しかし、エンドツーエンドの自動運転モデルのパラダイムの下では、手動でルールを作成するという手法は排除されつつあります。これは、AIシステムが「時間制限付きバスレーン」の特殊な道路状況やシナリオを自ら学習する必要があることを意味します。これには時間がかかり、短期的にはニーズに直接応えられない可能性があります。

では、スマートカー業界内外の人々は「エンドツーエンド」ソリューションに過度に依存しているのでしょうか?

包括的なエンジニアリングプロジェクトとして、エンドツーエンドの自動運転がなぜ必要なのでしょうか?

なぜ今この瞬間にエンドツーエンドの通信が行われるのでしょうか？その本質とは何でしょうか？

これはインテリジェント車両の研究開発や自動車産業の変革にどのような影響を与えるのでしょうか?

これらの問題について語るにあたり、任少慶氏以上にふさわしい人物はいないだろう。彼は世界トップクラスのAI科学者であり、ディープラーニングの古典的成果であるResNetの開発者の一人である。また、10年近くにわたり業界の最前線で活躍し、研究開発から実車導入まで、自動運転技術を目の当たりにし、実践してきた。現在はNIOのインテリジェントドライビング担当副社長を務め、自動運転研究開発の責任者も務めている。

任少青氏は、自動車製造が統合へと向かう必然的な流れと同様に、エンドツーエンドは避けられないものだと考えている。技術的な難しさはあるものの、誰も独自の秘密を持っているわけではなく、むしろ「過度に強調」されてきた。彼が共有した4つの重要な技術要素のうち、モデルは最初のポイントに過ぎない。データ、最適化メカニズム、そして機能体験は、いずれも4つが一体となり、どれ一つ欠けてもいけないのだ。

彼の視点から見ると、AIと自動運転は近年変化しているものの、その本質は変わっていません。そのため、業界で熱く議論されている多くの具体的な問題に対して、彼は根本的な答えを提示しています。

高速 NOA シナリオでは、エンドツーエンドを考慮しない方が簡単であることがわかります。
AI の開発は本質的に、より良い結果と、一般化および汎用性の向上という 2 つの点に集約されます。
エンドツーエンドのソリューションを採用するためにアドバイスは必要ありません。この点は過度に強調されていると思います。
世界モデルは、普遍的な自動運転を実現するための方法です。
もしL4がロボタクシーだけを追求しているのであれば、それほど社会的意義があるとは思えません。
L5が実現すれば、自動車や交通手段だけでなく、都市組織モデル全体が変革されるでしょう。
インテリジェント運転支援と自動運転の技術アーキテクチャには大きな違いはありません。
LiDARの問題はコストであり、技術ではありません。純粋な視覚ベースのシステムの方が単純にシンプルです。どちらのアプローチも本質的に優れているとか劣っているというわけではありません。
レベル 3 は自動運転におけるマイルストーンとなり、ChatGPT の瞬間となる可能性があります。
市街地での走行が可能かどうかは、現在の第一層のインテリジェント運転にとっての分水嶺となる。
自動運転はロボット工学の広範な分野である
ワールドモデルのフレームワークを使用してロボットを作成することもできます。
AI 開発の自然な進歩は、人間より劣る状態から、一歩一歩人間を上回る状態へと進むことです。
今年から、事故を年間10～20％大幅に削減できることを期待しています。
再構築は、時空間の理解と元のデータの理解の最も深遠な表現です。

以下は会話の記録です。

エンドツーエンドのチャット

インテリジェント車両リファレンス: バスレーンをエンドツーエンドで識別し、時間ベースの回避と利用を実現するにはどうすればよいでしょうか?

任少青：特に正確な認識を実現したいのであれば、文字の認識方法を学ぶ必要があるかもしれません。

スマートカーリファレンス：まだですか?

任少青：文字認識機能はまだ追加していません。現在は過去の経験に頼っているため、ノイズが多く含まれている可能性があります。

現在のシステムは、過去の経験と実際の（認識）の両方に頼っています。例えば、バスレーンに車が進入してきた場合、システムも進入を検討するかもしれません。しかし、車が進入してこない場合は、システムは進入しません。

これはまさに対処する必要がある核心的な問題だと思います。

スマートカーリファレンス: 過去 2 年間、誰もがエンドツーエンドのソリューションについて語り、多くのプレーヤーが全力を注いできました。

もし私たちがそこまで原理主義的でないなら、バスレーンをいつ使えるかをシステムに指示するルールを書いて、それで問題を解決した方がよいのではないでしょうか？なぜ手書きのルールを全て廃止することにこだわるのでしょうか？

任紹慶：例えば、北京のバスレーンは他の都市と比べて比較的規則的です。ほとんどの場合、ラッシュアワー（午前7時から9時、午後5時から7時）はバスレーンの通行が禁止されています。

しかし、他の多くの都市ではさまざまな規則があります。

例えば、上海の71番バスはいつでも出発できるわけではなく、他のバスとは異なる特別な赤いライトが付いています。

エンジニアにこの問題を一つずつ処理させれば、解決できないでしょう。

まず第一に、先ほど申し上げたとおり、このようなケースが多すぎるということです。

例えば、AEB（Advanced Business Assessment）を実施する際には、以前は規制とテスト基準のリストがあり、テスト基準に従って各ケースを一つずつ確認していました。

たとえば、前の車と自分の車の間の角度を判断できます。

テストを実施する際、合格率を向上させ、誤停止を減らすために、ルールを記述する元のロジックは次のとおりです。

車の角度が振動したり、車の角度が一定以上になるとブレーキが効かなくなります。

しかし、現実世界のシナリオでは、車にはさまざまな形や大きさがあり、目の前の車が奇妙な形をしている可能性があり、その場合、検出されたオブジェクトの境界ボックスが揺れ続けることになります。

このような状況では、AEB はどのようにブレーキをかけるのでしょうか?

誰かにこれらのルールを書かせるとしたら、やるべき作業が膨大になり、全体的に非効率的になります。

なぜこれまでエンドツーエンドのソリューションが検討されなかったのでしょうか?

たとえば、3 ～ 5 年前、誰もが高速 NOA (ノイズ、到着、応答) テクノロジを使用していたとき、シナリオは単純でした。

高速道路では、目の前の 3 台の車に注目してください。

この車の前の車、次に左車線の車、右車線の車を一緒にモデル化し、最後にルールを書いて終了します。

まだ何万行ものコードを記述する必要がありますが、シナリオは結局よりシンプルになります。

街中に入った今、私たちは先を見越した安全対策を講じ、街中の交差点など、あらゆる複雑な状況に対応する必要があります。二輪車がどのような角度や速度で曲がってくるかは予測できません。何が起こるか分かりません。

人々にルールを一つずつ書いてもらう場合、基本的に、最初の問題は効率性であり、2番目の問題は有効性です。

これが、自動運転がエンドツーエンドでなければならない主な理由だと思います。

自動運転の分野から外れると、もう 1 つの理由は、より統一されたアプローチに向けて全員が取り組む必要があるということです。

実際、エンドツーエンドと非エンドツーエンドについて語るのは自動運転の分野の人だけです。他の分野ではこの話題は議論されておらず、基本的にそこでは見られません。

たとえば、言語モデルやロボット工学に携わる人が突然「エンドツーエンドを完璧にこなしたからすごい」と言うことはないでしょう。

それは、自動運転自体に歴史的な理由があるからです。

自動運転の歴史はかなり長い。数年前までは、アルゴリズムモデルの能力がそれほど高くなく、人々はそれを組立ラインにすることしかできなかった。

例えば、自動車の製造、例えばダイカストと同じです。以前の工程が不十分だった場合、まず小さな部品に切断して製造し、その後溶接するしかありませんでした。

実は、自動運転もこれによく似ています。

自己回帰モデルは自動運転において比較的初期に使用され、初期段階では成熟していなかったため、自動運転にはエンドツーエンドではない側面が含まれており、これは問題の複雑さによるものでもあります。

今では、モデルのパフォーマンスが向上したと誰もが感じているため、それらを統合しました。

工場と同様、工場で一体型ダイカストが採用されている理由は、実は時間効率のためです。

さらに、理論的には、自動運転の開発は工場の開発よりも間違いなく複雑です。なぜなら、工場には多くの労働者がいるかもしれませんが、エンジニアもたくさんいる場合は、実際にはさらに複雑になるからです。

したがって、エンドツーエンドでは本質的に、時間効率や人的効率などの計画効率を向上させるために、より統一されたアプローチが使用されます。

実際、AI 開発の観点からさらに一歩進んでみると、ディープラーニングはこのロジックに従います。

過去 10 ～ 15 年間にわたるすべての AI アルゴリズムの開発と応用は、本質的に次の 2 つの点に集約されます。

第一に、より良い結果を生み出すこと、第二に、より良い一般化を生み出すことです。

より優れた一般化を実現するために、同じ方法を使用して、より多くの分野の問題を解決できます。

過去 15 年間、 AI はこれら 2 つのタスクを継続的に繰り返し実行してきました。

まず第一に、比較的理解しやすい点があります。過去には、AIは人間よりもタスクの実行能力がはるかに劣っていたかもしれません。例えば、現在最も一般的に使用されているタスクは顔認識です。少なくとも、見知らぬ人の顔を認識する能力に関しては、AIは当初は人間ほど優れていませんでした。その後、人間とほぼ同等になり、今では明らかに人間を上回っています。

他のタスクにも同じことが当てはまります。

AIは人間に劣る存在から人間を超える存在へと徐々に進化しており、この性能向上こそがAI開発の第一の方向性です。

2番目の開発方向は、実は汎用性です。

例えば、画像認識アルゴリズムと物体検出アルゴリズムは、それぞれ画像のカテゴリと画像内の物体を判別するために使用されます。当初はそれぞれ異なるフレームワークを持つ別々のアルゴリズムでしたが、後に統合されました。

その後、ほぼすべての画像ベースのタスクが統合され、現在では画像ベースのタスクと音声ベースのタスクもすぐに統合されると言われています。

自動運転にも同じことが当てはまります。最終的な目標は、自動運転をすべてのインテリジェントエージェントのタスクにすることです。自動運転、ロボットの歩行、ロボット犬の登山など、すべてのタスクが同じフレームワークで実行されるようになります。エンドツーエンドの統合を経て、まさにこれを実現する必要があります。

インテリジェントビークルリファレンス: Transformer はパフォーマンスやアルゴリズムの機能の向上をもたらす非常に重要な変数ですが、他には何をもたらすのでしょうか?

任少青：トランスフォーマーはツールです。

しかし、私が言いたいのは、AI開発において、誰もが実はこの2つのことを追求しているということです。トランスフォーマーがなくても、他のツールがあるかもしれませんが、誰もが追求している方向性は変わっていません。より良く、より普遍的なものを追求することです。

先ほどお話しした内容に戻ると、自動運転へのエンドツーエンドのアプローチは、実際にはある程度、より良いものを追求することです。

もう一つの側面はフレームワークです。自動運転を除けば、関連するすべてのインテリジェントエージェントやロボットのような分野に同様の方法で対処できます。

これは誰かが必ずやるものだと私は信じています。誰もがやりたいことだと思います。

インテリジェントビークルリファレンス：3年前、自動運転について話していた頃は、まだ4つのスタックについて議論する必要がありました。当時は、モデルを構築する必要があると言う人もいたかもしれませんが、当時は実現不可能でした。

過去2年間、誰もがこれは実現可能だと感じていました。このプロセスにおいて、どのような重要な要素が変化しましたか？

任少青：今のところ計算能力を考慮しないとしても、タスクを完了するには間違いなくデータが必要です。アルゴリズムは現在、データに依存していますが、少量のデータでアルゴリズムを作るべきだと主張する人もいます。

いずれにせよ、この世代の人工知能のアルゴリズムは間違いなくデータ重視です。

私たちが今解決しなければならない問題は、特定のタスクでは一部のデータにラベルを付けることはできるが、大量のデータにラベルを付ける必要はないということです。

別のタスクでは、大量のデータにラベルを付ける必要があるため、ここでの最初の重要なクロスドメインの問題は、実際にはデータの記述を統一し、データの量を増やす方法であると思います。

しかし、統一性を実現するためにはラベル付けをより複雑にする必要があり、データ量の増加がさらに困難になります。

同時に、均一性を実現するためには、より多くのデータが必要になります。アノテーション手法や学習手法自体が大量のデータに対応できない場合、より多くのデータにラベルを付けることもできず、データ量を増やすこともできません。

これまでは、2 つの分野のデータを統合する方法がなく、両方の分野で十分な量のデータを取得することもできませんでした。

たとえば、あるドメインに 1,000 枚の画像があり、別のドメインにも 1,000 枚の画像がある場合、独立したパーティション分割が簡単になります。

では、現状はどうなっているのでしょうか？このデータを基盤とすることで、データが分割されるのを防ぐことができます。

データを分離しない理由は二つあります。第一に、データ量の増加、第二に、より根本的な点として、手作業によるアノテーションから自動化への移行、そして最終的にはアノテーションが不要になったことです。これは大きな進歩です。

そこで、この質問に答えるために、もう一度要約してみましょう。

当初の問題は、データと計算能力という 2 つの制限によりコンポーネントを統合できなかったため、コンポーネントを分離する必要があったことです。

現時点での考え方は、データとコンピューティング能力の両方がそれをサポートできるため、それらを分離せずに一緒に行うべきであるということです。

データを統合できれば、ラベル付けが必要な状態から自動ラベル付けへ、そしてラベル付けが不要になる状態へと移行できます。自動ラベル付けとラベル付けが不要であることは異なります。ラベル付けが不要であることの方がより良い状態です。

この処理にラベル付けが不要になれば、計算能力はより大量のデータ処理に耐えられるようになります。これは、2つの処理を同時に行うのと同等です。これがコアです。

そこで、自動運転の問題に戻ると、重要な点は、このラベルを削除することです。

スマートカー参考：自動運転の標準化コストは今どこまで達しているのか？

任紹慶：自動運転はここ数年で大きく変化しました。 5年前なら、ラベルのコストはたった数セントでした。

最初の 2 年間は、注釈付けプロセス全体にまだ費用がかかりますが、自動化された注釈付けにより、効率は 2 年ごとに 100 倍、3 年ごとに数万倍から数百万倍に向上する可能性があります。

私たちが今実際に目指しているのは、ラベル付けを避けることです。

なぜなら、何に自動ラベル付けをしても、効率は向上しますが（たとえば、以前は 1 箱あたり 5 セントかかっていたのが、今では 10,000 箱、あるいは 100 万箱にラベル付けできるようになります） 、それでもまだ時間がかかります。

ここで、ラベル付けをやめて、生のビデオをそのままモデルに直接入力したいと思います。

スマートカー参考：現在、ユーザーは自動車メーカーのインテリジェント運転システムがエンドツーエンドのシステムであるかどうかに注目しています。

少し奇妙に思えます。エンドツーエンドシステムの重要性は、ユーザーよりもむしろ研究開発、そしてメーカー自身にあるからです。私の車にエンドツーエンドシステムが搭載されているかどうかは気にしません。ただ、多くのタスクを処理でき、優れたユーザーエクスペリエンスを提供できることを望んでいるのです。

任紹卿：これが先駆的なユーザー、つまり早期導入者の間でのみ存在しているというのは、非常に興味深いことだと思います。

ここに実は2つのポイントがあると思います。まず、ユーザーがこういった仕事に注目してくれるのは良いことです。

例えば、言語モデルに取り組んでいるユーザーは、モデルの学習方法にも興味を持っています。人々がこうした点に関心を持つのは良いことです。

2点目は、ここ半年ほど機能面でのホットな話題があまりなかったように感じます。考えてみれば、昨年末から今年初めにかけては、エンドツーエンドのソリューションやモデリングに人が取り組んでいなかったわけではなく、むしろ都市全体への拡張など、製品に近い部分に注目を集めていたという感じです。

今年に入って、主要企業は市街地への展開をほぼ完了し、そのストーリーはほぼ世間に知れ渡っています。4月にNIOが全領域にわたる本格的なインテリジェント運転の発表イベントを開催したことで、これももはや話題ではなくなりました。特にアーリーアダプターにとって、これらのトピックは興味深いものであり、だからこそ彼らはこのプロセスに参加したのです。

それで、今何を議論しているのでしょうか?

今はエンドツーエンドで議論することしかできないのでしょうか？

将来的には、ポイントツーポイントや L3 について議論が始まると思いますが、メーカーはまだこの方向を導いていません。

インテリジェント車両リファレンス: エンドツーエンドの変革はメーカーの研究開発に大きな変化をもたらすでしょうか?

二つの考え方があります。一つは、自動車はシステムエンジニアリングのプロジェクトであり、エンドツーエンドのソリューションに固執すべきではないという考え方です。

ある学派はこれを新しいパラダイムとみなし、全面的に受け入れる価値があると考えています。

あなたの意見は？

任少青：あなたの言ったことはすべて正しいと思います。

ダイオードロジックを使ったことはありません。基本的に、全員が同じ開発ツールを使っています。コードを書いたり、ビデオを編集したり、記事を書いたりしています。

記事を例に挙げると、私たちは皆記事を書くので、Chatgpt を使用するかどうかはそれほど重要ではないようです。

使用後に追加の問題が発生する可能性もありますが、慣れればより効率的になる可能性があります。

ChatGPT を使っていないと時代遅れだと言われたり、使っていると過激すぎると言われたりしても、議論する意味はありませんよね?

ただ、誰もが自分に最適な効率化ツールを選択するだけです。

第二に、長期的な視点で見ると、それはトレンドかもしれませんが、人々がエンドツーエンドのソリューションを理解して実際に使用するまでにかかる時間は、それを学習するのにかかる時間とは異なります。

インテリジェントビークルリファレンス: エンドツーエンドの変革により、R&D プロセスはどのように変化するでしょうか?

任少青：これは実はモデリングの問題で、今は人々がそれにあまりにも注目しすぎています。

自動運転のモデリングは、決してたった 6 か月で実現できるものではありません。

ディープラーニングは2013年頃から自動運転に活用され始めており、その割合は徐々に増加しています。ただ、最近は他に話題になるものがあまりないので、もう少し詳しくお話ししたいと思います。

インテリジェント車両リファレンス: エンドツーエンドはモデルベースのプロセスです。

エンドツーエンド市場への後発企業は、オープンソースモデルと独自のデータを活用して後発企業としての優位性を獲得できるでしょうか?

任少青：ウォークラフトやスタークラフトをプレイするのと同じです。基本的には、まず兵士を大量生産するか、技術をアップグレードするかという問題です。考え方は同じです。

テクノロジーに投資するということは、生産性と資金がテクノロジーに費やされるということなので、生産数は少なくなります。

基本的に、必要な機能が少なくなるか、ユーザーエクスペリエンスの詳細の調整が少なくなることを意味します。

スマートカーリファレンス：それでは、まだ選択肢は異なると考えますか?

任少青：しかし、短期的な考慮も必要ですが、これはトップ選手にとって実は長期的な問題です。

つまり、テクノロジーには常に限界があるということです。問題は、いつアップグレードするかということです。早い人もいれば、遅い人もいます。

リズムに関しては、それは難しいですね。

種族、資源、選択するヒーロー、戦いたいもの、配置するユニットなどに関係するため、誰もが自然に自分のペースでプレイし、最終的には結果を見るだけです。

インテリジェント車両リファレンス：エンドツーエンドの変更は、R&Dの要素にどのような影響を与えますか？たとえば、データの自動化などです。

任少青：データは常に重要なポイントだと考えています。

唯一の違いは、人々がそれに対して抱く重要度の高さですが、全体的な方向性は同じだと思います。誰もが間違いなくますます注目しています。曲線は少し異なりますが。

スマートカーリファレンス：エンドツーエンドのソリューションを採用するための提案はありますか?

任少青：必要ないと思います。エンドツーエンドに重点が置かれすぎています。本質的には、AIの応用に過ぎません。

人工知能アプリケーションは本質的に2つの主要な側面に集約されます。1つ目は、基本的な機能であるデータのモデル化です。

2つ目は、特定の応用分野に関する理解です。これは、この2つに集約されます。あるグループは一般的な技術スタックに重点を置き、別のグループはドメイン知識に重点を置く場合があります。

スマートカー参考：実は、アルゴリズム、コンピューティング能力、データという3つの要素は変わっていないんです。

任少青：現在のモデルはあくまでも基盤です。モデルの変更により汎用性が向上したため、各社は独自のテクノロジースタックをアップグレードする必要があります。

インテリジェント車両リファレンス: エンドツーエンドのアプローチにより、自動運転の良し悪しの評価基準は変わりますか?

任少青：良いことと悪いことはユーザーエクスペリエンスによって定義されるべきだと考えています。

これは特にテクノロジーとは関係ありません。ただ、一部のテクノロジーを使えば、このタスクをより少ない労力で達成できる可能性があるということです。

インテリジェントビークルリファレンス: 現在、システムの品質の評価は、主に引き継ぎ間隔の長さなどのデータに基づいています。

任少青：はい、同じユーザーが同じ乗っ取り傾向を示している場合、乗っ取り率や乗っ取りの期間は比較的重要な基準となります。

しかし、ユーザーによって状況は異なります。ユーザーによっては、あなたの対応が怖かったり、不安にさせたりするかもしれません。つまり、不安な監督と正常な監督があるということです。ただ、ユーザーは不安や不安を感じているわけではなく、あなたの効率が低いと感じ、改善が必要だと考えているだけなのです。

インテリジェント車両リファレンス: 自動運転は「9.11 と 9.9 のどちらが大きいか区別できない」といった常識的なミスを犯すでしょうか?

任少青：はい、実際には同じです。言語モデルでは「錯覚」と呼ばれ、自動運転では「コーナーケース」と呼ばれます。

コーナーケース、つまり偽陽性や偽陰性とは何ですか?

たとえば、言語モデルが突然意味不明な文章を出力したり、自動運転の認識モデルが突然フレームを失ったり、実際には存在しないものが突然現れたりするなど、これらはすべて同様の現象です。

そのため、自動運転は比較的早い段階でこの問題を解決しました。

多くの場合、この問題はタイミング分割メカニズムと検証メカニズムによって解決されます。

実際、言語モデルにおける制御コミットメントにも同じことが当てはまります。COT（Mind Chain）のロジックの一つの側面は、システムが自己検証できるようにすることです。

より複雑な出力式を使用し、それを自己検証します。

現在では、MOEや、実際のアプリケーションにおけるバックエンド検証などの他の手法も存在します。これらはすべて同じロジックに従っているため、全体としてはモデルのトレーニングとパフォーマンスの調整、つまり主に人間の好みに近いものを出力することに重点が置かれています。

3つ目の問題はエラーの問題です。システムは、ニューラルネットワーク、非ニューラルネットワーク手法、そして人間によるルールベースの手法を用いた複数の検証を通じてデータを検証し、エラーを拾い出して修正します。例えば、あなたが使っているチャットソフトウェアは、基本的にエラーを拾い出して「これは不要です」と伝えます。

世界モデル

インテリジェント車両リファレンス: システムに入力されるビデオデータは、ラベル付けされた実際のデータと、LLM の合成データに多少似ている世界モデルから生成されたデータの 2 つの部分で構成されます。

Ren Shaoqing : タスクを定義したい場合、最終的には 1 つの質問に答える必要があります。それは、定義するタスクがどの程度一般的なのかということです。

自己回帰の観点から見ると、定義するタスクがより一般的かつ基本的なものであればあるほど、学術的観点からはその重要性が増し、応用的な観点からも同じことが当てはまります。

10 年前、コンピュータービジョンの分野における 3 つの基本的なタスク、つまり画像の分類、検出、セグメンテーションについて語られていました。

考えてみてください。画像を理解し、分類し、境界ボックスを作成し、画像内のオブジェクトを識別し、それらをセグメント化することは、まさに基本的なタスクです。

しかし、今日ではこの根本的な定義だけでは不十分です。より根本的な問いが必要です。

言語問題によって定義される基本的な問題は、次のトークン、次の単語を予測することです。

視覚についても同様です。

問題を解決するためにより根本的なタスクを定義できれば、それはより根本的なものであるため、そのアプリケーションを見つけることができ、その範囲はより広くなります。

スマートカーリファレンス: ビデオからビデオを生成することは、本質的には問題を徹底的に探索することなのでしょうか?

任少青：はい、基本的な作業として、最も基本的かつ重要なことは、このことを定義するということです。

したがって、現在の定義では、ビデオを生成するビデオは、他のすべての可能性を包含しているため、より基本的なものとなります。

出力されたビデオはカテゴリであり、中間のオブジェクトを抽出すると、オブジェクト検出に使用できるタスクになります。

出力はセグメンテーション結果であり、これはセグメンテーションタスクです。

出力は3D再構築です。結果の視点を変更することで、3D再構築タスクを実行できます。

したがって、ビデオからビデオへの生成の問題は、実際にはその定義の点でより根本的な問題です。

さらに、私たちは、再構築が時空間理解と生データの理解の最も深遠な表現であると信じています。

基本的に、中間タスクを実行する前に、すべての元の情報を再構築する必要があるためです。

インテリジェント車両リファレンス: 今日の世界モデルと以前の仮想シミュレーションの根本的な違いは何ですか?

任少青：仮想シミュレーションは実は全く異なるロジックだと思います。

実は、2つの方向があります。

1 つの領域はコンピュータービジョンと呼ばれ、もう 1 つはコンピューターグラフィックスと呼ばれます。

実際、彼らがやったことは2つあります。1つは世界を理解すること、そしてもう1つは世界を再現すること、つまり架空のビジョンを創り出すことでした。

しかし、ここ2年間で、2つの方向性はますます似通ってきました。一般的に言えば、世界を完全に理解することこそが、世界モデルの目指すところなのです。

生のビデオを使ったシミュレーションもいくつかありますが、それらは対象を完全に理解することを目的としていません。入力を与えて完全に理解することではなく、何かを再構築することが目的です。

しかし、再構築されるのは必ずしも世界全体ではありません。

したがって、シミュレーションの問題は、それが世界に関するすべての情報を含んでいないことです。

たとえば、シミュレーションの最も初期の形式は、ゲームを例にとると、場合によっては実際に一種のシミュレーションです。

シミュレーションの最も初期の形態は、ファミコン（NES）でビデオゲームをプレイすることでした。粗い（ピクセル化された）情報しか得られず、細かいディテールが欠けていました。そのため、シミュレーションの根深い問題は、現実世界に近づこうとしながらも、依然として現実からかけ離れているということです。

スマートカー参考資料：NIOが自社の世界モデルについて説明した際、人間の脳のようなアプローチを用いて、それを2つの部分に分けていました。これは聴衆に分かりやすくするためでしょうか、それともシステム自体が2つの部分に分かれているのでしょうか？

任少慶：皆さんに分かりやすくするために、幅広にカットします。

しかし実際には、これらの作業は完全に分離されているわけではなく、互いに連携しています。本質的には、特定の概念に対処するためのソリューションを見つける必要があります。しかし、実際の実装では、先ほど説明したほど分離されているわけではありません。分離しているのは、理解を容易にするためです。

実際、私たちがそれについて話すとき、復興についての最初の部分は、実際には復興に関するビデオです。

再構成ビデオにはある程度の時間情報も含まれますが、ここで示す例はそれほど長くはありません。

前半部分について語るとき、復興の範囲は非常に狭いと言えるかもしれません。後半部分について語るとき、その長い期間と多くの変化を強調するかもしれませんが、実際には両者は密接に関連しています。

スマートカー参考資料：生成AIにはどの程度注目が集まっているのか？

任少青：素晴らしいと思います。実は最近、たくさんの変化がありました。

では、なぜ私は世界モデルについて話したのでしょうか。そして、なぜ私たちはこの方向に向かっているのでしょうか。

なぜなら、前の話題に戻ると、エンドツーエンドと非エンドツーエンドは、インテリジェント運転の分野で議論されているトピックにすぎないからです。

技術的な観点から、自動運転とロボット工学を大規模言語モデルと統合することは、具体的にはどのように機能するのでしょうか?

インテリジェント車両リファレンス: 世界モデルはあなたが提供したアプローチです。

任少青氏：はい、これは自動運転やロボットにも活用できる、より普遍的なアプローチです。

言語モデルとそれに続くネイティブスケールでも同様のフレームワークが使用されます。

もちろん、実際にはすべてのドメインを統合するという、より根本的なアプローチも採用していますが、これについては後ほど説明します。

インテリジェント車両リファレンス: 規模が大きすぎると、エンジニアリング上の問題が発生するのでしょうか?

任少青：エンジニアリング上の課題はたくさんあるので、これからお話しする世界モデルは、ロボット工学、自動運転、言語モデルといった次の段階の基本的な枠組みに近いものになります。

インテリジェント車両リファレンス: 世界モデルの多変量自己回帰生成構造とは何ですか?

任紹慶：実は、これら 3 つは、皆さんが開発している言語モデルやロボットフレームワークと非常によく似ています。

右から左へ、3つのキーワードがあります。1つ目は生成です。この生成方法には多くの利点があります。データにラベルを付ける必要がなく、学習効率も高くなります。そのため、言語モデルは古くから世代的に利用されてきました。

ロボットはさらに少ないデータしか持っておらず、データを生成することしかできず、ラベル付けすることはできません。ですから、自動運転がこの方向に進むのは問題ありません。

自己回帰は本質的に長期的な問題を解決できるため、長期接触を持つ言語モデルも同様に機能します。自動運転やロボット工学でも、長期的な問題を解決するためにこのアプローチを使用する必要があります。

多様性とは何でしょうか?

多変数入出力は、本質的に複数のデータソースの問題を解決します。将来的には、自動運転はインターネットからのデータを利用するようになり、インターネットはより多くの分野のデータを利用するようになるでしょう。実際、いずれのシステムも同じようなアプローチを採用する必要があるでしょう。

私たちの目標は、これらのフレームワークを使用して、学際的な問題をつなぐことです。

インテリジェント運転の4つの主要な技術要素

スマートカーリファレンス：NAD（NIOインテリジェントドライビング）の現在の反復プロセスでは、所有者のフィードバックも非常に重要なメカニズムですか？

任少青：例えば、モデルを車に搭載し、ある時点でモデルが減速しない場合、運転手が急ブレーキを踏んだら、間違いなく問題が発生します。

それを取り出して、問題がどこにあるのか、そしてモデルを再学習する必要があるかどうかを確認します。

スマートカー参考資料：各社とも都市部におけるNOA（騒音、到着、占有）に取り組んでいますが、最終的な体験は各社によって大きく異なります。これを決定づける要因は何だとお考えですか？

任少青：主な要因は4つあります。

1 つ目はモデル、2 つ目はデータ、3 つ目は最適化です。モデルには常に問題があり、問題が発生した後、他の方法、または最適化ベースの方法を使用して相乗効果を実現する方法です。

4つ目は、機能の数です。機能はいくつありますか？これは実際には前の3つに基づいていますが、完全に関連しているわけではありません。

したがって、モデルの観点こそが、今回お話しする内容の核心なのです。

実際には各社はそれぞれ異なり、モデルの観点から見ると、各社間にはかなりの違いがあります。

2つ目の視点はデータです。データの量と収集頻度です。自動車メーカーは実はこの分野で優位性を持っています。

データの変更により、自動車メーカーはこれらのサプライヤーに比べて有利な立場にあります。

私たちにとって、 NIO のクローズドループデータシステムはおそらく世界最高のものです。

3つ目のポイントは、モデルの出力にも問題がある可能性があるということです。では、これらの問題をどのように処理すれば、結果を良くしたり悪くしたりできるのでしょうか？

效果好，其实有两点，第一点是说不要误杀它的结果。

第二个是，如果不是误杀了模型的结果，模型做得不好的时候相对来说更丝滑：

不要出现这个模型前半段这么开的，后半段不是了，后半段输出的轨迹不平缓。

比如说，系统突然打方向盘，虽然做对了没撞墙，那对用户来说肯定也不好，明显有段落感，体验不好。

第四个就是说基于以上有什么新的功能。

从功能的角度，从用户体验的角度来说，能不能做得更好。

这就包括用户的监控，跟用户的交互，那往后的点到点、L3要做得怎么样。

まとめると、技術が一定のレベルに到達できるかどうかが非常に重要です。

因为某种程度上来说，模型数据根本上是为了提高效率，这是第一点。

第二个是提升上限，但是实际上它并不能保证它的下限一定在提高，它有可能下限在下降。

所以后面包括融合模型和优化方法，实际上就要保证下限能提回去或者提得更高，同时又不降低效率。

第四个就是前面都有了，需要让用户用得爽，需要让用户有更多的功能，因为前面这些都不涉及功能。

智能车参考：你自己现在会坐其他的车吗？

你主要关注一些什么？

任少卿：我觉得分短期、长期吧。

从蔚来自己的价值体系，我一直说解放精力、减少事故，说白了实际上第一个就是让用户用得更舒心，用得时间更长，第二个就是更安全。

如果我们从这两个角度来说，回溯前面十年自动驾驶的发展，从解放精力的角度来说，功能从ACC变成了LCC，变成了高速领航，再到现在做城区领航。

前面三个实际上都是相当于走完了1到N的阶段，基本上已经很成熟。

城区NOA从去年到今年可能早一些时候，走完了0 到1 的，还要走1 到n 的。1 到n 当然需要一些时间，差不多要一年，就能比较成熟。但是这个是说已有的。

那下面从实际解放精力的角度，这个角度肯定还有新的0到1出现。

不是说前面的1 到n做完了，才做下面的0 到1 。比如说城区的，0到1，开始的时候高速还没有完全成熟，其实还有再下一个节点。

现在大家会说，我在城区里面覆盖更多的场景，比如做点到点；同时也会做L3，就是说让人解放得更多，因为我们最终都是要解放精力。做点到点的意思是说能覆盖的范围更大，覆盖的用户时间更多。

那做L3 ，或者说脱手脱眼的这个功能的话，实际上就在原来已有的范围之内，能让解放的比例更高。

从减少事故的角度来说，主要是主动安全，一直在进步，覆盖的场景在变多。

但是我们觉得这个还不是特别够。

它相当于从大的层面上，比如说真实世界是张饼，原来只是饼的左边有两粒芝麻，我现在希望拿这个芝麻撒饼，差不多都能覆盖到。

我最终还是希望主动安全能做到真正减少事故。

但从个体的角度来说，这件事情的不确定性很大。

因为可能今天剐蹭明天没剐蹭，这个是有一些偶然因素的，但从群体的角度来说，所有的车主的车，今年产生一共多少次事故？

我们希望说，从今年开始，每年能实质性地往下走10%-20% 。

对于个人用户来说可能没有这么明显，但从一个群体的角度来说，进展会非常明显。

实际上我们发现高速上开辅助驾驶的安全性，已经是不开辅助驾驶的六点几倍了。

但是因为我们最终的目标是解决全量车主在所有时间，不管在什么状态下，实际上的事故总量的减少。

如果要做这件事情，实际上辅助驾驶在这里面的比例还是比较低的。更大的比例是人驾的状态。就是需要减少人驾状态的事故。有提醒有刹车，能真正降低全量事故的比例。

所以我们为什么先做端到端的AEB。

是因为我们发现全量事故里面将近30%左右的场景，是因为一辆车正在开，尤其是国内过路口的时候，一辆电瓶车从各种角度过来，行人从不同角度过来，更多的是这样。

那原来的AEB功能，更多的是一辆车，如果是完全垂向接近的时候能刹车，当它带点角度的时候，成功率就会下降很多。

写规则搞不定这事，所以为什么上端到端去搞这些事？实际上我们希望这种场景先往下降，后面我们也会去上针对于通用障碍物更强的主动安全功能。

智能车参考：实际上还是整体系统基础的技术能力不断地在提升？

任少卿：瞄的目标也不一样。

其实大家之前做的主动安全绝大多数的厂商包括供应商都是，做主端安全的目标是拿到5星，就是拿到比如说E-NCAP、 C-NCAP的4 星或5 星成绩，这是大家最主要的目标。

最近也多了一些评测机构又搞了一些新型的评测。大家可能也想拿个高分。

但是我们在这个基础之上，更希望去做的是，能实质性地减少事故数。

NIOIN也说了，我们统计下来的数字，如果只是做这些标准场景的AEB，实际上在真实场景里面可能只能搞定10% 。

因为实际上AEB 即使触发，也不是100%能完全停下来。

只做法规清单的这些要求，可能最高才能解决10%的场景。但如果要再考虑一下有没有响应、有没有刹停，比例肯定会到一个比较低的个位数。那还剩95% 以上的场景怎么解决呢？

L2+向L4升维

智能车参考：L2+能通过端到端，堆数据、算力、传感器，向L3和L4跃迁吗？

任少卿：我觉得实际上分开看， L4 是什么，如果说L4是Robotaxi，让车自己，或者让私家车自己出去拉货或者拉人，我觉得反正不太现实。

技术上可能某年某月能实现，但这件事情从社会的意义上也没那么大。

本身交通运营中有人在这里面去提供服务去赚钱，这事挺好。

那私家车都去干这个事，然后呢？你怎么去平衡这些关系？所有的私家车如果都没事就上街溜，那我觉得这路就没法开了。

这根本是一件我觉得很莫名其妙的事。

智能车参考：你质疑这个底层的逻辑，或者它的社会价值。

任少卿：我是有疑问的。

很简单，现在不要说所有的私家车了，有一半的私家车上路，这路就不用动了。

智能车参考：那未来Robotaxi随叫随到了，大家都不买车了，可能吗？

任少卿：不可能。

这个事情其实我几年前就想明白。

我买车之前也是这么觉得的。那时候我天天打车，但是实际上因为用打车软件，比较好算。到了年底，算一下你今年花了多少钱？肯定没有养车贵，所以我觉得好像不需要养辆车。

但是当我自己真的买车后，我觉得还是不一样。因为我觉得网约车只能产生一个，比公交车，比地铁可能更深化一些的出行手段。

但是有车是加大了你可到达的范围。但是网约车是不解决这个问题的。自己有车之后，可能周末出去的空间范围就会更大。

智能车参考：从技术上讲，一辆车有一个虚拟的司机，任何时候、任何场景能自己去开，现在已经能够实现了吗？

任少卿：那个定义实际上叫L5 。

你看现在没有人提L5，因为本质上说L3，是在某些限定场景，有一个虚拟司机——其实都不算司机，因为系统可能会叫你立刻回去接管。

那L4是说在一些固定的场景，一些点到点，系统能开车。

刚才说的实际上是需要一个完全私家司机，他能去应对任何场景，这个叫L5，现在大家提都不提，因为它比较远。

智能车参考：“比较远”的原因你觉得是什么？

任少卿：我觉得是各种各样的场景，还比较复杂。

L5更接近一个通用人工智能，同时我觉得需要解决各种各样的复杂场景的corner case，随着技术进步慢慢弄。

对于价值点上来说，我觉得如果要实现L5并不只是一个技术上的问题。

因为如果有一个L5 的话，我认为可能城市都会因此发生变化。

我举个例子，如果真的有一个L5 的车，我为什么还要住在城市里呢？

我希望下了班之后就上车，我上车该干嘛干嘛，该洗澡洗澡，该开会开会，该睡觉睡觉，该吃饭吃饭，然后我想下车的时候他就在一个风景很好的地方。比如说我晚上干完活，想出去溜达的时候，已经在山里的湖边了。

我为什么要住在城区里呢？

如果是L5出现，整个社会都会改变，它已经不是单纯的一个技术方式。

智能车参考：L5级自动驾驶相对来讲，是更终极的目标，但为什么从业者又不把它当做一个目标？

任少卿：我觉得没有说不能把它当成一个目标，只是大家觉得这个事还比较远。

如果从长期的角度，我觉得它总有一天会实现。只是说现在从商业，从技术角度来说大家并不是说，我今天就是瞄了这个事，然后我就不干别的了。

因为从量产的角度，从赚钱的角度来说，单独商业模式的角度L2、L3、 L4 都是成立的。那就相当于心理路径上，你有一个点在那，就先做这个。

智能车参考：有人说，自动驾驶分有人和无人这两条路，会越分越开。你认同吗？

任少卿：没有，因为我觉得他们说这是两条路，没看到是两条路，现在做L5又是什么路呢？

现在不还是用同样的逻辑在做？

智能车参考：就比如说我们做有人的这个智能辅助驾驶，根本上还是为了辅助人，所以最后一定有个车主作为兜底，或者车主作为最后的一道把关。

而做无人的，他从系统设计开始，到整个过程和结束，他就一定是要把人的因素给剔除出去的。所以可能会导致这两个，大家最后设计的时候，一个是面向了舒适，一个是面向了车主的体验，一个是面向了安全，就是我绝对不能任何情况下我都不保证说是这个人要去接管的。

任少卿：我觉得宏观上可以这么说，但是这个事情如果我们这么说，其实就很难得到一个结论，还是要拆到微观上到底有多少东西是不一样。

那主要从现在这个技术，我觉得不一样的东西没有这么多。或者又不是说主要的部分是不一样的，主要的部分反而是相对比较像，这个是问题。

智能车参考：所以你觉得这些要素的构成，没有长出两个不同的东西。

任少卿：它当然有不同，但是你要看它的比例，它的比例上这个绝大多数是比较类似的东西。

激光雷达装不装，看成本考量

智能车参考：有激光雷达的融合感知，和纯视觉路线，你是怎么看的？

任少卿：本质上智能驾驶是一个冗余的系统，这套系统设计上，你愿意为冗余花多少代价。

智能车参考：用不用激光雷达，你觉得是技术问题还是还是成本问题？

任少卿：我觉得就是从成本和落地，如果今天激光雷达一个50万美金，那可能Robotaxi也不会上。如果今天激光雷达，还是一个1万美金，那量产车也不会上，那就是因为它今天便宜了，那量产车也上了。

智能车参考：多一个传感器的信息，会不会加大处理数据的难度？

任少卿：比如说我们拿医疗举例子，那为啥不拿一个摄像头去盯人看CT？为啥非得搞个CT 出来。

同样的逻辑，本质上就是说产出和你的投入能不能算得过来。

其实某种程度上，如果我们估计激光雷达的性能不变的话，投入就是越来越低。

特斯拉决定现在这套传感器的时候，应该已经在10 年到15 年之前，那时候不可能(用激光雷达)。如果我换到马斯克的位置上，我都已经产了100 万、 200 万辆车，现在上个激光雷达，我前面的车怎么办。

智能车参考：所以你觉得，从商业的那个维度上，马斯克必须要一条路走到底？

任少卿：他没有办法，他怎么选择呢？比如说即使他今天觉得激光雷达好，同时现在激光雷达便宜了，原来可能觉得原来激光雷达很贵，那我不上。

那现在便宜了，如果说激光雷达就是200 块钱，他依然会面临问题，他上还是不上，就虽然他从ROI的角度来说他已经完全能算得过来了，但是问题是说他上了之后，他前面的车怎么办，以及整体的用户口碑怎么办。

智能车参考：如果说一开始就确定了激光雷达的冗余方案，现在又要把激光雷达拿掉，用视觉的方案，它在技术上有什么不一样？

任少卿：技术上完全是一样的。

因为现在模型很多都是一体化的。

原来是训练数据是摄像头、激光雷达都进去，出来结果。现在把激光雷达结束，代码上改了，就这么简单。

智能车参考：所以，现在用激光雷达还是用户的一个心智问题？

任少卿：这其实是个成本的问题，就是斌哥说的那句我们其实越来越认同。就是一个气囊，你多装几个，有的车装10 个，有的车装18 个，那你装几个？

你当然是便宜的车，你装18 个，这可能不太现实，那你贵的车多装点。

这跟这个大家在车上的抗扭刚度，你用的这个材料，比如说防撞梁的厚度其实都类似，对吧？就是相当于说大家都知道安全好，那我这个加得多好，但是问题是你怎么平衡你的成本和收益？

原来可能十年前，奔驰的S级上也有激光雷达的，只是说一个激光雷达可能要十几万，对吧？那它就不是一个民用车的配置。

只是说现在它越来越便宜了，所以你越来越多的车有，但是它毕竟还没便宜到说一个3万块钱的车也能装的成本，所以它自然就是有的车有的车没有罢了。

智能车参考：抛开成本的角度，去讲技术的体验，有激光雷达和纯视觉的方式，不同方式间你觉得现在差别大吗？

任少卿：我们很难去定义大与小这个事嘛。就是说怎么说大与小？

比如说一个30 万车的座椅和20 万车的座椅大还是小？差异大还是小？我真的没办法回答这个问题，那有些人觉得说那我就是想买更好的，那你就去买更好。

那有人觉得说，还是需要，相对来说性价比更高一点，或者相对来说这个价格更低一些。

智能车参考：就是个人选择和厂商选择的问题，因为选择，所以相信？

任少卿：是，因为本质上这个事情就客观存在。

比如说十几万的车，你现在市场上没有哪家有激光雷达的，对吧？

那50 万以上的新车可能就全都有，就是这么一个现实的情况，对吧？

那这个我们说它是好是坏，这些东西我觉得没有意义。

智能车参考：纯视觉信号更纯粹，产出的结果会不会更丝滑一些？

任少卿：只能说它的系统更简单。那你当然是说你的东西少，你就更简单了。

那跟造车一样，你说有的车，上面这个密密麻麻装20 个麦克风，跟装两个麦克风，哪个系统更简单？一定是装两个麦克风的系统更简单，这不废话嘛。

一定是装20 个麦克风，还想把它的性能发挥出来，要更麻烦，比如蔚来车上装了7.1.4沉浸声音响，那一开始上线的时候硬件是装上去了，没有音源，那还得去搞音源，那么又花一堆时间搞音源。

那当然复杂了。

那你如果不装这玩意，那你就随便该用什么放用什么放呗。

其实是类似的逻辑，你说激光雷达和摄像头进去了，你必然这个系统并不是完全对齐的，那你需要有更复杂的软件，去解决这个问题。

人也是一样啊，我前两天看那个关于人脑的书，就是我们的脑耳朵和眼睛的延时是不一样，那你的大脑也需要去处理这个问题，就是耳朵是更快，眼睛是更慢，但是我们平时完全感觉不到这件事情是因为大脑去做了这个处理。

但是在某些场景上，某些场景下它是有区别的，比如说就是短跑发令的时候，都是用枪，不是用光，对吧？但是我们说你光的传递速度一定比枪快、比声音快，你为啥不用光呢？是因为他脑子里面光传得更慢，就视觉信号传得更慢。

智能车参考：所以你不会面临这样的挑战或者是质疑：

你们不用纯视觉，所以技术没有用纯视觉的好？

任少卿：乐道就是纯视觉，更多的我们不认为说它是一个技术的原因，而是因为它就是产品定义的问题，那你需要让用户用一个合理的价格去买到一个对它来说性价比更高的事情，所以为什么说我们乐道用纯视觉？因为我们希望它的价格更便宜，对吧？所以我们就是说需要在这方面去降本。

智能车参考：有算力成本下降的原因吗？即芯片的算力成本，下降的速度比激光雷达要更快，所以可以用更大的算力去承载视觉方案。

任少卿：会有一个取舍。

比如你如果说在一个方案上你都想往下降3, 000 块钱，那你到底是砍激光雷达，还是别的传感器，或者砍芯片？

你当然都是会有这样的一个平衡。比如说我们乐道的方案，其实我们就会面临，如果我把激光雷达加上去，可能要把芯片做得更小，对吧？

那我们从系统上的评估来说，我可能还是维持这个单orin的芯片，然后把激光雷达去了，然后再加一个我们自己定制的毫米波雷达，自己定制的比这个传统的毫米波雷达稍微好一些，但是实际上就是原来可能前两年的市面上的一般的毫米波雷达是要更便宜，性能我们通过前融合的方式去提高。那最终产生一个，这样的一个bom成本下，那最好的体验。

智能车参考：假设你有朋友要买车，然后他最看重智驾能力，一个车有激光雷达比如蔚来，一个没有激光雷达比如乐道，你的建议是什么？

任少卿：看你愿意出多少钱，就很简单，就是有钱就上蔚来。

本质上我觉得这个事情很难给消费者建议，因为大家的预算都是根据自己的实际情况来，对吧？

对于消费者来说，你多5万块钱，那对于这样一个20 万的车还是一个不小的差别，所以我觉得大家还是按照自己的预算来就好。

我们其实要做的就相当于说在同样的价钱上，把体验的性价比做的更高，比如说乐道L60，这样一个车，20万块钱左右。

然后空间大，还能换电，同时这个自动驾驶也能去开城区NOA。那我们就说这样的一个功能和这样的一个价格，它是性价比更高了。

智能车参考：乐道和蔚来不会说因为价钱的不同，所以智驾体验就要低一些？

任少卿：智能驾驶这个能力，我们肯定是说每一个平台，我肯定都希望说在它的硬件基础上做到最好，但是我们本身应该怎么做，它本身有硬件的差距，这个大家也得客观承认。有的多花钱，有的少花钱。

L3是自动驾驶的iPhone 4时刻吗？

智能车参考：:你觉得我们智能驾驶有ChatGPT或者说iPhone时刻吗？有这种可以期待的节点吗？

任少卿：我觉得其实之前也有挺多节点，比如说你可能回到两三年前，大家觉得说中国的这个城区NOA能推得这么快吗？好像也不太可能，也没想到过，对吧？

高速NOA现在这么成熟，如果回到五年前也没想到过。

所以我觉得它有一个里程碑级别的特别具体的点。

比如说我们刚才回忆说，第一次高速NOA或者说城区NOA第一次开通，那其实如果回想起来也是很重要的时间点，只是说，可能增量也会更多一些。

后面可能等到哪一天正式L3 量产了，那也是一个（里程碑）。甚至说我觉得十年之后回忆，比如说百度robotaxi出圈，那可能现在这个时间点也是一个。

智能车参考：站在未来，现在我们很难去定义一个时刻？

任少卿：这么想嘛，就是说iPhone 4 发布的时候，谁能想到iPhone从iPhone 4 之后就，越来越不行了，从变革的角度看的话，对吧？谁能想到说iPhone 4 是最大的一代变革？我当年买iPhone4的时候，没觉得是这样。

智能车参考：所以是不是意味着比如说L3，大概可能是自动驾驶的iPhone 4时刻？

任少卿：不知道。

我觉得这只能说，本质上如果之后自动驾驶发展，确实越来越慢了，那就是这样。

但如果之后越来越快了，可能又蹦出来一次（iPhone 4时刻）。

那你站在iPhone 3 的时候，你怎么知道后面有没有出现iPhone 4？

还是说另外一个平行时空iPhone 3是个顶峰，然后后面就越来越慢了。

因为这个东西确认的不是你自己做的好与坏，而是后面的人，后面的是给你个评价，对吧？

后面做的这些哥们儿，他是不是比你厉害？

如果这些哥们儿实际上都没你厉害，那你就最强了，对吧？那你没法预测，因为这是后人的事情。

智能车参考：说我们为什么一定要做L3？

任少卿：:没啥，我觉得对于辅助驾驶你需要一个更强的使用，是对于用户的解放。

对于用户的价值也很清楚，就是说对女生来说，那我能不能上车化个妆？

对男人来说，那我想要说能不能上车打局游戏，就这么简单的事，那就怎么满足用户吧。

智能车参考：所以L3相对来讲，是你们内部比较明确的一个实现目标？

任少卿：肯定是需要，但它叫什么都行。我只是说L3 其实不是我们内部常规的叫法。

我们内部是不拿这些东西说概念的，就是说你能不能让用户去打电话，让用户上车开播，让用户上周打游戏，对吧？类似这样的。那再下一个是能不能让用户上车睡觉。

但我们从来我们不打算做让用户上车睡觉的事，觉得离我们比较远。

所以现在可能考虑，下一个阶段让用户上车吃个饭，上车打个游戏。

智能车参考：每一个任务都有这种场景性的定义。

任少卿：对，因为你说不定你到底给用户产生了啥价值。对toc产品公司来说，你一定是要给用户产生一个具体的价值。

否则说你就跟用户说这个多好，但是到底能让他干啥，说不清楚，没意义。

回应李斌“灵魂之问”时，在回应什么？

智能车参考：你回答斌哥的灵魂之问，认为蔚来绝对是智驾第一梯队。你的依据是什么？

你怎么去判断这个梯队？

任少卿：我觉得每个人的定义不一样，我也不知道啥叫第一梯队，只在我的这个印象中，或者在我的这个逻辑里面，那现在你就要做几件事：

第一个是说城区能开，因为这是0-1 的阶段，对吧？

其实大家能看到，0-1一个阶段完成，然后剩下的城区实际上就是进入优化的阶段，那优化其实每家可能有些优化多一点，那个点优化少一点，我觉得这个也属于比较焦灼，然后不是一个特别具体的阶段。

大家说的现在关心的比较多的端到端模型化的事，但是我觉得这都是属于更偏底层的事，那更偏上层的事，那这个说点到点，然后那其实我们现在说了应该也可以很快适配。

然后这个L3、L4，其实都没上车，但是我们入选了L3的第一批试点。

然后这个L4我们不算L4，我们不叫它L4，但是从用户的角度来说是可以让你下车的，这应该后面也会上，就换电站，离车的换电，实际上从技术手段上来说它不是个L4，但是从用户体验上是。从这个减少精力的角度来说，从减少事故的角度来说，我觉得那我们其实265算是一个比较大的版本

因为我们的最终目的就是要减少事故，我们265因为现在时间还比较短，大概发出去两周，我们实际上从265 的版本的报案数据已经明显比260 要少，是一个能看到的比例，我觉得在这个点上实际上我们是走上了一个更正确的道路，就不要老是贴小视频说我到底有多强。

因为每家都能贴出来小视频。其实说真的就每家都能贴出来，但这个事更多的还是一个营销手段。

我觉得还是希望从技术角度来说，希望说我们确实真正地减少事故，这个事情是确定的，同样能证明的事。

你像斌哥说的，中国现在一年可能因为交通事故死亡几万人，这个是我们主动安全要做的。

其实我们也在跟一些部委在考虑一些其他的方式，那么进一步减少事故。

我觉得这些东西本质上回归价值，回归用户体验，对吧？

那我觉得在这些点上其实我们都是某种程度从已有的东西上有，那从远期的东西上我们觉得思考得可能更全面一些，就逐渐给大家交付。

智能车参考：所以归根结底，城区NOA，能不能开，是检验能力比较核心的一个标准？

任少卿:只是一个标准，我觉得反正也不能说是核心的标准，只是一个标准。

剩下就刚才说的这个模型能力，然后以及之后的这个新的价值体现，新的这些价值体现可能就更偏创造性一些，前面的这些就是开城的，这就更偏一个既有的东西。

模型这一块更偏于底层的，然后新的这些功能就更偏向价值怎么创造。

所以反正三个方面放一起看，一个是过去，或者对于头部就是过去，那对于模型这一块可能就是最近。

那后面这些可能就是将来，当然它也可能也不会特别长。逐步地，短到中期，再到长期。

智能车参考：把用户驾驶的个性化习惯和体验，加进去，是不是更符合智能驾驶的体验？。任少卿：对，那其实最终是刚才说的第四个部分，功能。

怎么做得更好？

我觉得也确实我们需要去进一步提高效率，比如说之前在交互上好一些，但是上次说的这些可能还是有一些缺失，就比如说我们265版本上给旁边车让主驾位的，那这个可能就不同的用户就很不一样的反馈，所以他这个后面版本可能也需要进一步地去能让用户更多的选择吧。

有的就觉得说我给主驾让出来，我自己可能下车位置小一些，可以接受，挺好。那有的用户就觉得说这就挺偏了。

智能车参考：所以智驾做到真正的因人而异，对齐AI助手，更个性化还是有差距的。

任少卿：:对，反正就是可能大家都会面临的问题，第一个说机器能搞定，然后要对齐人类的预期，后面可能还要千人千面。所以就是我觉得千人千面这个现在都还是一个比较高的要求了，都还做不到。

自動運転とロボット工学

智能车参考：现在好多机器人创业公司，说要打通虚拟世界跟物理世界，和打通不同领域有什么不一样？

任少青：それは別のエンジニアリングモデルです。

我说打通不同领域，就是说打通不同应用。就比如说自动驾驶和机器人和大语言模型这些东西的融合，就他得彻底用同样一套框架去作用。

因为这里面其实有个最根本的，就是机器人这玩意，为啥之前做不动，以及现在还有啥问题？

最终其实大家很容易理解，实际上自动驾驶是一个特殊的机器，这是第一层，第二层的话是自动驾驶是所有机器人应用里面最大的一个应用之一。啥意思呢？就是说机器人的应用非常的复杂。

那自动驾驶是里面价值最大的，其实大家发现说之前的自动驾驶，或者直到现在自动驾驶，为了做它的这个研发成本是非常非常高，对吧？

那如果机器人用跟现在的自动驾驶同样一代技术栈去做，没有任何一个机器人的应用能撑得起来这个投入。

这是原来做不了的原因，是因为投不起。

如果说做自动驾驶，因为它前期的商业场景很大，所以比如说一个自动驾驶公司一年烧10个亿人民币，那一个机器人公司能做到吗？他做不了。

但是我们就认为说你长期再往后走，那自动驾驶也是个泛机器人领域，所以那能不能用同样一套框架，用更高的这个可共享度，然后用更低的成本去用同样一套框架做所有的机器人，就泛机器人能力这个事情。我们觉得一定是能做的。

那只是说要找到相应的技术的这个方式，本质上前面说的这些世界模型，我们觉得自己的框架他也能去做机器人。

智能车参考：暗示蔚来也能做机器人？

任少卿：主要是我觉得从技术的维度上来说，这件事情它一定是这么个搞法实现的。

否则的话那机器人怎么办，对吧？

就是两种方式，第一个机器人别做了，第二个机器人探索出来一套它统一的框架。那如果机器人探索出来它统一的框架，它一定能回来做自动驾驶。因为它本身就很像。但是从这个角度来说，因为这些方式肯定都是要用大量的数据的。

自動運転でははるかに大量のデータが関係するため、このように完全に理解されたフレームワークが開発される可能性が高くなります。

当机器人觉得还是要分三层，我们有很多事情没讲，我们认为它实际上有三层的能力，第一层能力叫做概念认知，第二层叫时空认知，第三层叫做运动的，或者说叫交互。

第一层就是说概念认知实际上就是大于模型解读。第二层时空认知的话就是刚才我们说的这些。

第三层说这个运动能力实际上某种程度上看，就是怎么去控制轮子，怎么去控制腿，怎么去用只手，或者怎么去拿一个工具出来，拿个小刀去把它用起来。三个东西简化一下，把这个分开，但是也有融在一起做，但是通用来说这个第二层的这个能力，就是这个时空认知的这个能力是一个很通用的能力。

智能车参考：如何看待这几年整个产业的变化？

任少卿：其实我觉得在整个产业上，你从技术的角度来说，自动驾驶前面几年技术都没什么特别大的变化，最近这半年一年倒是变化挺大。

很多的变化也不来自自动驾驶领域，来自于我们前面说的这些其他领域的东西。

智能车参考：可能最后还是会追求变成一个通用的模型，打造一个像人一样的这种智能体？

任少卿：是这样的。剩下的问题是怎么把它打造出来。做机器人这些公司也挺好玩。

反正这些东西，现在都是相互交互越来越多，我觉得做智能驾驶也不能只关注智能驾驶。

618ZXW