|
データホエール 編集者のおすすめ: Datawhale が推奨します。 以下の記事は、Founder Park が執筆した Founder Park からのものです。 [ 創設者のパーク。 GeekPark から、テクノロジー起業家と「実際の問題」について議論することに焦点を当てます。 ](#) 2024年雲奇カンファレンスでは、Jieyue Xingchen創業者の江大新氏、Kimi創業者の楊志林氏、Shengshu Technology主任科学者の朱軍氏、GeekPark創業者の張鵬氏が、AI技術開発の現状を自らの目で見て議論し、今後18か月間の大型模型業界で何が起こるかを予測しました。 この円卓討論では、以下の点に焦点が当てられました。
情報量が多いため、現地での記録を以下のようにまとめました。 01AIは急速に発展しています。張鵬:OpenAIがリリースされてからほぼ2年が経ち、この2年間でAIに関する世界的な議論が巻き起こりました。皆さんは起業家として大規模モデルの構築に携わってきましたが、このことについてどのような感想をお持ちですか? 私たちは「試合を観戦」しているのに対し、皆さんは「試合をプレー」しているので、体験は大きく異なるかもしれません。過去18ヶ月間でAI技術の発展は鈍化しましたか? 江大新:過去 18 か月間で加速が見られ、そのペースは非常に速かったと思います。 過去 18 か月間に発生した大小さまざまな AI イベントを、量と質という 2 つの側面から見ることができます。 量的に言えば、新しいモデル、新しい製品、そして新しいアプリケーションがほぼ毎月登場しています。モデルだけで言えば、OpenAIは2月にSoraをリリースし、春節期間中に爆発的な人気を博しました。その後、5月にはGPT-4o、そして先週はo1をリリースしました。OpenAIの長年のライバルであるAnthropicは、Claude 3シリーズと3.5シリーズに加え、GoogleのGeminiシリーズ、Groq、Llama…をリリースしています。 昨年はGPT-4が官能評価において圧倒的なリーダーでしたが、今年は熾烈な競争となり、誰もが覇権を争う状況となっています。そのため、各社とも取り組みを加速させています。 品質の観点から、私が非常に感銘を受けた点は 3 つあると思います。 まず、GPT-4oはマルチモーダル融合の分野における新たな前進を象徴しています。これまで、GPT-4vのような画像理解モデル、DALL-EやSoraのような画像生成モデル、WhisperやVoice Engineのような音声モデルが存在していました。GPT-4oは、これまで分離されていたこれらのモデルの機能を統合します。 なぜ融合がそれほど重要なのでしょうか?それは、私たちの物理世界がマルチモーダルであり、マルチモーダル融合によって物理世界をより適切にモデル化し、より適切にシミュレートできるからです。 第二に、テスラのFSD v12があります。これは、知覚信号を制御シーケンスに直接変換する大規模なエンドツーエンドモデルです。自動運転は、デジタル世界から物理世界へと移行する現実世界のアプリケーションシナリオとして、非常に代表的な例だと思います。FSD v12の成功の意義は、自動運転そのものだけでなく、この方法論が将来のインテリジェントデバイスが大規模モデルと統合し、物理世界をより深く探索するための道筋を示している点にあります。 第三に、先週のO1では、言語モデルが人間のようなゆっくりとした思考、つまりシステム2*の能力を発揮できることが初めて証明されました。私たちは常に、AGIの進化は世界のシミュレーション、世界の探索、そして世界の帰納的適用という3つの段階に分けられると信じてきました。システム2の能力は、世界の帰納的適用の前提条件です。 注: システム1とシステム2は「Thinking, Fast and Slow」に由来しています。システム1は高速で無意識的な思考、システム2は意識的でゆっくりとした思考を指します。 ここ数ヶ月、GPT-4o、FSD v12、o1はいずれもこれら3つの分野で大きな進歩を遂げ、将来の開発への道筋を示しました。したがって、これらの成果は量的にも質的にも目覚ましいものだと思います。 張鵬:期待していた分野で、大きな進歩と躍進が見られたようですね。Zhilinさんとの仕事はいかがですか?本当に関わっている人たちは、私たちのようにただ「傍観者」になっている人たちとは違う視点を持っているのかもしれませんね。 楊志林:私も、全体的な発展は加速的な発展段階にあると考えています。AI発展の核心は2つの側面から見ることができます。 どちらの側面でも、目覚ましい進歩を遂げてきました。特に数学のコンテストでは、昨年は全く力不足でしたが、今年は90点以上を獲得しています。コーディングも同様で、今では多くのプロのプログラマーに勝てるようになりました。これにより、自然言語で直接コードを記述できる人気のCursorなど、多くの新しいアプリケーション開発の機会が生まれました。このようなソフトウェアは、今後ますます普及していくでしょう。 現在の言語モデルがサポートできるコンテキスト長など、多くの具体的な技術的指標は大きく変化しました。昨年は、ほとんどのモデルが4~8Kのコンテキスト長しかサポートできませんでした。しかし現在では、4~8Kは非常に低い値とみなされ、128Kが標準となり、多くのモデルが1M、あるいは10Mのコンテキスト長をサポートできるようになりました。これは、知能の継続的な向上にとって重要な基盤となります。 近年の進歩の多くは、スケーリングだけではありません。進歩の多くは、学習後のアルゴリズムの最適化とデータの最適化によってもたらされています。これらの最適化は実際にはサイクルが短く、AI開発全体のペースを加速させています。 水平方向でも多くの新たなブレークスルーがありました。Soraはおそらく最も影響力があり、動画生成を実現しました。最近では、一枚の紙に基づいて、実際の会話と区別がつかないポッドキャストの対話を直接生成する機能など、多くの新しい製品や技術が登場しています。今後、同様の変換、インタラクション、そして異なるモダリティ間の生成がますます洗練されていくでしょう。つまり、全体的なプロセスは加速していると思います。 張鵬:これらの技術は依然として急速に発展していると感じています。スーパーアプリの誕生には至っていないかもしれませんが、スーパーアプリという視点を脇に置いて技術そのものに目を向ければ、真の進歩が見えてきます。こちらの方がより合理的で客観的な視点と言えるかもしれません。朱軍教授、この18ヶ月をどのように総括されますか?AGI技術はどのような発展を遂げてきたとお考えですか? 朱軍:実は、AGIで最も注目を集めているのは大規模モデルです。昨年から今年にかけて、大規模モデルには多くの重要な変化が起こり、全体的な進歩が加速していることに強く同意します。さらに、大規模モデルの問題解決速度も向上し、学習曲線も急峻になっています。 大規模言語モデルは2018年から6年間にわたり進化を遂げてきました。マルチモーダルモデルに関する議論は昨年後半から始まり、わずか半年後の今年初めには、大規模マルチモーダルモデルの時空間的一貫性は既に誰もが驚くような成果を上げていました。この加速の核心は、発展の道筋に関する皆の理解と準備が比較的高いレベルに達したことにあります。 さらに、クラウドインフラやコンピューティングリソースといった物理的な環境整備も加速しています。ChatGPTが登場した当初は、多くの人が戸惑い、受け入れる準備ができていなかったため、学習と習得に長い時間を費やしました。しかし、一度受け入れて使いこなせるようになり、新たな課題に取り組むようになると、その開発スピードはますます加速しています。 もちろん、これらの能力が実際のユーザーに届くまでのスピードは様々であり、業界によっても異なります。大局的に見ると、能力の進歩は実感しにくいかもしれませんが、技術的には進歩のカーブはますます急峻になっています。私は高度なAGIの開発に非常に楽観的であり、開発のペースは加速していくと考えています。 02o1 は AI の基準を引き上げました。それは新しいパラダイムをもたらした張鵬:外部からは「なぜAGIの開発は減速しているのか」という声が上がっていますが、お三方は「これ以上何を望むんだ?」と反論しているようです。過去18カ月の開発プロセスは、すでに私たち全員を驚かせています。 OpenAIの新しいモデル「o1」は専門家に大きな影響を与え、今もなお多くの議論の的となっています。まずはDaxinさん、o1についてどうお考えですか?多くの人が、o1をAGI(自動誘導インタラクション)開発における大きな進歩と捉えています。この進歩をどのように理解すべきでしょうか? 江大新:確かに意見の相違はあります。O1は非常に重要だと考える人もいれば、O1は大したことないと考える人もいます。O1の第一印象は、その推論能力が本当に素晴らしいということでした。私たち自身も多くのクエリを試してみましたが、その推論能力はまさに新たなレベルに到達していると感じました。 そこにはどんな意味があるのでしょうか?2つの点が考えられます。 まず、 O1はLLMが人間の脳のようにスローシンキング、つまりシステム2の能力を実際に実行できることを初めて証明しました。これまでGPTのトレーニングパラダイムは「次のトークンを予測する」というものでした。これにより、GPTはシステム1の能力しか持たないと決めつけられていました。しかし、O1は強化学習という新しいトレーニングフレームワークを使用することで、システム2の能力も持ち込みました。システム1は線形思考です。GPT-4は複雑な問題を多くのステップに分解し、段階的に解決していきますが、それでも線形思考です。システム2とシステム1の最大の違いは、システム2は様々な経路を探索し、自らを振り返り、自身の誤りを修正し、正しいアプローチを見つけるまで試行錯誤を繰り返すことができる点です。 今回、O1は従来の模倣学習と強化学習を組み合わせ、人間の脳におけるシステム1とシステム2の両方の能力をモデルに持たせています。この点において、その意義は非常に大きいと考えています。 第二に、それはスケーリング則に新たな方向性をもたらした。o1が答えようとした問いの一つは、「強化学習は具体的にどのように一般化するのか?」であった。o1は強化学習に取り組んだ最初の企業ではない。DeepMindはAlphaGo、AlphaFold、そしてAlphaGeometryへと、この道を追求してきた。DeepMindは強化学習に非常に長けているが、以前はこれらの手法は特定のシナリオ向けに設計されていた。AlphaGoは囲碁しか打てず、AlphaFoldはタンパク質構造の予測しかできなかった。o1の意義は、強化学習の一般化と汎用性を大幅に向上させたことにある。 さらに、o1はすでに非常に大規模なスケールを実現しており、スケーリング技術における新たなパラダイム、いわゆるRLスケーリングをもたらしたと私は考えています。さらに、o1はまだ未熟で、初期段階にあります。まさにこの点が私を最も興奮させます。まるでOpenAIが「私は非常に高い天井を持つ道を見つけました。その背後にある手法を注意深く検討すれば、この道は実現可能であることがわかるでしょう」と語りかけているかのようです。 要約すると、O1 は LLM が System 2 の機能を持つことができることを示しています。技術的には、新しいスケーリング パラダイムをもたらすため、その意義は依然として非常に大きいと思います。 張鵬:現状では合意が得られていないにもかかわらず、先生は非常に楽観的で協力的だということですね。朱軍教授、現段階でのO1の進展について、どのようにお考えですか?また、その意義をどのように評価していますか? 朱軍:私の意見では、これは質的に大きな変化を表しています。 学術界と産業界において、AGIはL1からL5までの5つのレベルに大まかに分類されています。L1はChatGPTのようなチャットボットに似ており、多くの対話型開発が行われています。L2は推論者と呼ばれ、複雑な問題に対する深い推論が可能です。L3はインテリジェントエージェントと呼ばれ、「デジタル世界」から「物理世界」へと移行し、変化と相互作用を目指します。L4はイノベーターと呼ばれ、新しいものや新しい知識を発見・創造します。L5はオーガナイザーであり、より効率的な運用のためにコラボレーションや組織化を行うことができます。これがL1からL5までのAGIの一般的な分類です。もちろん、各レベルには狭義と大義があり、特定のタスクで実証されています。 例えば、O1はL2の狭い範囲における特定のタスクにおいて、既に人間のような高度な知能を実現しています。分類の観点から見ると、これは業界全体にとって真に大きな進歩と言えるでしょう。 張鵬:あなたの定義は既にかなり高いレベルにあると感じます。AGIレベル2では、重要かつ明確な道筋と段階的な成果が見えてきましたが、それ以前はすべてレベル1レベルでした。もちろん、誰もが期待する物理世界を包含し、変革するという目標を達成するには、まだ前進が必要です。レベル3に到達すれば、これが本当に完全かつ体系的に実現するかもしれません。 Zhilinの話に戻りますが、o1のローンチ後、サム・アルトマン氏は、これは新たなパラダイムシフトを象徴するものだと信じていると熱く語りました。サム氏は確かに優れた話し手であり、コミュニケーション能力も優れています。「これは新たなパラダイムシフトだ」という彼の発言について、皆さんのご意見や解釈をお聞かせください。あなたは同意されますか? 楊志林:それは確かに非常に意義深いことだと思います。主に AI の上限を引き上げるからです。 AIの生産性向上の上限は、GDPの5%、10%、あるいは10倍といったところでしょうか。ここで最も重要なのは、強化学習によってさらにスケールアップできるかどうかです。つまり、この(O1)はAIの上限を完全に引き上げるものだと考えています。 しかし、o1 の改善が完全に確実な改善であるとは思いません。 もちろん、これは多くの業界の状況に変化をもたらし、スタートアップ企業にとって新たな機会をもたらすと考えています。例えば、ここで重要な点は、トレーニングと推論の計算能力の比率が大きく変化するということです。これはトレーニングの計算能力が減少することを意味するのではなく、むしろ増加し続けるでしょう。しかし同時に、推論の計算能力はさらに急速に増加するでしょう。この比率の変化は、多くの新しい機会、そして多くの新しいスタートアップ企業にとっての機会を生み出すでしょう。 張鵬:この根本的なパラダイムシフトは、スケーリングの法則におけるスケーリングの問題を解決しました。私たちは新たな道筋を見出し、縮小や阻害に悩まされていた以前の状況とは異なり、将来的にはイノベーションと探求の余地が広がっています。 03推論能力の一般化の道筋はまだ不明である。それは新たな技術的変数であるZhang Peng: Zhu Jun教授にお尋ねしたいのですが、今日の比較的明確で段階的なシナリオでは、システムにRLを追加して新しいパラダイムになった後、この機能を一般化するための明確な道筋が見えますか? 朱軍:これは確かに検討に値する質問です。現在、いくつかのタスクでブレークスルーを達成しており、今後、より幅広いタスクへの拡張や機能向上を検討しています。現時点では、O1は技術ロードマップを完全に説明していません。 Zhang Peng : ChatGPT が登場する前ほどオープンではなくなったのは明らかです。 朱俊:はい、しかし蓄積された科学的研究を分析することで、どのような技術が使われたのかを正確に知ることができます。 ここで重要な問題となるのは、プロセス監視データです。これは、結果を直接出力する従来の監視とは異なり、思考プロセスなど、各ステップにラベルを付ける必要があるため、取得は非常に困難であり、専門の人材による高価値データの作成が必要になります。 さらに、実際のプロセスでは、AlphaGo が他の分野に移行したときに誰もが見たのと同じ問題を含め、報酬モデルをより一般化された、またはよりオープンなシナリオで定義することは困難です。 例えば、定理証明や明確な答えのあるプログラミング問題では、報酬は比較的明確で、報酬関数も容易に定義できます。しかし、自動運転、身体化システム、あるいは生の画像や動画といった芸術作品においては、その境界ははるかに曖昧です。多くのシナリオにおいて、何が善で何が悪かを明確に定義することは困難です。多くの問題は単純に「はい」か「いいえ」で答えられるものではありません。例えば、生成コンテンツにおいては、美的評価やその他の評価は人によって異なります。このような文脈で一般化を行うには、報酬モデルをどのように定義するか、どのようにデータを収集するか、そしてどのように効率的に実装し、スケールアップさせるかといった、多くの技術的な課題が伴います。 誰もがこの道筋を目にした今、トンネルの出口に光が見え、皆がその道筋へと向かうよう導かれているような気がします。さらに、今や強力な基礎モデルと組み合わせることで、AlphaGoを他の領域へ移行させるのは以前よりもはるかに速くなると確信しています。これには、オープンドメインにおけるより優れたシミュレーターや、そうした環境を構築するためのAGI生成手法も含まれます。これらの利点を組み合わせることで、この道筋は以前よりも速く進み、成果と改善をより容易に達成できると考えています。 張鵬:まだ公開され、明確かつ決定的に一般化された道筋は見当たりませんが、探求の余地があり、可能性は十分にあります。Zhilinさんにお伺いしたいのですが、この状況は貴社のようなスタートアップにとって良いことでしょうか、それとも悪いことでしょうか? 楊志林:これは実は素晴らしいチャンスだと思います。なぜなら、新たな技術的変数、新たな技術的次元が存在することを意味するからです。 もちろん、これまでもある程度この分野に投資してきましたが、今後は中心的なテーマになる可能性があり、このテーマの下で多くの新たな機会が生まれるでしょう。一つには、朱軍教授がおっしゃったように、一般化の問題があります。もう一つには、まだ完全に解決されていない根本的な技術的課題がいくつかあります。根本的な側面には訓練と推論が含まれており、両方を同時にスケールさせる必要があります。先ほど述べたプロセス監視の問題を含め、まだ十分に検討されていない問題も多くあります。プロセスにおけるいくつかの錯覚も、パフォーマンスに大きな悪影響を与える可能性があります。これらの問題はすべて研究する価値があります。 張鵬:不確実性は実は良いことです。明確な方向性と不確実な道筋があることは、スタートアップにとってむしろ良いことです。そうでなければ、スタートアップなど存在しないでしょう。 04新しいパラダイムには、さらに大きな計算能力が必要になります。張鵬:大新の話に戻りますが、以前、アルゴリズム、コンピューティングパワー、そしてデータについてお話しました。AGIを議論する上で、この3つは重要な三角形でした。今回はアルゴリズムレベルでパラダイムシフトが起こったようです。では、この三角形はコンピューティングパワーとデータという点でどのように連鎖反応を引き起こすのでしょうか?その点について、何かお考えはありますか? 江大新:アルゴリズム、計算能力、そしてデータの間の鉄の三角形の関係は変わっていないと思います。強化学習は確かにアルゴリズムの変化です。計算能力への影響のうち、1つは確実であり、1つは確実になる可能性が高く、もう1つは現時点では不確実です。 確かなのは、先ほどお二人の講演者が述べたように、推論側の計算負荷が指数関数的に増加するということです。これはOpenAIがブログで「テスト時間スケーリング」と呼んでいるものです。推論チップの能力に対する要件は確実に高まります。OpenAIはO1の背後で推論を行うためにH100を使用している可能性が高いと考えられます。O1では、1つの問題に数十秒かかることも珍しくありません。したがって、処理速度を向上させたい場合、推論チップに対する要件も高まるでしょう。 一つ確かなことは、強化学習(RL)モデルのトレーニングに必要な計算能力は、事前トレーニングに必要な計算能力よりも少なくない可能性があるということですが、これはコンセンサスではありません。これは、RLフェーズでセルフプレイを実行し、理論上はデータ量が無制限になる可能性があるためです。OpenAIはStrawberryモデルのトレーニングに数万枚のH100画像を使用したと聞いていますが、数か月のトレーニングを経た今でも、まだO1プレビューに過ぎず、トレーニングは完了していません。そのため、トレーニングのコストは非常に高くなります。特定のシナリオ向けに設計されたRLモデルではなく、スケーラビリティを備えた一般化可能な推論モデルを目指す場合、トレーニングに必要な計算能力は小さくない可能性があります。 もう一つの疑問点は、より良い推論パスを生成するために、セルフプレイ中にメインモデルのパラメータをさらにスケーリングすべきかどうかです。GPT-4がパラメータ数兆個に達すると、それ以上のスケーリングは限界収益率を低下させるという一般的な見解があります。しかし、強化学習手法によって収益率が増幅され、全体的なROIがプラスになる可能性がある場合、これは不確実であり、さらなる調査が必要ですか?もしこれが真実であれば、計算コスト = パラメータ数 × データ量なので、計算能力の増加は2乗の次元に戻ります。したがって、強化学習は推論側と計算側の両方で計算能力の需要を増加させるというのが私の考えです。 データテストに関しては、前述の通り、強化学習フェーズでは2種類のデータが存在します。1つは手動で合成された少量のデータ、もう1つは機械によって生成された膨大な量のデータです。データ量は非常に大きくなる可能性がありますが、データの品質は極めて重要です。そのため、データを生成するアルゴリズムの構築方法と、セルフプレイに使用するメインモデルの性能が非常に重要になります。 05モデルの出力が遅くなりました。これをユーザーにどのように説明すればいいでしょうか?張鵬:今日はお三方とも、それぞれチームを持つ起業家です。Zhilinさんにお伺いしたいのですが、Kimiは今年大きな注目を集め、製品開発も非常に好調です。AIにおけるこの新たな変化の波は、AI関連製品にどのような連鎖反応をもたらすとお考えですか?また、どのように変化が起こるのでしょうか? 新しい技術の進歩から逆算して、現在の製品にどのような変更を加えるべきかを推測することができます。 現在の技術開発にはいくつかの側面があります。一つは、新たな製品市場適合(PMF)を探求する機会が数多くあることです。このPMFは二つの側面のバランスです。一方では、大規模なモデルはシステム2を考慮する必要があり、レイテンシの増加につながります。しかし、このレイテンシの増加は、すべてのユーザーができるだけ早く結果を得たいと願っているため、ユーザーにとってマイナスの体験となります。 第二に、確かに、より良いアウトプットを提供し、より良い結果を達成し、より複雑なタスクを達成します。したがって、この新しいPMF(プロダクト・マーケット・フィット)を探求するプロセスは、実際には、レイテンシーの増加によって引き起こされるユーザーエクスペリエンスの低下と、結果品質の向上によるユーザー価値の向上とのバランスを見つけることだと考えています。 重要なのは、得られる価値が体験の損失を上回ることです。特に生産性向上といった高価値シナリオでは、エンターテイメントのシナリオではユーザーがレイテンシーの増加を許容しにくいため、いくつかの問題が先に顕在化する可能性があります。 そして、新しい思考パラダイムの導入によって、製品の形態も変化する可能性があると考えています。現在のインスタントでチャットのような製品形態は、ある程度変化するでしょう。将来のAIは、20秒や40秒考えたり、様々なツールを起動したりするかもしれません。1分、1時間、あるいは1日単位でタスクを実行するようになるでしょう。製品の形態はより人間に近づき、真のアシスタントという概念に近づき、タスクを一つ一つ完了させるのを手伝ってくれるでしょう。製品形態のデザインは大きく変化し、多くの新たな可能性が生まれると考えています。 06推論能力は物理的な世界に適用されます。張鵬:AGI分野では他にもいくつかの変化が見られます。例えば、フェイフェイ・リーは空間知能を推進していますし、自動運転やロボティクスといった身体知能の分野でも変化が見られます。朱軍教授にお伺いしたいのですが、AI関連分野における技術進歩は、将来の製品、あるいは産業における最終的な技術応用にどのような具体的な影響を与えるのでしょうか? 朱軍:大規模な事前学習技術はパラダイムシフトを象徴しています。言語からマルチモーダル、そして身体性知能、あるいはフェイフェイ・リーの空間知能へと移行するだけではありません。重要なのは、知能エージェントが相互作用し、相互作用を通して学習できるようにすることです。 知能の観点から見ると、これは避けられないことです。なぜなら、意思決定とインタラクションこそが知能の中核能力であり、人間は刻々と意思決定を行っているからです。私たちは未知で開かれた環境に直面しており、知能の発展の道筋もこの方向へと進んでいます。 私たちがこれまで行ってきた進歩、つまり O1、ビデオ生成、そして広範囲に議論してきた 3D テクノロジーなどはすべて、最終的に 2 つの方向を指し示しています。 一つは、消費者が目にするデジタルコンテンツです。視覚的に魅力的で、自然な見た目で、ストーリーを伝え、参加やインタラクションを促すものでなければなりません。これはデジタルコンテンツにおいて間違いなく非常に重要な方向性です。 もう一つの方向性は物理世界を指しており、これは間違いなく生産性の向上につながるでしょう。見た目が魅力的で楽しいものを作ることだけではありません。究極的には、物理世界との統合が重要です。おそらく、最も効果的な統合はロボット工学でしょう。既に多くの事例があり、事前学習済みのパラダイムを用いてロボットの能力をより多用途にするなど、前向きな進歩が見られます。 私たち自身の研究室では、四足歩行ロボットのようないくつかの例に取り組んできました。以前は、ロボットを動かすには多くの手作業によるパラメータ調整が必要でした。しかし今では、シミュレーション環境やAIを用いた合成データ生成によって、ロボットを大規模に訓練することができます。訓練された戦略はロボットに実装でき、実質的に新しい脳を与え、四肢の協調性を向上させることができます。同じ戦略を用いて、様々な環境に適応することも可能です。これはあくまでも予備的な例であり、現在では空間知能や身体知能といった、より複雑な制御判断にも注目が集まっています。 先ほど、インテリジェントエージェントがAGIにおけるL3をどのように表現しているかについて説明しました。L1とL2に進化した後、私たちは間違いなくL3へと進化し、ロボットはより優れた推論と計画を行い、環境とより効率的に相互作用し、複雑なタスクをより効果的に完了できるようになります。現在、多くのタスクはまだ比較的細分化され、単純化されたタスクとして定義されています。将来的には、埋め込まれた思考プロセスや学習方法を通じて、ロボットは複雑なタスクを完了できるようになるでしょう。その時までに、知能の能力は大幅に向上しているでしょう。 07カードについて話すと感情が傷つきます。カードがなければ感情もない張鵬:大新さんにお伺いしたいのですが、以前はベーシックモデルとマルチモーダルモデルの開発に多額の費用を費やし、パラメータも非常に大きくする必要がありました。費用がかさみ、問題に頻繁に直面したため、非常に神経をすり減らす作業だったと思います。このO1イベントを含め、この18ヶ月間で、あなたの考え方にどのような変化がありましたか?今後、あなたのスタートアップには、より多くのイノベーションと刺激的な可能性が秘められていると思いますか? 江大新:2つの視点から見ることができると思います。1つは革新的な側面です。強化学習は確かに従来のパラダイムとは大きく異なります。GPTパラダイムは、次のトークンを予測することです。実際、2018年のGPT-1からGPT-4までは、ハイブリッドエキスパートモデルにMOE(Multiple Expert Array)を追加した以外は、それほど新しい点はありませんでした。しかし、O1はまだ初期段階にあると思います。先ほど議論したように、強化学習を大規模モデルとどのように組み合わせて汎化を実現できるのでしょうか。探求する価値のある疑問はたくさんあると思います。 Zhi Linは先ほど報酬モデルについて言及しました。探索ルートの設計時に、より良い経路を見つけるために手動介入が必要かどうか、セルフプレイの質問はどこから来るのか、そしてどのように答えが見つかるのかといった点も含みます。これらはすべて、探求が必要な新しい未知の領域です。今後、間違いなく大きな加速が見込まれると思います。これは間違いなくトレンドです。私たちのようなスタートアップにとって、イノベーションの面で多くの機会が生まれることは間違いありません。 しかし一方で、特に一般化可能な推論モデルを追求する場合、推論と学習の両面で必要な計算能力は依然として相当なものになると考えています。実際、社内では「カードの話は感情を傷つける。カードがなければ感情もなくなる」というジョークがあり、さらに「カードを使うと感情が無駄になる」と付け加えています。しかし、私たちの目標がAGIであるならば、どれだけの時間がかかっても諦めずに取り組みます。 張鵬:以前は、スケーリング則に従い続けると、リソース要件が高すぎるため、プレイヤーがどんどん減っていくと考えていました。現在、リソースの閾値は下がると思いますか?それとも、コンピューティングパワーの競争が続くのでしょうか? 蒋大新:イノベーションには2つのタイプがあると思います。1つは基本モデルで、AGI(汎用人工知能)を目指したもので、汎用化と強力な新機能の実現を目指しています。これには多額の投資が必要であり、海外の巨大企業は年間数千億ドル規模の投資計画を立てています。 しかし一方で、アプリケーション開発においては、まだイノベーションの余地がたくさんあると考えています。GPT-4が示した知能とエージェントフレームワークを組み合わせることで、デジタル世界と物理世界の両方で、既に多くの問題を解決できると考えていました。そして、今年O1が登場したことで、強化学習はより高度なレベルへと汎用化し、その可能性はさらに高まりました。ここにはまだ多くのチャンスが残されているのです。 08AIアプリケーションの開発、ChatGPTの弱点を見つける張鵬:林志さんにもう一度お伺いします。今日は、起業家ではなく、技術的なバックグラウンドとAIへの深い理解を持つ投資家の立場でお話いただけますか?投資判断の判断材料として、起業家に関するどのようなデータを参考にされますか? Yang Zhilin :まず、DAUのようなデータは確かに重要な指標です。そして、それらはいくつかのレベルに分類できます。 2つ目のポイントは、AIに関連します。単に価値を持つだけでは不十分で、増分的な価値を生み出す必要があります。既存のAI製品や、ChatGPTのようなより一般的なAI製品と比較して、 ChatGPTでは実現できないこと、あるいはユーザーエクスペリエンスの低いことなど、増分的な価値を生み出す必要があります。これは大きな増分価値を生み出すでしょう。例えば、最近人気のCursorはまさにその好例です。 一般增量价值会来源于几个方面:一方面,可能交互完全不一样,或者是不同的入口,有可能背后对应了不同的资源。通过这种方式去产生增量价值,我觉得可能会是一个很重要的事情。 第三个维度,不光是有增量价值,而且它还要随着技术的发展,市场规模应该越来越大,而不是越来越小。 如果目前的产品有一定的PMF,但还没有泛化到一个很主流的群体,有可能是技术不够强,这个时候再搭配上第二点,有增量价值的话,这个市场又越来越大,它可能就是一个好的AI 创业的机会。 张鹏:听起来就是,数据是要看的,但是在看数据之前先看逻辑,就是产品存在的逻辑,如果它是成立的,数据又能证明这就是一个值得投的公司。 09朱军:18 个月,在L4 取得进展张鹏:在下一个18 个月里,期待看到什么样的进展?就是在AGI 领域里第一你觉得会很兴奋,第二你觉得它是有可能的事情。 朱军:我希望看到L3 已经基本上实现。 AGI 的L3,至少在智能体、世界模型的创建生成、虚实融合,在一些特定场景下的决策能力有巨大提升。其实它会利用我们今天讲到的推理、感知等。 张鹏:在特定场景里确实不是copilot,而是autopilot 了。 朱军:我觉得可能在某种意义上会达到这种能力,至少在一些特定场景下。 我们前一段时间对L4 做了专门的分析,发现如果要去做科学发现或者创新的话,需要的那些能力目前散落在各个角落里,但是现在还没有一个系统把这些整合在一起。 所以,如果更激进一点,我甚至觉得未来18 月,可能在L4 上也会有显著的进展。这里主要说的是严肃科学,L4 还有创意表达的部分,其实在某种意义上已经达到了,比如像艺术创造、图生视频,一定程度上帮大家去放大想象,或者是让想象可以具象化。我对整个的发展还是比较乐观的,至少L3,或者L4 有一些苗子吧。 张鹏:年底之前,你自己的事上有什么进展,能提前透露吗? 朱军:今年年底的话,希望将我们的视频模型能够以更加高效、更可控的方式提供给大家。 解释一下,高效和可控主要是指,去表达一个故事,不是简单的让一段话或者一张图片动起来,我们希望它可以连续的去讲,而且不光是人的一致性,还包括像物体等各种的主体一致性,还包括交互性。 高效,一方面是解决对算力成本的考量,因为如果想去服务很多人,让大家去用的话,首先成本要降下来,不然就还是烧钱、一直赔钱。另外一个更重要的还是体验上。对使用者来说,想去表达自己的创意,需要多次和系统交互,一方面去验证,另外是获得启发,这个过程也需要模型能够比较高效,比如说终极目标是实时,让大家能快速尝试。 到这个阶段的话,我相信用户体验、用户量都会有一个巨大的提升,这是今年我们重点想去突破的。 10杨植麟:开放性的强化学习、自我进化张鹏:3 个月的目标和18 个月的对未来的期待都是很明确的。植麟呢,可以说说这18 个月,也可以讲讲未来3 个月会有啥进展。 杨植麟:我觉得接下来最重要的milestone 是开放性的强化学习。比如说在产品上跟用户交互,在一个真实的环境里面去完成任务,然后自己进化。当然,我觉得o1 已经一定程度上说明这个方向比之前有更强的确定性,这个会是一个重要的里程碑,可能也是AGI 路上仅剩甚至唯一的一个重要问题了,我觉得这个会很关键。 张鹏:这个关键问题,你期待未来18 个月有突破和进展? 杨植麟:对,应该是能看到很多进展。 张鹏:那未来三个月有什么可以透露的吗。 杨植麟:我们还是希望能在产品和技术上持续创新,至少在一两个重要领域能够做到世界最好,有新的进展会尽快跟大家分享。 11姜大昕:多模融合,通向世界模型张鹏:大昕你怎么看?18 个月和未来3 个月。 姜大昕:第一,我也很期待强化学习能够进一步泛化。 另外一个方向我也很期待,就是视觉领域的理解和生成一体化。在文字领域,GPT 已经做到了理解生成一体化,但是在视觉领域非常难。目前为止,我们看到的视觉模型,理解和生成是分开的,即使像多模融合的GPT-4o,其他模态都解决了,唯独不能生成视频,这是一个悬而未结的问题。 为什么很重要呢?如果我们解决了视频理解生成一体化,就可以彻底建立一个多模的世界模型,有了一个多模的世界模型以后,可以帮助我们去生成非常长的视频,解决Sara 目前的技术缺陷。还有就是可以和具身智能相结合,作为机器人的大脑去帮助智能体更好去探索物理世界,这个我也是非常期待的。 张鹏:年底之前,你这边有什么值得期待的进展吗? 阶跃有一款产品叫做跃问,用户可以在上面体验到我们最新的万亿参数模型,它不光是理科很强,而且文学创作能力也很强,经常给大家带来一些惊喜。 跃问上还有一个新的功能叫拍照问,用户经常拍张照片去问食物的卡路里,问宠物的心情,问一个文物的前世今生等等。包括Meta 眼镜的发布,还有Apple Intelligence,都突出了视觉交互的功能,我们在跃问上也有体现,而且我们会努力一步步把这个功能做得越来越好。 * |
o1 のリリース後の最も有益な円卓討論会: Yang Zhilin、Jiang Daxin、Zhu Jun が大規模モデルの技術的な道筋を探りました。
関連するおすすめ記事
-
12月19日に上海でお会いしましょう!
-
強化学習の父、リチャード・サットンは、すべての RL アルゴリズムを大幅に強化するシンプルなアイデアを提案しました。
-
ノーベル化学賞の焦点:AlphaFoldが生命科学をどう変えるのか
-
スマートテクノロジー分野に新たなプレーヤーが参入し、インテリジェンス、センシング、コントロールという3つの主要テクノロジーを同時に展開し、すでに韓国に製品を大量出荷している。
-
Nvidiaの簡素化されたB200Aが公開!最強のチップアーキテクチャは生産能力不足という困難に直面しており、よりコスト効率の高いアプローチでそれを補おうとしている。
-
オープンソースソフトウェアを利用する金融機関の潜在的リスクと対策