|
データホエール Datawhaleのヒント スピーチ:沈祥陽 先日、南方科技大学で第4回「若手科学者50²フォーラム」が開催されました。米国工学アカデミー外国人院士の沈向陽氏が「汎用人工知能時代、大規模モデルをどう考えるべきか?」と題した基調講演を行い、大規模モデルに関する10の考察を示しました。 彼の 10 の反省の具体的な内容は次のとおりです。 1. 計算能力が限界点:大規模モデルに必要な計算能力は、過去10年間で膨大になりました。今日、大規模なAIモデルを構築する上で重要なのは計算能力であり、計算能力がなければ接続は不可能です。 3. 大規模モデルの次の章: マルチモーダル研究には多くの課題があり、マルチモーダルの理解と生成の統合が極めて重要な方向性であると考えています。 4. 人工知能におけるパラダイムシフト:O1の登場後、アプローチはGPTの事前学習法から、推論段階での強化学習と継続的な自己学習を伴う今日の自律学習へと移行しました。このプロセス全体は人間の問題解決と分析に非常に似ており、かなりの計算能力を必要とします。 5. 大型モデルがあらゆる業界を席巻:中国における大型モデル構築の波の中で、業界特化型の大型モデルがますます増加している。この傾向は確実であり、今後は汎用型の大型モデルの割合は減少していくだろう。 6. AIエージェント、構想から実装まで:スーパーアプリは最初から存在していました。このスーパーアプリはスーパーアシスタントであり、スーパーエージェントです。 7. オープンソース vs. クローズドソース:Meta's Llamaは、伝統的なオープンソースではないと思います。モデルのみをオープンソース化しており、ソースコードやデータは提供していません。したがって、オープンソースシステムを使用する際には、大規模なモデルシステムのクローズドソース化についても真に理解する決意が必要です。 8. AI のガバナンスを重視する: 人工知能はあらゆる産業や社会全体に多大な影響を及ぼすため、私たちは協力してこれに立ち向かう必要があります。 9. 人間とコンピュータの関係性の再考:人間とコンピュータの相互作用を真に理解することによってのみ、各世代のハイテク企業において真の商業的価値を持つリーダーとなることができます。OpenAIやMicrosoftについて今語るということは、この時代にはまだ早すぎるということです。彼らは先行していますが、未来にはまだ多くの想像力の余地があります。 10. 知能の本質:大規模モデルは誰もが驚嘆するほどのものですが、それらと深層学習に関する理論的な理解は不足しています。人工知能の出現については、簡潔に議論されるだけで、明確な説明はされていません。 以下は、このフォーラムにおける沈向陽氏のスピーチの全文です。 本日、深センで人工知能に関する私の最近の学びと経験を皆様と共有する機会を得られたことを大変嬉しく思います。 姚其之氏の人工知能に関する議論に続き、特に技術統合と産業変革の観点から、大規模モデルの時代に現在私たちが取り組んでいるいくつかのことについてご報告したいと思います。 実際、重要なのはAI時代の技術発展だけではありません。人類の発展の歴史全体が技術発展の歴史なのです。技術なしにGDPの成長はありません。木を掘って火を起こしたり、車輪を発明したりといった時代を振り返るのではなく、過去100年間の物理学における数々の目覚ましい進歩、そして過去70年間の人工知能とコンピュータサイエンスにおける飛躍的な進歩を振り返ってみましょう。そこには多くの発展の機会があることがわかります。 今日は人工知能と大規模モデルについてお話します。ここ数年、誰もがAIの新しい体験に徐々に驚かされています。私は生涯AIに携わってきましたが、数年前にはこのような状況は想像もできませんでした。 3つの例を挙げたいと思います。1つ目はテキストからテキストを生成すること、2つ目はテキストから画像を生成すること、そして3つ目はテキストから動画を生成することです。皆さんがおっしゃったように、ChatGPTは国際的にだけでなく国内でも活躍するAIシステムです。例えば、今日この講演に来る前に、私はテンセントのYoung Scientists 50² Forumでの経歴を踏まえて、どのようなトピックを議論すべきかChatGPTに尋ねました。少しおかしな話に聞こえるかもしれませんが、実際に使ってみて、とても効果的だと感じています。 ChatGPTは多くの人にとって馴染み深い技術です。2年前、OpenAIは与えられたテキストから画像を生成するテキスト画像変換システムをリリースしました。7ヶ月前には、与えられたテキストから60秒間の高解像度動画を生成するSoraをリリースしました。例えば、この動画は東京の街を散歩する人の動画です。どちらも実に素晴らしいです。(時間の都合上、動画は掲載しません。) AIが生成した画像の例を挙げましょう。私はコンピューターグラフィックスの仕事をしており、写真の良し悪しを判断する感覚はある程度身についていると思っていました。2年前、この写真が発表されました。人類史上初のAI生成写真として、アメリカのファッション誌(コスモポリタン)の表紙を飾りました。サンフランシスコのデジタルアーティストがOpenAIのシステムを使って質問したところ、「広大な星空の中で、火星の広角レンズに向かって女性宇宙飛行士が堂々と歩いている」という結果が出ました。私自身、それほど絵の才能があるわけではありませんが、この画像を見て衝撃を受けました。きっと皆さんも同意してくれると思いますが、この画像を生成したAIはまさに女性宇宙飛行士のように見えます。つまり、このAIは驚くほど高い知能レベルに達しているということです。 今日、私たちは非常に優れた技術、そして非常に優れた製品を有しています。国内でも、技術からモデル、そして応用に至るまで、あらゆる側面で大規模モデルの開発に尽力しています。姚院長は先ほど清華大学の最新の研究成果について多く言及されました。そこで、汎用人工知能の時代において、大規模モデルをどのように考えるべきかについて、私の考えを少し述べたいと思います。 最初に考慮すべきことは、コンピューティング能力が参入障壁となっていることです。 今日の汎用人工知能、大規模モデル、ディープラーニングに関して最も重要なことは、近年の AI コンピューティング能力の全体的な成長です。 過去10年間、大規模モデルで使用される計算能力は、当初は年間6~7倍、その後は年間4倍以上に増加しました。さて、皆さんに質問です。もし何かが年間4倍に増加するとしたら、10年後には何倍になるでしょうか?まずは考えてみてください。この質問には後ほど改めて触れたいと思います。 AI開発の波の最大の恩恵を受けているのはNvidiaであることは周知の事実です。Nvidiaの出荷台数は年々増加し、コンピューティング能力は着実に向上し、時価総額は3兆ドルを超える世界3社(Microsoft、Apple、Nvidia)の1社となりました。これは主に、コンピューティング能力に対する年間需要の増加によるものです。Nvidiaのチップ購入数は2024年も依然として急速に増加しています。例えば、イーロン・マスクは現在、10万枚のH100カードからなるクラスターを構築しています。数万枚のカードで構成されるシステムを構築するだけでも非常に困難ですが、10万枚のカードで構成されるシステムを構築するとなると、さらに困難で、極めて高いネットワーク能力が求められます。 今日、計算能力と大規模モデルについて議論する際に最も重要なのはスケーリング則です。計算能力が増大すればするほど、知能は向上しますが、その限界はまだ来ていません。しかし残念ながら、データ量の増加に伴い、計算能力の成長は線形ではなく、むしろ二次関数的な増加に近づいています。 モデルが大きくなるにつれて、学習に必要なデータ量も劇的に増加し、結果として2乗関数的に増加します。そのため、過去10年間でコンピューティングパワーへの需要は膨大になっています。つまり、今日では大規模AIモデルの構築はコンピューティングパワーにかかっており、コンピューティングパワーなしでは何も実現できないのです。 皆さんに質問です。毎年4倍に増えるとしたら、10年間で何倍になるでしょうか? コンピュータサイエンスを研究する人なら、「ムーアの法則」をご存知でしょう。これは、コンピューティング能力が18ヶ月ごとに約2倍になるというものです。Intelは長年この法則で成長してきました。なぜ今、NVIDIAがIntelを追い抜いたのでしょうか? 決定的な理由は、両社の成長率の違いです。18ヶ月ごとに2倍になるなら、10年間で約100倍になり、これは驚くべきことです。しかし、毎年4倍になるなら、10年間で100万倍になり、驚異的な成長です。このように考えると、NVIDIAの時価総額が過去10年間で急激に増加した理由が理解できるでしょう。 考慮すべき2番目の点はデータについてです。 人工知能において、計算能力、アルゴリズム、そしてデータは3つの重要な要素です。先ほども述べたように、汎用人工知能を訓練するには大量のデータが必要です。 過去30~40年、人々がオンラインで情報を共有していた頃、私たちは検索エンジンのために働いていると考えていたというのは、実に興味深いことです。今、さらに注目すべきは、30~40年にわたる私たちの蓄積が、ChatGPTのような瞬間に結集したことです。ChatGPTはあらゆるものを統合し、強力な計算能力を用いて、このような人工知能モデルを学習します。まさにそれが起こったのです。 3番目の考え、大型モデルの次の章 ここまで来たら、次のステップは何でしょうか?まず、言語モデルがあります。ChatGPTに代表されるように、その基盤技術は自然言語処理です。現在、誰もがGPT-4に代表されるマルチモーダルモデルに取り組んでおり、多くのコンピュータービジョン技術を組み込んでいます。今後は、身体化された知能を開発する必要があります。身体化された知能の目的は何でしょうか?基本的には、世界モデルを構築する必要があります。マルチモーダルモデルであっても、基盤となる物理モデルが不足しているため、そのような世界モデルを作成する必要があります。この世界モデルとは、単に広く読書するだけでなく、広く旅をし、世界に関するより多くの知識を脳にフィードバックすることを意味します。そのため、ロボットを開発する必要があります。深センはロボットと身体化された知能の開発に力を入れるべきだと私は考えています。ロボティクスの中には、自動運転という特別な分野があります。自動運転とは、指定されたルートを走行する特殊なロボットです。 どうすれば実現できるでしょうか?マルチモーダル研究はまだまだたくさん残っており、特にマルチモーダルデータの理解と生成を統合することが非常に重要な方向性だと考えています。たとえSoraが開発されたとしても、それは依然として独立したものであり、マルチモーダルデータの生成と理解は統合されていないでしょう。この分野では、私たちが取り組むべき研究は数多くあります。 例えば、私の生徒の中にはStep Starという大規模な模型会社を立ち上げた人がいますが、彼らのマルチモーダル理解力は抜群です。AIに写真を見せて、なぜその写真の行動が「非効率的なスキル」と呼ばれるのか尋ねると、AIは「写真は子供が地面を転がっているように見えるが、母親は無関心で携帯電話を見ながら飲み物を飲んでいる」と説明します。そのため、子供のスキルは非効率的なスキルとみなされます。AIは現在、画像理解においてますます優れた能力を発揮しています。 考慮すべき4番目のポイントは、人工知能におけるパラダイムシフトです。 2週間前、OpenAIは最新モデル「O1」をリリースしました。先ほども申し上げたように、GPTは開発が進められていますが、GPT4の後継となるGPT5はまだリリースされていません。人々は、成長は大規模モデルのパラメータのみで、それが限界なのか疑問に思っています。しかし、まだリリースされておらず、中国ではさらに大規模なモデルを開発していないため、真相は誰にも分かりません。 しかし、新たな次元が登場しました。事前学習(拡張)を行うのではなく、推論中に拡張が行われるのです。これは、従来のGPTアプローチから、推論段階で強化学習を行い、自ら継続的に学習する今日の自己主導型学習パスへの移行を表しています。 以前の事前学習プロセスは、基本的に次の文字またはトークンを予測することでした。新しいアプローチは、ドラフトを作成し、様々なパスをテストして、それらが実現可能かどうかを確認することです。これは、人間の脳の思考プロセスに似ており、高速システムと低速システムがあります。数学の問題を解くように、まずドラフトを作成し、どのパスが機能するかを確認して思考の連鎖を確立し、次にその連鎖を最適化する機会を探します。今のところ、このようなシステムを公開しているのはOpenAIだけなので、ぜひOpenAIの例をいくつか見てみてください。 最も重要なのは、そのプロセス全体が、人間が問題を考察し分析する方法と非常に似ていることです。つまり、草稿を作成し、検証し、誤りを修正し、やり直すのです。これにより、多様な思考プロセスが可能になります。また、これを実行するには、かなりの計算能力も必要です。 考慮すべき 5 番目のポイント: 大規模モデルはすべての業界に広がっています。 すべての企業が大規模モデルがもたらす機会に直面していますが、すべての企業がユニバーサルな大規模モデルを作成する必要はありません。10,000枚のカードさえ持っていなければ、ユニバーサルな大規模モデルを作成する機会はありません。ユニバーサルな大規模モデルを作成するには、少なくとも10,000枚のカードが必要です。 例えば、GPT-4がリリースされたとき、その総トレーニング時間は2×10^25 FLOPSでした。これほどの大規模なトレーニング量では、そのレベルに到達するには年間1万枚のA100カードが必要になります。そのレベルのトレーニング時間を達成できなければ、真に汎用的な大規模モデルを作成することは不可能です。汎用的な大規模モデルがあれば、その上に業界固有の大規模モデルを構築することができます。例えば、金融や保険の分野では、1000枚のカードで、多少の微調整を加えるだけで非常に良い結果を得ることができるかもしれません。企業では、社内データや顧客データなど、独自のデータがあれば、そのデータを抽出し、数十枚または数百枚のカードを使用して、特定のビジネスに合わせた非常に優れたモデルを作成できます。つまり、レイヤーごとに構築されるのです。 もちろん、もう一つ非常に重要な側面があり、私も非常に興味を持っています。それは、パーソナル・ビッグデータ・モデルの将来です。現在、PCやスマートフォンにデータが徐々に蓄積され、それらに対する理解が深まっています。将来的には、関連データを収集した上で、独自のパーソナル・ビッグデータ・モデルを構築できる超知能AIが登場すると考えています。これは(パーソナル)端末の分野では自然な流れであり、スマートフォンはその好例です。PC分野では、MicrosoftやLenovoといった企業もAI PCのコンセプトを推進しており、この分野にもチャンスがあると考えています。 中国における大規模モデル開発の波の中で、業界特化型の大規模モデルがますます多く登場しています。例えば、中国では大規模モデルの運用開始には中国サイバースペース管理局(CAC)の承認が必要となるため、今年7月末までにCACの承認を受けたモデルは合計197件に上り、そのうち70%が業界特化型の大規模モデル、30%が汎用型の大規模モデルでした。この傾向は間違いなく将来を見据えたもので、汎用型の大規模モデルの割合は減少し続けるでしょう。例えば、汎用型の大規模モデルをベースに金融モデルを構築することができます。これは上海の企業が金融顧客向けに開発した大規模モデルです。同様に、Nvidiaの財務報告書が発表されると、そのハイライトと課題をすぐにまとめることができます。 考慮すべき6番目のポイント: AIエージェント - ビジョンから実装まで 今日、私たちはビッグモデルの中に最大のスーパーアプリケーションを見出し、そこに最大のチャンスが潜んでいると考えています。多くの人がまだスーパーアプリケーションを探し求めています。しかし実際には、スーパーアプリケーションは常に存在していました。それはスーパーアシスタントであり、スーパーエージェントなのです。 私はマイクロソフトでゲイツと長年一緒に仕事をしてきましたが、二人ともこの問題について考えていました。何がそんなに難しいのでしょうか?真に有用な仕事をしたい場合、ワークフローを理解することが難しいのです。質問をする際に、ワークフローを段階的に分解できる必要があります。今日では、カスタマーサービスやパーソナルアシスタントのように、ある程度の影響力のあることは可能です。しかし、多くの仕事は不可能です。なぜでしょうか?デジタルブレインを構築する必要があるのです。基盤となるモデルは最初のステップに過ぎません。このモデルの機能はまだ、上記のすべてのタスクを段階的に処理できるほど強力ではありません。なぜなら、タスクを実行できるエージェントを真に構築するには、以下の質問を理解する必要があり、それぞれの部分には対応するスキルが求められるからです。 今日のモデルを用いた優れた事例は既に数多く存在します。例えば、AIヘルスコンサルタントとして、化粧品に関する知識を共有し、商品を推奨してもらうといったことも可能です。今後、この分野ではさらに多くの応用が見られるでしょう。 考慮すべき 7 番目のポイント: オープン ソースとクローズド ソース。 過去数十年にわたり、世界、特に中国における科学技術の発展は、2つの非常に重要な進展によって特徴づけられてきました。 まず、インターネットが登場しました。インターネットのおかげで、あらゆる種類の論文や資料をオンラインで見つけることができるようになりました。 第二に、オープンソースがあります。オープンソースは、アプリケーション開発において、あなたとリーダーとの差を劇的に縮めます。しかし、オープンソースの機能はクローズドソースに近づいているとはいえ、大規模モデルやデータベースに関してはオープンソースとは異なります。中国でも多くの企業がオープンソースプロジェクトに取り組んでいます。MetaのLlama 3.1は非常に好調で、OpenAIのLlamaに近いと主張しています。しかし、私はそうは思いません。これは従来のオープンソースではなく、モデルのみをオープンソース化しているだけで、ソースコードやデータは提供していないからです。したがって、オープンソースシステムを利用する際には、クローズドソースで運用されている大規模モデルシステムの仕組みを真に理解する決意が必要です。 考慮すべき8番目のポイントは、AIガバナンスの重要性です。 AIの急速な発展に伴い、世界中がAIセキュリティに強い関心を寄せています。この問題の影響は甚大です。人工知能はあらゆる産業や社会全体に深刻な影響を与えており、世界の発展は私たち全員が共に取り組まなければならない課題です。 考慮すべき9番目のポイント:人間と機械の関係を再考する 先ほど、テキストからテキスト、テキストから画像、テキストからビデオを紹介しましたが、そのうちどれだけが機械知能によるもので、どれだけが人間とコンピューターの相互作用によってもたらされた衝撃なのでしょうか。 約10年前、ニューヨーク・タイムズのコラムニスト、ジョン・マーコフ氏が執筆した『Machine of Loving Grace』という本がとても気に入りました。この本の中で、彼は技術開発の二つの流れを要約しています。一つは人工知能(AI)、もう一つはIA(Intelligent Augmentation:知能拡張)、つまり人間とコンピュータの相互作用の強化です。コンピュータの登場以来、コンピュータは人々の様々な活動を支援してきました。チェスもその一例です。 実際、人間とコンピュータのインタラクションを真に理解することによってのみ、各世代のハイテク企業において真に商業的に価値のあるリーダーとなることができます。今日、人工知能のインターフェースは非常に明確です。それは本質的に対話プロセスであり、ChatGPTがその代表例です。しかし、OpenAIとMicrosoftについて話すということは、私たちがまだこの時代の初期段階にあることを意味します。彼らは先を進んでいますが、未来にはまだ多くの想像力の余地があります。 考慮すべき10番目のポイント:知性の本質 大規模モデルは既に多くの人々を驚かせていますが、それらと深層学習のための理論的枠組みが未だに存在していません。今日、私たちはどんな理論でも、たとえそれがどんなに小さなものであっても渇望しています。これは、広大な宇宙から極小の量子力学に至るまで、あらゆるものが美しい物理法則によって記述される物理学とは対照的です。人工知能にはそのような理論的枠組みが欠如しており、解釈可能性と堅牢性が欠如しています。現在の深層学習の枠組みは、真の汎用人工知能の実現には程遠いものです。 人工知能の出現については、人々は口にするばかりで、明確な説明がされていません。なぜモデルが一定の大きさに達すると知能が出現するのか?なぜ70ビットのモデルで知能が出現するのか?論理的な説明は不可能です。そのため、私たちはこれらの問題の研究に熱心に取り組んでいます。昨年の夏には、香港科技大学で「創発知能の数理理論」をテーマにしたセミナーを開催し、創発知能の背後にある科学的・数学的原理をどのように明確にし、探究意欲のあるより多くの人々を巻き込むにはどうすればよいかを議論しました。特に、テンセントの「科学探究賞」や「新礎石研究フェローシップ」といったプログラムの登場は、より多くの若手科学者を集め、人工知能の将来の発展における更なるブレークスルーにつながる困難な問題に取り組む自信と確信を与えています。 受賞者の皆様と若手科学者の皆様に改めてお祝い申し上げます。特に人工知能分野における技術の進歩には、何世代にもわたる若い世代の継続的な努力が不可欠です。改めて感謝申し上げます。 いいね! (3件のいいね!)↓ |
若手科学者50²フォーラムにおける沈向陽氏の講演全文:大規模モデルに関する10の考察
関連するおすすめ記事
-
新興高級車ブランドのICUの最新情報:残留幹部の月給は2,690元、退職する従業員は未払い賃金の回収に苦慮しており、投資基準は500万元。
-
Natureのサブジャーナルに掲載されました!北京大学のチームがAIを活用してCOVID-19/エイズ/インフルエンザウイルスの進化方向を予測し、精度を67%向上させました。
-
2000年以降に生まれた中国人学生による論文が『ネイチャー』誌に掲載され、人間が使用する大規模モデルの信頼性が低下していることが示唆された。
-
トップセラーブランドのLi Autoは1日3億元を稼ぎ、1台あたり9,000元の利益を上げています! 李翔:純電気モデルのデザインを調整します。
-
ノーベル賞およびチューリング賞受賞者が率いるCuspAIは、地球規模の気候変動に対処するために3,000万ドルのシード資金を確保しました。
-
8歳の少女がAIプログラミングを習得し、45分でチャットボットを作成し、カルパシー氏を驚かせた。