618ZXW

Google で一攫千金を狙って逃げるつもりだったが、AI の歴史を変える人物となった。『Transformer』の著者、ジェフ・ディーン氏へのインタビュー。

2 人の Google 幹部があらゆる質問に答えます: PageRank から AGI までの 25 年間。

現在の主任科学者であるジェフ・ディーン氏、一度退社して復帰した『トランスフォーマー』の著者ノーム・シャジール氏、有名なポッドキャスト司会者のドワルケシュ・パテル氏が対談した。

ビデオが投稿されてからわずか数時間以内に、20万人を超える視聴者がオンラインで視聴しました。

2 人とも長年 Google に勤務し、MapReduce から Transformer、MoE に至るまでさまざまなプロジェクトに携わっており、インターネットと AI 全体を変革した重要なテクノロジーを数多く発明しました。

しかし、ノアム・シャジール氏は、最初はただ手っ取り早く金を稼いで逃げ出すためにグーグルに入社しただけで、世界を変えるような人物になるとは思ってもいなかったと語っている。

2時間にわたる会話の中で、彼らはAIコンピューティング能力の現状を明らかにしました。

  • 単一のデータセンターだけではもはや十分ではありません。Gemini はすでに、複数の主要都市のデータセンター間で非同期的にトレーニングを行っています。

また、現在最も人気のある技術トレンドについても調査しました。

  • AI と会話する方が本を読むより 100 倍も安いため、推論コンピューティング能力を拡大する余地はまだかなりあります。
  • 将来のモデル アーキテクチャは MoE よりも柔軟性が高くなり、異なるチームがそれぞれ異なる部分を独立して開発できるようになります。

...

ネットユーザーたちも、視聴中に発見したハイライトを共有した。

例えば、巨大なMoEモデルをメモリに格納するといったアイデア。

また、「コード内のバグは、AI モデルにプラスの影響を与えることもあります。」

規模が拡大するにつれて、特定のバグが研究者が新たなブレークスルーを発見することを可能にするものになります。

推論コンピューティングの未来スケーリング

AIのコンピューティングパワーは高価だと考える人が多いですが、ジェフ・ディーンはそうは考えていません。彼はこの点を、本を読むこととAIと本について議論することの比喩で説明しています。

現在最も高度な言語モデルは 1 回の操作につき約 10 ~ 18 ドルのコストがかかります。つまり、1 ドルで 100 万トークンを処理できることになります。

比較すると、ペーパーバックの本を購入するコストは、1 ドルごとに 10,000 トークンを購入するのとほぼ同じです (単語数をトークンに変換)。

したがって、大規模なモデルとの対話は、本を読むよりも約 100 倍安価です。

このコスト上の利点により、推論計算能力を高めて AI のインテリジェンスを向上させる余地が生まれます。

インフラストラクチャの観点から見ると、推論時間の計算の重要性の高まりは、データセンターの計画に影響を及ぼす可能性があります。

もともと推論の目的で設計され、後にトレーニングもサポートするように変更されたGoogle の第 1 世代 TPUのように、推論タスク専用にハードウェアをカスタマイズする必要がある場合があります。

推論への依存度が高まると、異なるデータ センターが継続的に通信する必要がなくなり、より分散された非同期コンピューティングが実現する可能性があります。

トレーニングレベルでは、 Gemini 1.5 は複数の主要都市のコンピューティング リソースを活用し始めており、高速ネットワーク接続を通じて異なるデータ センターからの計算結果を同期し、超大規模なトレーニングを成功裏に達成しました。

大規模なモデルの場合、各トレーニング ステップに数秒かかることがあるため、ネットワーク レイテンシが 50 ミリ秒であっても、トレーニングに大きな影響を与えることはありません。

推論レベルでは、タスクがレイテンシの影響を受けやすいかどうかも考慮する必要があります。ユーザーが即時の応答を待っている場合、システムは低レイテンシのパフォーマンスに最適化する必要があります。ただし、複雑なコンテキスト分析の実行など、緊急性が低い推論タスクでは、より長い処理時間を許容できる場合があります。

より柔軟で効率的なシステムであれば、複数のタスクを非同期的に処理できるため、ユーザーの待機時間を最小限に抑えながら全体的なパフォーマンスを向上させることができます。

さらに、より小規模なドラフトモデルの使用など、アルゴリズムの効率性を向上させることで、推論プロセスにおけるボトルネックを軽減できます。このアプローチでは、小規模なモデルで潜在的なトークンを生成し、それを大規模なモデルに渡して検証します。この並列化により、推論プロセスが大幅に高速化され、一度に1つのトークンしか生成できないという制限が緩和されます。

Noam Shazeer氏は、非同期トレーニングでは各モデルコピーが独立して計算され、その勾配更新が中央システムに送信されて非同期適用されると付け加えました。このアプローチはモデルパラメータにわずかな変動を引き起こし、理論的には影響を与える可能性がありますが、実際には成功していることが証明されています。

対照的に、同期トレーニング モードを使用すると、より安定した再現性の高い結果が得られるため、多くの研究者が好むモードです。

トレーニングの再現性を確保する方法について議論した際、ジェフ・ディーンは一つの方法を挙げました。それは、特に勾配更新とデータバッチ同期といった操作のログ記録です。これらのログを再生することで、非同期トレーニングのシナリオにおいても結果の再現性を確保できます。このアプローチにより、デバッグの制御性が向上し、他の環境要因による不整合を回避できます。

バグには利点がある

この話題に続いて、Noam Shazeer 氏は興味深い点を指摘しました。

モデルをトレーニングするときにさまざまなバグが発生する可能性がありますが、ノイズに対する許容度が高いため、モデルが自己調整し、未知の効果を生み出す可能性があります。

一部のバグは、規模が拡大するにつれて実験で異常を示す可能性があり、研究者が改善のための新しい機会を発見できるため、プラスの影響を与えることもあります。

実社会でどのようにバグをデバッグするのかと尋ねられたノアム・シャジーア氏は、通常は小規模で多数の実験を行い、様々な仮説を迅速に検証すると説明しました。小規模な実験ではコードベースはシンプルに保たれ、実験サイクルは数週間ではなく1~2時間で済むため、研究者は迅速にフィードバックを得て調整を行うことができます。

ジェフ・ディーン氏は、多くの実験では理想的な初期結果が得られない可能性があるため、「一見失敗に終わった」実験でも、後の研究に重要な洞察をもたらす可能性があると付け加えた。

同時に、研究者はコードの複雑さの問題に直面しています。継続的に新たな改善や革新を追加する必要がある一方で、コードの複雑さはパフォーマンスとメンテナンスの課題ももたらし、システムのクリーンさと革新の進歩の間でバランスを取ることが必要になります。

未来モデルの有機的な構造

AI モデルは単一の構造からモジュール型アーキテクチャへと大きく変化しつつあると彼らは考えています。

Gemini 1.5Proなどのモデルは、Mixture of Expertsアーキテクチャを採用しており、タスクに応じて異なるコンポーネントをアクティブ化できます。例えば、数学の問題を扱う際には数学に強い部分がアクティブ化され、画像を扱う際には画像処理に特化したモジュールがアクティブ化されます。

ただし、現在のモデル構造はまだ比較的硬直しており、各エキスパート モジュールは同じサイズで十分な柔軟性が欠けています。

ジェフ・ディーン氏は、より先進的なアイデアを提案しました。将来のモデルはより有機的な構造を持ち、異なるチームがモデルのさまざまな部分を独立して開発したり改善したりできるようにすべきだというものです。

たとえば、東南アジアの言語に重点を置くチームはその分野のモジュールの改善に特化し、別のチームはコード理解の向上に重点を置くことができます。

このモジュール式のアプローチは開発効率を向上させるだけでなく、世界中のチームがモデルの進歩に貢献することも可能にします。

技術的な実装面では、モデルは蒸留技術によって継続的に最適化できます。このプロセスでは、大規模で高性能なモジュールをより小さく効率的なバージョンに蒸留し、それらの小さなバージョンを基に新たな知識を学習します。

ルータはタスクの複雑さに基づいて適切なモジュール バージョンを選択できるため、パフォーマンスと効率のバランスを実現できます。これが、Google の Pathway アーキテクチャの本来の意図です。

この新しいアーキテクチャは、インフラストラクチャへの要求を高めます。強力なTPUクラスターと十分な高帯域幅メモリ(HBM)のサポートが必要です。各呼び出しではモデルのパラメータのごく一部しか使用されないかもしれませんが、システム全体では、異なるリクエストを並列に処理するために、モデル全体をメモリに保持する必要があります。

現在のモデルは、80% の成功率でタスクを 10 個のサブタスクに分割できますが、将来のモデルでは、90% 以上の成功率でタスクを 100 個または 1000 個のサブタスクに分割できるようになります。

「なんてこった!」:猫を正確に識別する

振り返ってみると、2007 年は大規模 LLM にとって重要な年でした。

当時、Google は機械翻訳用の N グラム モデルをトレーニングするために 2 兆個のトークンを使用しました。

ただし、N グラム データはディスク ストレージに依存するため、各クエリで大量のディスク I/O (1 単語あたり 100,000 検索など) が必要となり、レイテンシが非常に高くなります。1 つの文を翻訳するのに 12 時間かかることもあります。

そこで彼らは、メモリ圧縮、分散アーキテクチャ、バッチ処理 API の最適化など、さまざまなソリューションを考案しました。

  • メモリ圧縮: ディスク I/O を回避して、N グラム データを完全にメモリに読み込みます。
  • 分散アーキテクチャ: データは複数のマシン (例: 200 台のマシン) に分割されて保存され、並列クエリが可能になります。
  • バッチ API の最適化: リクエストごとのオーバーヘッドを削減し、スループットを向上させます。

このプロセスの中で、コンピューティング能力はムーアの法則に従い始め、その後爆発的な成長を遂げました。

2008 年後半から、ムーアの法則のおかげで、ニューラル ネットワークが実際に機能し始めました。

では、本当に「マジかよ」と感じる瞬間(研究が実際に効果があったと信じられないとき)はありますか?

当然のことながら、ジェフは、Google の初期の頃、モデルに YouTube 動画のフレームから高度な特徴 (猫や歩行者の識別など) を自動的に学習させ、分散トレーニング(2,000 台のマシン、16,000 個のコア) を通じて大規模な教師なし学習を実現していた方法について話しました。

教師なし事前トレーニングの後、モデルは教師ありタスク (ImageNet) で 60% のパフォーマンス向上を達成し、スケーラブルなトレーニング教師なし学習の可能性を実証しました。

次に、Google は依然として単なる情報検索会社であるかどうかを尋ねられると、ジェフは長いスピーチで自分の見解を述べました。

AIはGoogleの本来の使命を果たしました。

簡単に言えば、AIは情報を検索するだけでなく、複雑なコンテンツを理解して生成することができ、その将来の可能性は非常に大きいです。

Googleの将来については、「分からない」。

しかし、Google と一部のオープンソース コードが各開発者のコ​​ンテキストに統合される将来に期待できます。

つまり、モデルにさらに多くのトークンを処理させて検索内で検索させることで、モデルの機能と使いやすさをさらに向上させることができます。

もちろん、このアイデアはすでに Google 内でテストされています。

実際、当社では社内コードベース上で社内開発者に Gemini モデルに関する追加トレーニングをすでに提供しています。

より正確に言えば、Google は社内的にコードの 25% を AI で処理するという目標を達成しました。

Googleで一番幸せだった時間

興味深いことに、2人は会話の中で、Googleに関連するさらに興味深い経験も明かした。

1999年当時、ノアムはGoogleのような大企業に就職するつもりはありませんでした。自分の才能を活かせる場所が見つからないと直感的に感じていたからです。しかし、Googleのデイリー検索ボリューム指数のグラフを見て、すぐに考えが変わりました。

これらの人々はきっと成功するでしょう。彼らにはまだ解決すべき多くの良い問題があるようです。

そこで、彼女は自分の「小さな計画」を念頭に置き、積極的に履歴書を提出しました。

お金を稼いだら、興味のある AI 研究を楽しんでください。

Google に入社した後、彼はメンターの Jeff と出会い (新入社員にはメンターが割り当てられます)、その後 2 人はいくつかのプロジェクトで協力しました。

この時点で、ジェフは Google との合意点についても口を挟みました。

Google が RM ビジョン(レスポンシブでマルチモーダル)を幅広く推進し、たとえ一方向のみであっても多くの小規模プロジェクトを可能にしていることに感謝しています。

これにより、ノアムは自由も得られ、当初は「一つの仕事をして逃げる」つもりだった人たちも、長い間留まることになった。

一方、話題が関係者の一人であるジェフに移ると、彼の学部時代の並列バックプロパゲーションに関する論文が再び取り上げられました。

わずか 8 ページのこの論文は 1990 年の学部論文の中で最優秀作品となり、現在もミネソタ大学図書館に保存されています。

ジェフは、バックプロパゲーションに基づくニューラル ネットワークの並列トレーニングの 2 つの方法を検討しました。

  • パターン分割アプローチ: さまざまな入力パターンを利用可能なプロセッサに分割し、各プロセッサでニューラル ネットワーク全体を表します。
  • ネットワーク分割アプローチとパイプラインアプローチ:ニューラルネットワークのニューロンは利用可能な複数のプロセッサに分散され、それらすべてが通信ループを形成します。特徴は、このパイプラインを通過する際に、各プロセッサ上のニューロンによって処理されます。

彼はまた、異なるサイズのニューラル ネットワークを構築し、いくつかの異なる入力データを使用して 2 つの方法をテストしました。

結果は、ネットワークが大きく、入力パターンが多い場合に、パターン分割法の方が優れた加速効果を持つことを示しています。

もちろん、最も注目すべきは、この論文から 1990 年の「大規模」ニューラル ネットワークがどのようなものであったかがわかることです。

3 層で各層に 10、21、10 個のニューロンがあるニューラル ネットワークは、すでにかなり大きくなります。

論文リンク: https://drive.google.com/file...

ジェフはまた、テストに使用したプロセッサの数が最大 32 個だったことを思い出しました。

(おそらく、その当時は、12年後にアンドリュー・ン氏、クオック・レ氏らと協力し、16,000個のCPUコアを使って膨大な量のデータから猫を見つけることになるとは想像もできなかったでしょう。)

しかし、ジェフ氏は、これらの研究成果が本当に効果を発揮するためには、 「約100万倍の計算能力が必要になる」と認めた。

その後、彼らはAIの潜在的なリスク、特にAIが非常に強力になったときに発生する可能性のあるフィードバックループの問題について議論しました。

言い換えれば、AI は、コードを書いたり独自のアルゴリズムを改善したりすることで、制御不能な加速的改善(つまり「知能爆発」)のサイクルに入る可能性があります。

これにより、AIは急速に人間の制御を超え、悪意のあるバージョンさえも生み出すようになるでしょう。司会者が述べたように、ジェフのようなトッププログラマーは100万人おり、最終的には「100万人の邪悪なジェフ」となるでしょう。

(ネットユーザー): 新たな悪夢が解き放たれました、ハハハ!

最後に、 Google で最も幸せだった頃について尋ねられると、2 人は懐かしそうに語りました。

ジェフにとって、Google の初期の 4 ~ 5 年間で最も幸せだったのは、Google 検索トラフィックの爆発的な増加を目の当たりにしたときでした。

現在 20 億人が使用しているものを構築するのは素晴らしいことです。

最近は、5 年前には誰も信じなかったようなものを Gemini チームと一緒に構築できることをとても嬉しく思っており、このモデルの影響力が今後も拡大していくと予測しています。

ノアム氏も同様の経験と使命を語り、Google の「ミニキッチンエリア」についても嬉しそうに話した。

ここは約 50 個のテーブルがあり、コーヒーや軽食を提供し、人々が自由に会話したり意見を交換したりできる特別なスペースです。

これについて言及されると、ジェフも大興奮しました (doge):

さて、これが二人の専門家が共有した主な内容です。