618ZXW

DeepMind の主任科学者との最近の 10,000 語のインタビュー: モデルは「ゆっくり考える」ことで、その能力が大幅に向上します。

データホエール

データホエールの共有

ジャック・レイによるインタビュー、デジタル・カイウによる翻訳

2月25日、Google DeepMindの主任科学者ジャック・レイ氏がインタビューに応じ、Googleのメンタルモデルの開発について詳しく語った。

ジャック・レイは、推論モデルは 人工知能 開発の新しいパラダイムこの推論モデルは瞬時の応答を追求するのではなく、推論中の思考時間を増やすことで回答の質を向上させます。これにより、「スローシンキング」モードという新たなスケーリング則が生まれ、これは従来の推論モデルの改善に繋がります。 人工知能 パフォーマンスを向上させる効果的な方法。

ジャック・レイ氏は、推論には長いコンテキストが重要であり、「コンテキストを拡張し、計算を高速化し、コストを削減する」というサイクルが今後も進み続けると考えています。

ジャック・レイ氏は、無限のコンテキストの境界は曖昧かもしれないと示唆しています。ユーザーが真に必要としているのは、無限の入力長ではなく、長いコンテキスト情報を効果的に処理・活用し、妥当な時間枠内で高品質な回答を提供できるモデルなのかもしれません。さらに、彼は推論モデルこそが強力なAIエージェントを構築するための中核的な原動力であると指摘しています。

以下はこの対話を翻訳し編集した書き起こしです。

ローガン:今日の番組には、Google DeepMindのチーフサイエンティストであり、Gemini推論プロジェクトの主要リーダーの一人であるジャック・レイ氏をお迎えしています。ようこそ、ジャック。

ジャック:こんにちは、ローガン。招待してくれてありがとう。

ローガン:ジャック、推論モデルとは最も基本的なレベルでどのようなものなのか、簡単に説明していただけますか?

推論モデルの定義

ジャック:まず、事前学習済みのモデルを考えてみましょう。それは既に世界に関する有用な知識を豊富に吸収しているかもしれません。推論モデルの重要な直感は、これらの知識を統合し、新しい、あるいは前例のない特定のシナリオに適用しようとする試みにあります。既知の情報を超えて一般化しようとします。推論プロセスは本質的に既知の情報を統合することであり、一連のステートメントを論理的にたどることもあります。場合によっては、問題自体をさらに探求したり、自身の知識体系をより深く掘り下げたりすることもあります。この統合プロセスこそが、モデルが全く新しいシナリオにおいて真の一般化を達成することを可能にするものであり、まさにこれこそが私たちが推論と定義するものです。

Logan:推論分野における私たちの取り組みに馴染みのない方のために、過去 2 か月間に私たちが発表した内容と現在の進捗状況について簡単に説明していただけますか。

ジャック:その通りです。Gemini Flash Thinkingという推論モデルがあります。すでにリリースされており、AI Studioで無料でご利用いただけます。このモデルは非常に高速で強力です。速度と機能のバランスが非常に優れています。現在、このモデルは主に、質問に答える際に多数の中間思考プロセスを生成するようにトレーニングすることで動作します。AI Studioで自然言語で複雑な質問をすると、モデルが質問に回答する際に生成したこれらの中間思考プロセスを表示、検証、そして読み取ることができます。これらの思考プロセスは、モデルが問題を処理し、中間の詳細を収集し、(問題が難しい場合は)異なるアプローチを検索または推論し、最終的にはより正確で合理的な解決策を見つけるのに役立ちます。これは1月にリリースしたモデルです。実際には、急速にイテレーションを行っており、昨年12月にもバージョンをリリースしました。つまり、Gemini Flash Thinkingはバージョン2のようなもので、まだ実験段階にあり、イテレーションとフィードバックの収集を続けています。これが現在の進捗状況です。

ローガン:これらのモデルが実際に何に使用されているかを簡単に説明していただけますか?

推論モデルの応用シナリオ

Jack:推論モデルは、モデルが即座に応答する必要がなく、レイテンシーが大きな問題にならない多くのユースケースに非常に適していると思います。例えば、コーディングアプリケーションにおいて、Reactコンポーネントの構築のような重要で複雑なコードをモデルに記述させたい場合、詳細な要件を事前に定義しておくと、モデルはまず、どのライブラリをインポートする必要があるのか​​、そしてコンポーネントをどのように構築するのかについて深く考える必要があるかもしれません。つまり、実際に最初のコード行を記述する前に、タスクのあらゆる側面を計画し、検討できるモデルが必要なのです。これは推論モデルの応用例の一つに過ぎません。もう一つの例としては、数百ページに及ぶ、チャートやテキストを含む非常に複雑な金融文書が挙げられます。抽出する必要がある情報は単一の場所にあるわけではなく、単純な検索では抽出できません。複数のソースから情報を集約する必要があります。この場合、まず情報を検索する場所を考え、次にその情報を収集し、思考トークン(つまりテキスト)を使用して情報を統合し、最終的に解決策を導き出すモデルも必要になるかもしれません。したがって、どちらのシナリオも複雑なタスクを伴います。モデルが答えを出す前に思考する時間と引き換えに、ある程度の遅延を許容する必要があります。また、答えの質に対する期待も高くなります。これらは、推論モデルが必要となる典型的な応用シナリオだと思います。

Logan:おっしゃる通りですね。その点について、2つほど補足質問をさせていただきます。まず、もしまだご覧になっていない方がいらっしゃいましたら、GDMウェブサイトの「推論/思考」セクションにあると思います。このグラフを見ると、多くの指標が直線的に上昇傾向にあることが分かります。これは非常に興味深いですね。後ほど、このグラフを詳しく見ていきたいと思います。しかし、モデルのパフォーマンス向上の進捗状況に入る前に、私が大規模な言語モデルを日常的に使用し、使い慣れたチャットアプリケーションやGeminiアプリ、その他の外部インターフェースを通して使用している場合、このモデルの推論機能は、私のような一般ユーザー、あるいは開発者ではない人にとって、実際にどのようなメリットをもたらすのでしょうか?

Jack:最も重要な改善点は、機能強化だと思います。以前は、異なるサイズの事前学習済みモデルのセットを学習させ、それぞれが異なる計算量で質問に答えていました。モデルが大きくなると計算リソースの消費量も増えましたが、同時にモデルはより複雑になり、質問の意図をより深く理解し、より良い回答を提供する可能性も高かったです。現在、私たちは既存のモデルをスケールアップすることなく活用し、代わりに推論に多くの時間を費やすという新しいアプローチを採用しています。基本的に、思考時間を増やすことで、モデルは本来の能力を超えたタスクを試みることができるため、十分な検討なしに性急な回答を出すことを回避できます。そのため、平均的なユーザーにとって、この機能は非常に直感的で実用的だと思います。例えば、より確実な回答を求めたり、より強力な将来のモデルを体験したいといった、レイテンシーを気にしない多くのシナリオにおいて、モデルがより深く考えるまで待つ覚悟があるからです。

この推論モデルは新しいパラダイムを表します。このモデルは「ゆっくり考える」ため、機能が大幅に向上します。

Logan:私だけがそう感じているのかどうかは分かりませんが、他の人や私の聴衆の意見もぜひ知りたいです。ただ、モデルに長く考えさせるだけでより良い答えが得られるというのは、直感に反する気がします。モデルにはある程度の難易度の問題を解決するための基本的な能力があり、稀に、より深く考えることで異なる方法で問題を解決できると考える人もいるかもしれません。しかし、通常、同じレベルの知能で自分の作業を再検証すると、なぜより良い結果が得られるのでしょうか?そこで、より多くの思考や推論に多くのトークンを費やすことと、モデルがより良い答えを出すこととを結びつける、何か根本的な原理やメカニズムがあるのではないかと考えました。この背景について、もしご存知でしたら、ぜひ教えてください。

ジャック:実はかなり直感的なことだと思います。人間でさえ、反応する前に考える時間の方が長いのです。「速い思考と遅い思考」という概念があります。最初は直感的な反応を示すかもしれません。おそらく、これらの最初の反応は、言語モデルが持つ答えが何であるべきかという強力な事前知識に大きく左右されるのでしょう。しかし、言おうとしている論理的プロセスを詳細に検討したり、より深く考えたりすると、誤りが見つかるかもしれません。最初に提示した条件のいくつかが実際には意味をなさず、再評価する必要があることに気づくのです。ですから、批判的に考え、修正することができます。また、問題を解決するために複数のアプローチを模索することもできます。たとえ正確な解決方法がはっきりとわからなくても、複数の異なるアプローチを試します。こうしたことは、モデルがより長い時間思考しているときに多く起こります。その結果、通常はより正確になります。

Logan:推論モデルの進捗についてですが、12月に最初のFlashバージョン2.0をリリースした直後に、最初の推論モデルをリリースし、一連のアップデートを共有しました。評価指標は非常に良好でした。そして1月21日には、思考モデルの2番目のバージョンをリリースしました。一方、世界中で推論モデル、そして推論しながら思考・計算し、テストしながら計算できるモデルが大きな注目を集めています。あなたの視点から見て、これほど急速なイノベーションを可能にしたのは何だと思いますか?データ効率の大幅な向上でしょうか?それともアルゴリズムの大きな進歩でしょうか?それとも、豊富なコンピューティングリソースでしょうか?では、これほど短期間でこれほど驚異的な能力向上を実現した原動力は何なのでしょうか?

ジャック:今私たちが目にしているのは、まさに新しいパラダイムです。応答プロセスと同様に、モデルが思考を出力する際に​​、より多くの計算リソースを推論時間に割り当てる複数の方法を発見しました。 トークン。これが新たな... スケーリングの法則つまり、対数スケール(X軸は対数、Y軸は数学やコーディングタスクなどの重要な指標)を使用して、X軸上の推論コンピューティングパワーへの投資を継続的に増やしていくと、対数線形関係が観察されます。つまり、パフォーマンスは線形に増加するのに対し、推論時間のコンピューティングパワーは指数関数的に増加します。大規模な言語モデルに対応するために高性能コンピューティングクラスターを拡張してきたため、この推論時間のコンピューティングパワーは、利用可能なコンピューティングパワーの範囲内に完全に収まっています。私たちはこの能力を持っており、事前トレーニング用にさらに高性能なコンピューティングパワーを獲得するために投資してきました。今、私たちはこのコンピューティングパワーを別のコンピューティングパラダイムに転用することができます。これは非常に短い期間で起こったため、稲妻のように感じられますが、確かに過去数年間と比較して能力が大幅に向上しました。これは注目に値する現象だと思います。

ローガン:少し補足になりますが、あなたの初期のキャリアはプレトレーニング関連の仕事でしたね。プレトレーニングから現在に至るまでのあなたの仕事について振り返っていただけますか?

ジャック:過去5~6年間、事前学習の取り組みは主に計算能力のスケーリングに焦点を当ててきました。これには、大規模言語モデルの事前学習時に使用する学習スケール、データ量、および1秒あたりの浮動小数点演算回数の増加が含まれます。また、非常に経験的に一貫した現象があります。それは、大規模言語モデルの圧縮率、その負の対数尤度、そして学習に使用される計算能力の間にはべき乗法則が成り立つということです。これは、過去5~6年間、AI言語モデルを改善するための指針となってきました。そして今、私たちは新たな方向性を見出そうとしています。ですから、これがAIの進歩に対する私の考え方なのかもしれません。AIの進歩は、しばしば新たに発見されながらも経験的に一貫した現象を伴います。私たちが通常行うべきことは、これらの現象を追って全体的な能力を向上させることです。

Logan:少し奇妙なフォローアップの質問かもしれませんが、当時の初期のGPT-3モデルの能力を考えると、1年半、あるいは6年未満まで遡っていたら、今日のような成果を上げることができたと思いますか?それとも、推論機能が真に機能し始めるには、ベースモデルが十分に強力になる段階的なプロセスが必要だったのでしょうか?モデルは最終的に何らかの内省を経るからです。あるいは、モデルが思考の中でトークンをどのように認識するかを定義する方が適切かもしれません。今日の成果を達成するには、他のすべてのベースモデルの進歩が必要だったのでしょうか?

ジャック:これは非常に良い質問だと思います。非常に強力なベースモデルがあれば、この発見はほぼ容易に行えることは明らかです。インターネット上で自己批判や推論の例を実際に数多く読んだ、より強力なモデルが存在します。つまり、これらのツールの使い方やツールボックスの概念を既にある程度理解しているということです。強化学習で訓練すると、これらのツールが再び現れ、モデルは詳細な推論やエラーの検出などに非常に優れた能力を発揮すると思います。つまり、強力なベースモデルがあることで、この発見へのアプローチは非常に魅力的になります。もしより弱いモデルを使ったらどうなるかは分かりませんが、もしかしたらそれらの能力も現れるかもしれません。これは非常に良い質問だと思います。このようなシステムを構築するのは、すべてのコンポーネントが連携して動作を開始するほど、はるかに脆弱になると思います。しかし、確かに、誰もが可能な限り小さなモデルを使いたがるので、人々は間違いなくそうしようとするでしょう。そして、人々はこのアイデアを探求しようとするでしょう。

Logan:話題から外れますが、もう一つ質問があります。モデルが推論に多くの時間を費やしても、実際には結果が改善されないということはあり得るのでしょうか?まるで、人間が時々するように、ただランダムなことを言ったり、独り言を言ったり、最終的にはうまくいかない計画を立てたりしているかのように。このような事例はこれまでにありましたか?もしあったとしたら、評価データセットに問題があるのでしょうか?

ジャック:思考モデルの興味深い例は確かにたくさんあります。特に難しい数学の問題を扱う際には顕著です。最初はシンプルでエレガントな解決策が見つかるかもしれませんが、モデルが間違った方向に進み、思考に多くの時間を費やし、最終的に最初の誤ったアイデアに固執してしまうことがあります。はい、実際にそのような事例を目にしたことがあります。私たちは常にモデルをトレーニングし、より良いものにしようとしています。これは、モデル版の舞台恐怖症のようなものだと思います。モデルが特定のアイデアに固執し、そこから抜け出せずに、真に役立つことを言うことができないのです。しかし、これは実際に起こり得ることであり、私たちは常にモデルを改良し続けています。ですから、たまに起こることはあっても、それほど頻繁ではありません。

ローガン:ジャック、あなたと私たちはこのことについて何度か話しましたね。あなたは以前、事前学習に正式に携わっていましたね。DeepMindでのあなたのご経験については少し知っているつもりです。あなたとNomeがGeminiで推論作業を共同で主導する前は、主に何をされていたのか詳しく教えていただけますか?

ジャック: 2014年、GoogleがDeepMindを買収した直後に、ロンドンのDeepMindに入社しました。入社当初から記憶システムに焦点を当てていました。当時、DeepMindはゲーム、特にAtariゲーム向けの強化学習に注力していました。そのため、強化学習における記憶に関する研究に多く携わりました。Atariゲームの中には、Montezuma's Revengeのように多くの記憶を必要とするものもあります。プレイヤーは迷路を探索し、拾ったアイテムや訪れた場所を記憶する必要があるかもしれません。しかし、ある時点で、より現実的なタスクに強い関心を持つようになり、記憶システムを評価したいと思うようになりました。言語モデルはまさにその一つで、記憶を様々な方法で活用する点に特に惹かれました。単に過去に言及された名前付きエンティティのような事実情報を思い出すだけでなく、重要な詳細を関連付けたり、時には情報を蓄積したりすることも含まれる場合があります。言語モデルは、記憶を様々な方法で活用しながら、AGIが完全に解決する必要があるタスクだと感じていました。そのため、当時の私の主な研究対象は、現在で言う言語モデルにおけるロングコンテキストと呼ばれるものでした。その後、GPT-2モデルがリリースされたことで、言語モデルのコンテキスト長の拡張に重点を置きすぎて、データの計算能力の拡張に十分に焦点を当てていなかったことに気づきました。そこで、研究の焦点をDeepMind Londonで大規模言語モデル化プロジェクトを立ち上げました。この方向で急速に進歩し、Googleで複数のTPUポッドにまたがる大規模言語モデルを学習した最初のチームとなり、2020年にこれを達成しました。大規模言語モデルのスケーリングは非常に楽しかったです。8年間主に言語モデルに取り組んできましたが、昨年、研究の方向性を完全に転換し、思考に焦点を当てることにしました。そこで、強化学習に再び取り組み、Google DeepMindの優秀な学習後および推論研究者グループと共同研究を行いました。もちろん、その中には私が非常に尊敬する言語モデルのスター研究者であるNome氏も含まれています。彼の論文はすべて読んでいます。ですから、彼は素晴らしい共同研究者です。はい、これらはすべてここ5、6ヶ月の間に起こったことです。ですから、ある意味では、これはまだかなり新しい変化なのです。

長い文脈の重要な役割

ローガン:私が学んだことの一つは、現在のイノベーションは実は過去のイノベーションの上に大規模に構築されているということです。もしかしたら私が何かを誤解しているのかもしれません、ジャック、もう一度確認していただきたいのですが、これらのイノベーションはすべて過去のイノベーションを反復しているように見えます。以前はこれらの点を結びつけて考えていませんでしたが、以前議論したように、優れた事前学習済みおよび事後学習済みのモデルは、推論能力を実現する前提条件であるように思えてきました。これは長いコンテキストでも同じことが言えるようです。モデルは非常に長い出力と入力から推論できる必要があります。長い出力や長い入力がなければ、推論モデルを活用して今日のような成果を達成することはできなかったと思いますか?

ジャック:こうした能力拡張の相乗効果は本当に素晴らしいと思います。もちろん、拡張競争の中では… ジェミニ コンテキストの長さという問題に初めて直面したとき、これが応用分野になるとは予想していませんでした。重要なのは、こうした機能を構築し続けることで、多くの場合、途方もない付加価値を生み出すということです。これらの機能の既知の用途はすべて確かに有用ですが、予想外の用途こそが最も驚くべきものとなることが多いのです。ですから、非常に長いコンテキストをサポートするだけでなく、非常に長い出力で結果を提示することで、迅速に思考する能力を提供できることは非常に素晴らしいことであり、長いコンテキストにおけるイノベーションこそが、この機能を解き放つ鍵となることに、私も全く同感です。

Logan:はい、本日はインタビューの機会をいただき、質問させてください。私たちは既に100万トークン、そして200万トークンのコンテキストを目の当たりにしてきました。以前、理論的には1000万トークンのコンテキストも実現可能だと申し上げました。長年コンテキスト研究に携わってきた開発者として、開発者は今後もコンテキスト長の拡張を求め続けると考えています。どうすればコンテキストを拡張し続けることができるでしょうか?現在の手法で1000万、あるいはそれ以上のコンテキストへの拡張をサポートできるとお考えですか?コンテキストウィンドウを100万トークンから200万トークン以上に拡張したい場合、技術的なブレークスルーや代替アプローチが必要になるのでしょうか?

ジャック:通常、コスト削減は、新たな発見や効率向上、コスト削減の方法の発見に伴って実現します。長いコンテキストでは、コンテキストの長さを延長するだけでなく、計算を高速化し、コストを削減する方法も頻繁に発見されます。「コンテキストの拡張、計算の高速化、コスト削減」というこのサイクルは今後も続くと考えています現在、多くの未開拓の研究分野が、このプロセスを推進する可能性を示しています。「無限コンテキスト」という概念も興味深いです。無限コンテキストの定義、そしていつ「無限」と言えるのかが、やや曖昧になりつつあるように感じます。しかし、多くの人が心から体験したいのは、どれだけの量の履歴データや情報を継続的に入力しても、モデルがすべてを真に理解し、すべての情報を結び付け、非常にうまく適用してくれるという感覚です。人々が「無限コンテキスト」に求める理想はまさにこれだと思います。実現可能だと感じています。研究のブレークスルーは必ずしも必要だとは思いません。SFの話ではなく、要素のほとんどは既に揃っていて、残りはエンジニアリングによる実装だけだと思います。これは単なる私の推測です。

Logan:モデル思考能力に関連する開発者のユースケースについてお話ししましょう。私たちは多くのユースケースを見てきましたし、私自身もコーディングに関するエキサイティングな応用例を数多く見てきました。開発者は様々な斬新なユースケースを模索しています。先ほどお話いただいた財務分析のユースケースは、非常に有望で、大きな価値を生み出す可能性を秘めていると思います。ところで、これらのユースケースについて深く掘り下げる前に、研究の観点から、どのように研究目標を設定されているのかお伺いしたいのですが。例えば、「モデルの能力を評価指標で測定する必要があるため、優れた学術的評価手法を数多く設計した」と考えているのでしょうか?それとも、「市場からのフィードバックから、これらのユースケースには商業的価値があることが示唆されているため、私たちが予測する特定のユースケースにおいて推論モデルを熟達させること」が目標なのでしょうか?研究方法論の観点から、どのようにこれを実現されているのでしょうか?

ジャック:研究の方向性と評価指標の選択は、実は非常に微妙です。関心のある事柄や能力に評価指標を集中させる方が有利だと考えるかもしれません。しかし実際には、そうすることで細かいシグナルが隠れてしまい、重要なアルゴリズムの開発が困難になることがよくあります。そのため、私たちは通常、非常に具体的なベンチマークに焦点を当てています。これは、外部の人には奇妙に思えるかもしれません。これは、これらのベンチマークがモデルの能力の絶対的な指標であると実際に信じているからではなく、これらのベンチマークによって思考が明確になり、アルゴリズムの開発と改善がより効果的になると考えているからです。

しかし、あらゆる側面で進歩を確実にするために、より広範な評価を実施していきます。そのため、私たちの作業アプローチは、この「内部ループ」と「外部ループ」を組み合わせたものだと考えています。「内部ループ」は小規模な評価に焦点を当て、「外部ループ」は開発者の実際のアプリケーションシナリオに近いものです。私たちは常に評価手法の継続的な改善に取り組んでいます。評価指標は絶えず革新と拡張を続けており、これはアルゴリズム開発自体とほぼ同等に重要です。効果的な測定によってのみ、有意義なフィードバック信号を得ることができるからです。これが「内部ループ」と「外部ループ」に関する私の理解です。現在、私たちはアルゴリズムにおいて非常に重要なブレークスルーを達成したと考えており、これらを活用してGeminiモデルの汎用推論能力を包括的に向上させたいと考えています。このモデルがあらゆる領域で思考能力を効果的に活用し、真のパフォーマンス向上を実現できることを願っています。

そのため、私たちは推論能力がまだ十分に活用されていない領域を常に探求し、高い水準を維持しています。Lightning Thinkingは現在、コード生成において非常に優れたパフォーマンスを発揮していると考えていますが、急速に進化し競争の激しい環境に身を置いているため、さらに高い目標を掲げています。そのため、コード生成は私たちにとって重要な焦点であり、推論能力によって様々なアプリケーションシナリオにおいてコードパフォーマンスを大幅に向上させることができるよう、さらなる努力を注ぐ必要があります。これは私が現在検討している重要な課題の一つです。

ローガン:そのため、あなたと私はGeminiの最新バージョンの開発に尽力し、「Gemini思考モデル」にツール機能を実装したいと考えています。現在、コード実行機能は有効化しており、検索機能の統合も積極的に検討しています。しかし、私がずっと疑問に思っていたのは、なぜこのモデルは思考プロセスにおいてツールを利用できないのかということです。人間は、自分の作業を検証する際に、電卓、ワープロ、インターネットなど、様々なツールを自然に使います。将来、これらの推論モデルは、より良い結果を生み出すために、思考プロセスにおいてツールセットを備えるのではなく、自身の「思考」と生のトークンだけにどの程度依存すべきだとお考えですか?

Jack:全くその通りです。モデルが思考プロセスにおいてツールをますます活用し、問題の核心と本質をより深く理解するようになると、私も全く同感です。ツールの重要性は、モデルの能力を高めることにあります。モデルはコード実行ツールや検索ツールの使い方を学ぶだけでなく、様々なツールを習得する必要があります。今後、ツールの種類はさらに増えていくと予想されます。私の知る限り、Geminiアプリケーションのモデルは既に、検索、マップ統合、Googleに統合されたその他のツールなど、他のツールも利用できます。つまり、これはモデルの「主体性」を、行動の実行だけでなく思考においても高める、非常に興味深い開発の方向性だと思います。これは非常に重要です。

ローガン:ジャック、先ほどツールとそれに関連する問題についてお話しましたが、ユーザーからのフィードバックで最も頻繁に挙げられていたのはまさにツールでした。実際、長いコンテキスト以外にも、開発者からの初期ユーザーフィードバックは主に2つの点に集中していました。1つ目は、モデルがより長いコンテキスト(例えば100万トークン以上)をサポートしてほしいという要望、2つ目は、Geminiモデルでツールと関数呼び出しをサポートしてほしいという要望です。開発者はまた、以前のGeminiモデルと同様に、ツールの使用、関数呼び出し、その他の機能もサポートしてほしいという要望も示していました。ユーザーからのフィードバックの重要性についても触れていただきましたが、あなたの観点から、開発者からのフィードバックはモデルの開発方向性や機能リリースにどのような影響を与えるのでしょうか?

Jack:はい、もちろんです。できるだけ早く実験的なモデルをリリースして、ユーザーがどのように使用し、どのような課題に直面し、どのようなフィードバックを得ているのかを把握できることに興奮しています。実は、ロングコンテキスト機能には少し驚きました。これは非常に興味深い点です。私は推論能力そのものに完全に集中していたため、32Kのコンテキストがユーザーのニーズを満たせない可能性があることにすら気づいていませんでした。モデルがリリースされた後、研究で推論モデルを使用している研究者数名に使用経験について尋ねたところ、彼らはジレンマに陥っていると言っていました。大量の論文を入力して技術的なトピックを深く掘り下げたいのですが、32Kのコンテキスト長では限界があるのです。そこで、Flashモデルを選択してすべてをコンテキストに組み込むか(当時Flashモデルはロングコンテキストをサポートしていたため)、Flash Thinkingモデルを使用しても分析対象に論文や関連資料を1つしか選択できないか、どちらかを選んでいました。その時、これは私の理解を全く超えており、私たちも今になってようやくこの問題に気づいたのです。できるだけ早く対応します。

もう1つの問題は、比較的単純なものですが、昨年12月にアプリがリリースされた際に、API経由でFlashからFlash Thinkingに切り替えようとするユーザーは、コードを修正する必要がありました。これは、APIが思考プロセスと最終的な答えの両方を返すためです。そのため、モデルの呼び出し方法に注意を払っていないユーザーは、思考プロセスから誤った答えや期待される出力を抽出してしまう可能性がありました。この問題は、ベンチマークを実行している一部のユーザーに混乱を招きました。そこで、私たちはコミュニケーションとガイダンスを提供しましたが、ユーザーがモデルをシームレスに切り替えて正しく使用できるように、次回は改善する必要があると認識しました。では、どのようにこれを実現したのでしょうか?1月のアップデートでは、この機能が紛らわしかったため、思考プロセスの出力をデフォルトで無効にしました。はい、これらは私たちが受け取ったフィードバックの一部です。多くのフィードバックの中心にいるのはあなただと存じています。特に興味深い、または予想外だったフィードバックがあれば教えてください。

Logan:はい、素晴らしい質問ですね。「台風の目」という表現はまさに的を射ていると思います。今、私の最大の課題は、開発者からのフィードバックを効果的に収集し、ジャックのような人々に伝え、そのフィードバックを確実に活用することです。最も興味深いフィードバックの一つは、昨年12月に推論モデルを初めてリリースした際に共有した写真を思い出させるのですが、マルチモーダルのパフォーマンスに関するものでした。素晴らしいユースケースを数多く見てきましたが、モデルがマルチモーダル処理において明らかなミスを犯しているわけではなく、むしろユーザーが積極的にマルチモーダル機能を活用できているのが分かります。

これは、これまで議論してきた多くのトピックと密接に関連しています。これらの新機能の登場は、開発者が懸念するあらゆるアプリケーションシナリオのパフォーマンスを包括的に向上させました。そのため、私は個人的に、マルチモーダル推論の分野におけるブレークスルーを期待しています。現在、生成AIに関する議論は、コード生成やテキスト処理に重点が置かれすぎていて、マルチモーダル推論の体系的な説明が不足しているように思われます。しかしながら、Twitterなどのプラットフォーム上で、いくつかの初期の探求が見られるようになりました。開発者がマルチモーダル推論の可能性をさらに深く探求していくことを期待しています。

ジャック:ええ、本当に良い指摘ですね。ジェミニ・フラッシュ・シンキングのようなモデルは、視覚的推論といったイメージベースの分野で非常に強力だと私は思っています。実は、私たちはこの点を十分に強調してこなかったように思います。私自身、この点は非常に有用だと感じていて、これまで何度も実験してきました。公平を期すために言うと、ジェミニ・モデル・ファミリー全体を通して、視覚的推論やビデオ推論といったイメージベースの分野が常に重視されてきたからだと思います。ジェミニをマルチモーダル・ファーストのプロジェクトにしようと試み、その成果は確かにあったと思いますが、残念ながらそうはなりませんでした。人々に十分に伝えていなかったのです。

Logan:はい、質問があります。エージェントについては後ほどお話ししたいと思います。これは、開発者が何に期待しているかという点に立ち返ると、非常に重要な方向性だと思います。誰もがインテリジェントなエージェントを作りたいと考えていると思いますが、エージェントやツールの使い方などについて掘り下げる前に、まず一つ質問させてください。推論モデルはなぜ単語の文字数を数えるのが難しいのでしょうか?また、このユースケースを物語の観点から考えたことはありますか?なぜそれがそれほど重要なのでしょうか?イチゴの「R」を数えるという例は、これまで何度も議論してきました。なぜこれが推論モデルにとって問題になるのでしょうか?

Jack:数草莓里的“R”字母简直是我们的噩梦,我们存在的噩梦。我认为坦诚的回答是,根本问题在于模型的分词,我个人也对根本原因感到好奇。但是,当你让模型数草莓中“R”的数量时,我认为,如果我们回顾一下这个问题出现的历史,因为我稍微研究了一下,我认为这实际上是在GPT-4 发布后开始流行起来的一个测试,因为它相对于GPT-3.5 出现了退步。GPT-3.5 通常会回答“三个”,而GPT-4 出于某些原因通常会回答“两个”,然后很多人指出了这个问题。之后人们开始用它作为一种测试,这个问题就变得流行起来,所以它实际上比推理模型更早出现。

然后我的感觉是,来自OpenAI 方面,随着各种传言,你经常会看到人们将OpenAI 正在研发的某种神秘算法与“草莓里有多少个R”这个问题联系起来。所以它在这方面变得有点像病毒式传播。但是,为什么这对这些模型来说具有挑战性呢?我认为可能是因为某些PDF文本在进行光学字符识别(OCR)时,双“R”被映射到了一个奇怪的双“R”Unicode 字符,导致模型对这些字符的确切作用感到不确定。模型不是逐字符阅读文本的。我们首先使用tokenizer 将文本预处理成tokenized 形式,我认为这最终变成了一个有趣的对抗性任务,尽管模型理解很多很多事情,一旦你将token 组合在一起形成单词和概念,但这种细枝末节的、单词本身组成的细节,在可靠性方面仍然让模型感到困惑.这就是我的看法。但是,我也不确定具体原因。

Logan:我有一个可能有点silly 的后续问题,为什么我们不能轻松地训练模型来解决这个问题呢?如果Tokenization 是根本限制,为什么我们不直接加入一些额外的步骤,比如将一个词按字符拆分,然后在字符周围添加一些buffer,让模型以计算单词字母为训练任务来训练模型?或者说,问题实际上是在于获取单词并在那个过程中拆分它?

Jack:不,我认为如果你创建一个任务,一个强化学习任务,即使模型目前在Tokenization 方面存在问题,需要拼写单词,需要数字母,模型仍然可以学会可靠地完成这项任务。而且我认为,这并不是人们专门策划的任务,因为它确实是一个很奇怪的任务。但是,是的,这确实是解决问题的另一种方法。

Logan: Jack,你是否可以介绍一下推理技术创新的时间线?我的个人感受是,看到我们在过去两三个月里取得的巨大进步,我感到非常兴奋,而且我认为很多内部人员也有同感。

Jack:你可以把时间拨回到十月份,那时我们组建了一个专注于“思考”的团队,整合了许多推理模型。但实际上,甚至在那之前,我想指出的是,我们在去年一整年都在Gemini 中融入了很多非常酷的基于强化学习的推理技术。我们从DeepMind 一些顶尖的推理研究团队那里获得了很多基础技术。最初我们只是把大家召集起来,重新分组,确立了我们的“北极星”目标,以及我们将如何协同工作,然后就开始行动了。我们在十月份启动,我想说,到十一月份,我们对所取得的进展感到非常惊讶,我们致力于推动更深入的“思考”研究,即在模型给出回复之前进行更多思考,并采用更优的强化学习方法。我们看到在数学、科学、技术、工程和数学、编码、多模态等领域的能力都得到了显著提升。所以当时大家都很兴奋,因为一切都在朝着好的方向发展,将大家聚集在一起是非常有价值的。

我和Nome 对整个项目都感觉非常好。然后问题就来了,我们是否有可能在今年发布一个足够好的模型?我们觉得这是有可能的,尽管当时项目才启动大约四周。所以我们继续推进。到十二月中旬,我们有了一个感觉可以放心发布的模型。我们希望它是一个实验性模型,以获得一些真实的开发者反馈。我们也认为用户会非常乐于使用这个模型。它是免费、快速且高性能的。所以我们就发布了那个模型。在假期期间,我们收到了很多反馈,并且持续迭代模型方案。到一月中旬,我们实际上有了一个明显更出色的模型,我们认为它在很多关键领域都得到了显著改进,并缓解了一些开发者反馈的问题。那时,我们整个团队都感到士气高涨。我感觉,将大家聚集在一起进行实验的策略奏效了。大家都能感受到强劲的发展势头。我们发布了那个模型,我认为用户很喜欢它。它还具备工具使用、更长的上下文窗口以及其他一些用户非常欣赏的功能。现在这个团队,我认为,它像一个真正的整体,我们士气高昂,动力十足。我们感觉我们已经发布的模型已经是“昨天的旧闻”了,我们期待着未来发布更多令人兴奋的新版本。

GA 思维模型的方向

Logan:开发人员的反馈之一是,这个反馈在我们所有模型的版本迭代中都很常见,不只是推理模型。所以,Jack,不必有压力,大家都期待正式发布GA(General Availability 通用可用性)版本。他们觉得模型很棒,我们试用后也认为这是一个积极的信号,表明我们正在做的事情受到了外界的认可。从研究角度来看,你认为正式发布GA 版本的时间表是怎样的?或者说,从研究角度,我们是在修复最后的Bug 收尾阶段,还是在性能指标上继续努力?对于Flash Thinking 模型而言,通往正式发布GA 的路径是怎样的?

Jack:我们希望为用户提供更优秀的正式发布GA 模型,这是重中之重。在研究方面,我们有很多方向性的改进想要实现。同时,模型的稳定性也至关重要。正式发布GA 版本对我们至关重要,因为用户显然希望以这个模型为基础进行构建,并将其作为稳定的基石,正式发布GA 版本是关键。所以,正式发布GA 版本已在规划中。

Logan:您和团队是如何权衡这种平衡的?比如,回顾三个月前,11 月份的时候,似乎没人预料到我们会在几周内发布正式发布GA 版本。但现在情况突然转变,在你们出色地完成了模型开发之后,重心转向“我们需要尽快发布,让大家基于它进行开发”。你们是如何看待探索性研究与模型产品化、提升模型能力这两者之间存在的张力的?

Jack:我认为需要对不同团队进行职能划分。核心研究团队就像高速列车,不会减速。我们需要找到方法,将研究成果移交给专门的团队,让他们负责后续的发布工作。对我们而言,保证核心研究持续高速推进至关重要,模型发布不应拖慢研究的节奏。所以,关键是严格划分职能。这有点像软件开发,可以设立主分支和实验性分支。实验性分支可以定期合并主分支的更新,同时保持自身开发工作的持续进行。我个人是这样理解的。

Logan:我认为,无论是外部开发者生态,还是内部AI Studio 团队,以及Gemini 应用团队,都在讨论一个有趣的话题:思考模型的用户体验应该是怎样的?当模型开始“思考”时,响应时间不可避免会延长。过去两年,大家一直关注首个Token 响应时间、延迟等指标。但Flash Thinking 模型的出现,似乎颠覆了这种传统思路。现在,我们反而希望模型能“静下心来,好好思考”。我想知道,从研究角度来看,在探索思考模型的全新用户体验方面,还有哪些工作要做?对于开发者而言,在考虑如何基于这类模型构建产品,以及如何应对模型固有的行为特点时,您有什么想法或建议吗?

Jack:关于思考模型的用户体验,一些重要的研究问题确实与我们愿意投入多少“思考预算”相关。目前,Flash Thinking 模型会根据训练情况自主决定思考的程度和时长。模型会力求高效,尽可能减少思考,但在需要时也会增加思考量。但未来,这可能无法为用户提供充分的控制。我们希望模型能够实现“可操控”,例如,用户可以设定“思考预算”,以T恤尺码(小、中、大)或具体的数值(如Token 预算)来定义思考量。这是一个研究与产品体验交叉的领域,我们正在积极探索,而且我认为非常有趣。另一个研究方向是关于“提前终止思考过程”。用户可能不介意模型长时间思考,但希望能随时中断思考,并让模型在当前状态下,尽力给出最佳答案。我认为这是一个非常有价值的功能,目前模型还不具备,我们希望未来有机会探索实现。我同意你的看法,对于思考模型而言,除了提升模型性能的研究外,产品体验本身也是一个持续演进的研究领域。我们需要不断探索,才能发现用户期望思考模型以何种方式呈现。目前,最佳的解决方案还不清楚。这些想法对您有所启发吗?

Logan:我还有一个补充问题,是关于人机协作的。我想知道,从训练或模型的角度来看,是否有可能引导模型主动与用户互动?例如,当模型判断“仅靠自身思考无法取得进展”时,主动向用户请求更多输入?你认为未来我们会探索这种人与模型之间的互动模式吗?

Jack:我在网上看到有人说,很多人发现在使用推理模型时,为了避免模型误解提问或提问者自身表述不清,在模型长时间思考前,明确提示模型先提出几个澄清问题,这样做非常有用。因此,我认为必须提示模型这样做有点笨拙,我们应该训练模型使其更自然地在适当时候主动提问。我是这样认为的,多轮交互式训练非常重要。

Logan:我想请教一个高层次的问题,或者说一个观点,希望听听你的看法。我们最近推出了Gemini2.0Flash,并将其定位为“为智能体时代构建的模型”,这成为了新闻头条。我感觉推理模型正是我们实现“构建AI智能体”这一使命的关键。从你目前所看到的情况来看,你认为这种说法有多正确?如果我们放弃所有在推理方面的努力,我们还有可能构建出世界所期望的智能体能力吗?或者说,推理是否真的是实现智能体的必经之路?

推理模型驱动AI Agent

Jack:是的,我深信如此。我认为,对于构建有用的智能体能力而言,推理能力至关重要,原因有二:首先是可靠性。在智能体应用场景中,模型需要执行大量的操作,并且要确保每个操作都正确无误,尽管其中许多操作可能非常简单。我认为,在智能体应用中,模型的可靠性至关重要。目前的大语言模型,即使在自然语言文本生成方面,可靠性也并不高。它们经常出现幻觉或小错误。我认为,除了追求模型能力的极限之外,推理以及我们正在研究的思维训练方法,还可以显著提升模型的可靠性。模型可以在行动之前进行思考,并在“思维空间”中发现并纠正错误,然后再将其付诸“行动空间”。这是推理的价值之一。

其次是复杂问题的解决能力。智能体要发挥作用,还需要能够解决非常复杂和开放式的问题。为了实现这一目标,模型需要在真正开始执行第一个动作之前,充分理解要做什么以及为什么要做。模型可能需要进行大量的思考,尤其是在编写软件库或处理其他重要任务时。因此,我认为智能体能力与思考和推理能力是紧密相连、不可分割的。

Logan: Jack,在一月份发布的模型中,有一个亮点是,该模型在LMS 评测中排名第一。LMS 作为用户偏好的一个代表,在业界备受关注。你对此有何看法?你认为用户为什么更喜欢这个模型?是因为我们改变了模型的个性或行为吗?你能详细谈谈吗?

Jack:是的,我认为,在思考研究和后训练方法中,我们投入了大量精力来提升模型在各种推理基准上的表现,几乎没有花时间去优化模型以迎合人类偏好。因此,有趣的是,模型在LMS 评测中表现更好了。在某些方面,比如编码和需要大量推理的谜题类难题,模型性能提升显著,这或许可以理解。此外,与去年12 月份的模型相比,一月份发布的模型在训练后,输出文本长度更长,也更健谈,平均生成更多的tokens 和文本。我认为,这可能给用户一种更健谈、内容更丰富的印象。我并不认为模型在个性或风格上发生了根本变化,它仍然像是Flash 模型的风格,但内容更加丰富,能够更详细地解释事物,并生成更多文本。这也许是用户偏好提升的原因之一。但实际上,我们并没有刻意针对风格进行优化,也没有使用任何LMS 指标来指导优化。看到模型在LMS 评测中取得进步固然是好事,但我们关注的基准还有很多。

Logan:这实际上是一个很好的引言,可以过渡到我一直在思考的一些事情,这些事情是基于您之前就模型进展以及与此并行的大量评估指标的快速饱和所做的评论,而这些评估指标在历史上一直被我们视为模型质量的代表。我很好奇,并且围绕这个问题正在进行一场大型辩论,随着过去几个月出现的所有新模型。但是,从评估的角度来看,您认为我们未来6 到12 个月会走向何方?就像我们是否真的需要,你知道,需要编写评估扩展定律,然后由生态系统实际执行,以确保我们有一种方法来评估这些模型的能力。

Jack:评估正变得越来越具有挑战性。我认为看到像Scale 这样的机构为社区贡献评估标准,真的很棒,例如他们最近赞助了类似人文科学期末考试的评估。他们过去也做过其他基准,比如Seal。而且,是的,我认为关键在于,我们确实需要一些独立的第三方来创建真正有挑战性的评估,这些评估最好能够反映我们在AI 领域真正关注的实际应用。我认为SweetBench 是另一个很好的例子,它有效地推动了编码智能体的能力发展,并将其融入到一个基准测试中,这个基准测试非常具有挑战性,我们也看到了由此带来的进步。所以,是的,未来6 到12 个月情况会如何发展呢?我的意思是,作为一个对技术进步速度非常乐观的人,我确实认为,未来某些模型将不得不开始在实际任务中接受评估,这些任务不能再是简单的或纯学术性的基准,它们应该真正成为衡量实际应用价值的指标,甚至本身就应该是有实际用途的。

所以,我不太清楚这具体会如何演变,但你知道,我们期望这些模型在未来能够达到SweetBench 所设定的软件工程师的专业水平,如果真的达到了,我们又该如何衡量模型的进步呢?我认为我们或许需要将标准提升到顶尖软件工程师的水平,而新的基准,也应该只有顶尖的软件工程师才能真正完成。然而,我个人甚至乐观地认为,在未来12 个月内,我们就能超越这个标准。到那时,我真的不知道该如何评估这些模型了。

也许我们不得不依靠AI模型自身来评估其他模型,或者采用其他类型的评估方法,可能更像是游戏化的大语言模型协同竞技,让它们共同构建一些东西,或者采用其他类似的机制,因为模型评估肯定会变得越来越难。我不知道你是否也注意到了这一点,当我在X 平台上浏览信息流时,关于哪些模型优秀、哪些模型糟糕,总是充斥着各种完全矛盾的看法,而且这些看法往往基于非常主观的、零散的互动体验。还有很多人似乎热衷于进行个人评估,并在网上分享他们自己评估结果的柱状图。虽然我们不清楚这些评估的具体内容,但他们似乎很喜欢用这些图来表达自己对特定模型优劣的判断。所以,我也不知道你是否也对此感到困惑?

Logan:我认为,对我而言,最大的挑战之一在于,目前缺乏一个统一的平台,可以全面了解全球所有AI 模型的状况。我们现在看到的模型信息,就像是时间轴上的一个个孤立的点,或者仅仅是在特定时间节点上的表现,这些信息反而让情况变得更加难以理解。我感觉,我自己也有同感,我们看到的只是某个模型在特定方面的性能、一些零散的评测结果,或者仅仅是在特定应用领域内的表现。而我实际上并不清楚,为了达成这些性能,模型在其他方面做了哪些权衡和牺牲,或者除了我们看到的,模型还能实现哪些其他功能。所以我觉得,我们需要对模型的能力进行更多基于实践的检验。也许可以考虑举办人工智能奥林匹克这样的活动。我只是随便想想,看看有没有可能找到一种方法,让所有人都能直观地了解模型的真实能力。

而且我认为,奥林匹克这个比喻,虽然听起来有点像玩笑,但实际上相当合理,因为它提供了一个公平的竞争平台。奥林匹克的规则和流程都非常透明。你可以观察比赛的全过程,所有细节都清晰可见。但我感觉,现在很多模型评估工作都是在不公开的情况下进行的,普通用户很难清楚地了解评估的具体过程和最终结果。因此,我认为,随着模型能力的不断增强,未来评估结果的透明度和可解释性将变得至关重要。

Jack:是的。我也想知道,评估指标(evals),目前我们使用评估指标在内部帮助我们,指导研究,然后我们也对外使用它们,也许帮助人们理解能力。在未来的某个时候,随着模型变得越来越强大,外部沟通评估指标的意义可能会逐渐降低,而且人们可能会非常清楚地认识到,就像,人们将会了解实际的应用成果,而这将是他们理解这些实用性的方式。因此,例如,与其我们说,这个在数学方面真的很好。它在数学方面取得了出色的成果,不如说,人们正在使用像Gemini 模型这样的模型,并且他们已经取得了许多数学突破,这些突破震惊了数学界,而且这种情况现在几乎每周都在发生,并且已经成为常态。然后,Gemini 模型再次改进了它们,然后这导致了一个特别的新突破,正在生物学或其他领域产生深远影响。所以我感觉这可能是人们理解进步水平的另一种非常有趣的方式,而不是总是那种柱状图和关于这些预设的特定基准的数字。

Logan: Jack,我认为DeepMind 一直是强化学习领域的前沿研究实验室,实际上已经有十年历史了。你是在2014 年加入DeepMind 的,我记得你提到过那是你最初加入的时间。我们在这个领域已经深耕多年。我认为在外部,我的看法是大家都认为推理能力将会实现。我很好奇,DeepMind 内部是否也这样认为?而且,考虑到我们在强化学习领域的深厚积累,为什么我们没有率先发布第一个推理模型呢?

Jack:你知道,我们为自己设定了非常高的标准,力求在各个方面都做到领先。事实上,我们一直以来都掌握着许多核心要素,并且这些要素在去年以一种非常有趣的方式运作。我们拥有一批世界顶级的强化学习人才。他们致力于研究用于推理的强化学习,并将许多非常出色的成果应用于Gemini 模型,显著提升了模型的推理能力,这非常棒。我认为,如果我们当时的目标是争夺第一,我们可能应该减少在其他方向上的探索,集中力量扩展在推理方向上的研究。尽管如此,一旦我们明确了协作方向,行动就变得非常迅速。在一个月内,我们不仅取得了一系列算法突破,还迅速发布了第一个实验性模型。它是免费且快速的,用户可以方便地使用。我们积极收集用户反馈,并在假期期间不断优化模型,收集更多反馈,最终在一月中旬发布了第二个模型。团队的研发势头非常强劲,我认为大家确实找对了方向,并且在正确的领域进行研究。我们只需要重新调整团队的研究重心,然后协同快速推进,而我们最终也做到了这一点。

Logan: Jack,这次对话真的很有意思。说实话,我们目前在推理方面所做的一切工作都令人惊叹。请继续保持这种出色的工作状态。期待与你合作发布更多模型。感谢你今天抽出时间参与这次对话。

Jack:谢谢你Logan。我也很荣幸能参与这次对话。

Logan:感谢收听本期节目。本期节目就到这里,感谢大家的收听,我们下期再见。