O1の内部事情が突然暴露？Googleが先に原理を明らかにした。ソフトウェアだけの大規模モデルでは堀は作れない。

OpenAI の最も強力なモデル o1 は、リリースから 1 週間も経たないうちに競争上の優位性を失いました。

8月にGoogle DeepMindが発表した論文によると、その基本原理はO1の原理とほぼ同じであることが明らかになったという。

この研究では、モデルパラメータを拡張するよりもテスト時間の計算を増やす方が効率的であることが示されています。

論文で提案された計算最適化テスト時間スケーリング戦略に基づくと、一部のタスクでは、より小さなベースモデルでも14 倍大きなモデルよりも優れたパフォーマンスを発揮できます。

ネットユーザーは次のようにコメントした。

これは O1 の原理とほぼ同じです。
周知のとおり、ウルトラマンは Google より先を行くのが好きなので、O1 が最初にプレビューバージョンをリリースしたのはそのためでしょうか?

これを嘆く人もいました。

実際、Google 自身が述べているように、堀を持つ者はいないし、今後も誰も堀を持つことはないだろう。

先ほど、OpenAIはo1-miniの速度を7倍に向上させ、1日あたり50回の読み取りを可能にしたと発表しました。一方、o1-previewは1週間あたり50回の読み取りが可能とのことです。

計算負荷が4分の1に削減

Google DeepMind のこの論文のタイトルは、 「LLM テストの最適化は、モデルパラメータのスケールアップよりも計算効率が高い」です。

研究チームは、人間の思考パターンにも着目しました。複雑な問題に直面した時、人はより長い時間をかけて考え、意思決定を改善する必要があるため、法学修士課程でも同様の効果が得られるのでしょうか？

言い換えれば、複雑なタスクに直面した場合、LLM はテスト中に追加の計算をより効果的に活用して精度を向上させることができるのでしょうか?

これまでの研究では、この方向性が確かに実現可能であることが実証されていますが、その結果は比較的限られています。

したがって、この研究は、追加の推論計算を少なくすることでモデルのパフォーマンスをどの程度向上できるかを判断することを目的としています。

彼らは、PaLM2-S* を使用して MATH データセットをテストするための一連の実験を設計しました。

主に 2 つの方法が分析されました。

（１）反復的な自己修正：モデルが質問に複数回答えようとし、より良い答えを得るために各試行後に修正する。
（２）検索：この方法では、モデルは複数の候補回答を生成します。

ご覧のとおり、自己修正法を使用すると、テスト中に計算コストが増加するにつれて、標準のベスト・オブ・N 戦略と計算上最適な拡張戦略との間のギャップが徐々に広がります。

探索法を用いると、最適拡張戦略は初期段階で大きな利点を示す。特定の条件下では、最適N戦略と同等の効果を、計算コストの4分の1で達成できる。

事前トレーニング済みの計算に匹敵する FLOP マッチング評価では、PaLM 2-S* (計算上最適な戦略を使用) よりも 14 倍大きい事前トレーニング済みのモデルが比較されます (追加の推論なし)。

結果は、自己修正法を用いた場合、推論トークンが事前学習トークンよりもはるかに小さい場合、テスト時の計算戦略が事前学習よりも優れたパフォーマンスを示したことを示しました。しかし、比率が増加する場合、またはより困難な問題では、事前学習の方が依然として優れたパフォーマンスを示しました。

つまり、どちらの場合も拡張方法が有効かどうかは、プロンプトの難易度によって決まります。

この研究ではさらにさまざまな PRM 検索方法を比較し、その結果、前方検索 (右端) ではより多くの計算が必要であることが示されました。

計算リソースが限られている場合、計算上最適な戦略を使用すると、リソースを最大 4 倍節約できます。

この研究は、OpenAI の o1 モデルとほぼ同じ結論に達しています。

O1モデルは思考プロセスを洗練させ、様々な戦略を試し、間違いを認識します。さらに、強化学習（トレーニング中に計算）と思考時間（テスト中に計算）を増やすことで、O1のパフォーマンスは向上し続けます。

しかし、OpenAI はモデルをより早くリリースしたのに対し、Google は PaLM2 を使用しており、Gemini2 用の更新バージョンをまだリリースしていません。

この新たな発見は必然的に、昨年の Google 社内文書で提起された視点を思い起こさせる。

私たちには堀がありません。OpenAIにもありません。オープンソースモデルはChatGPTに勝つことができます。

最近は誰もが非常に速いスピードで研究を進めており、常に先を行くことを保証できる人は誰もいません。

唯一の堀はハードウェアかもしれない。

（それでマスク氏はコンピューティングセンターを狂ったように建設しているのですか？）

NVIDIAは現在、コンピューティング能力の優位性を握っていると主張する人もいます。では、GoogleやMicrosoftがより高性能なカスタムチップを開発したらどうなるでしょうか？

OpenAI の最初のチップが最近公開されたことは注目に値します。このチップは TSMC の最先端の A16 オングストロームレベルのプロセスを使用し、Sora ビデオアプリケーション専用に設計されています。

明らかに、大規模な戦場では、ボリュームモデル自体だけではもはや十分ではありません。

参考リンク:
https://www.reddit.com/r/sing..._understands_strawberry_there_is_no_moat/