618ZXW

Google はテスト時間モデルに新しいスケーリング法則を導入し、小規模なモデルで大規模モデルのパラメータの最大 14 倍までスケールアップして実行できるようになりました。

モデルパラメータを増やさず、同じ計算リソースを使用する場合、小さいモデルの方が14 倍大きいモデルよりも優れたパフォーマンスを発揮します。

Google DeepMindの最新の研究は白熱した議論を巻き起こしており、OpenAIの次期新モデル「Strawberry」でこの手法が使用されるのではないかと示唆する声もある。

研究チームは、与えられたプロンプトの難易度に基づいてテスト時の計算リソースを動的に割り当てることで、大規模モデル推論中の計算を最適化する方法を研究しました。

結果は、この方法が、場合によってはモデルパラメータを単純に拡張するよりも経済的かつ効果的であることを示しました。

言い換えれば、事前トレーニング段階では計算リソースを少なく消費し、推論段階では計算リソースを多く消費する戦略の方が優れている可能性があります。

追加の計算を使用して、推論中の出力を改善します。

この研究の核となる疑問は、

与えられた計算予算内でプロンプト問題を解くと、様々な問題に対する異なる計算戦略の有効性に大きな違いがあることが明らかになります。現在の問題に最適なテスト時の計算戦略をどのように評価し、選択すればよいでしょうか?この戦略は、単に大規模な事前学習済みモデルを使用する場合と比べてどうでしょうか?

DeepMind の研究チームは、テスト中に計算を拡張するための 2 つの主なメカニズムを調査しました。

1 つのアプローチは、プロセスベースの高密度バリデータ報酬モデル(PRM)を検索することです。

PRM は、モデルの回答生成プロセスの各ステップでスコアを提供して、検索アルゴリズムをガイドし、検索戦略を動的に調整し、生成プロセス中に誤ったパスや非効率的なパスを識別することで、計算リソースが無駄にならないようにします。

もう 1 つのアプローチは、テスト中にプロンプ​​トに基づいてモデルの応答分布を適応的に更新することです。

モデルは最終的な回答を一度に生成するのではなく、以前に生成した回答を順次修正して改善していきます。

以下は、並列サンプリングと逐次修正の比較です。並列サンプリングではN個の回答が独立して生成されますが、逐次修正では、前の生成結果に応じて各回答が段階的に修正されます。

これら 2 つの戦略に関する研究を通じて、研究チームは、さまざまな方法の有効性はプロンプトの難易度に大きく依存することを発見しました。

そのため、チームは、プロンプトの難易度に基づいてテスト中にコンピューティング リソースを適応的に割り当てる「計算上最適な」拡張戦略を提案しました。

彼らは問題を 5 つの難易度に分け、各レベルに最適な戦略を選択しました。

下の図の左側に示すように、改訂シナリオでは、標準のベスト オブ N 方式 (複数の回答を生成し、最適な回答を選択する) と計算上最適な拡張との間のギャップが徐々に広がり、計算上最適な拡張はベスト オブ N 方式よりも優れたパフォーマンスを発揮しながら、テスト計算リソースを 4 分の 1 に削減できるようになります。

同様に、PRM 検索環境では、計算上最適な拡張により、初期段階ではベスト オブ N よりも大幅な改善が見られ、場合によっては、4 分の 1 の計算リソースでベスト オブ N のパフォーマンスに近づくか、それを上回ります。

上図の右側は、テストフェーズで最適な拡張を実行する PaLM 2-S モデルと、追加のテスト計算を使用しない事前トレーニング済みモデルのパフォーマンスを比較しています。後者は、最大 14 倍の大きさの事前トレーニング済みモデルです。

研究者たちは、両方のモデルにおいて、期待される𝑋トークンを用いた事前学習と𝑌トークンを用いた推論を検討しました。ご覧のとおり、修正されたシナリオ(右上)では、𝑌 <<𝑋の場合、テストフェーズでの計算は、追加の事前学習よりも一般的に優れた性能を示しています。

しかし、事前学習済みトークンに対する推論の比率が高まるにつれて、単純な問題ではテストフェーズでの計算が依然として好ましい方法となり、より複雑な問題では事前学習の方が優れているという傾向が見られます。これは、PRM検索シナリオにおいて研究者によって観察されているものです。

この研究では、テスト時の計算と事前学習の増加の効果も比較しました。計算負荷が同じ場合、単純な問題と中程度の難易度の問題では、テスト時の計算量の増加は、事前学習の増加よりも一般的に優れた結果を示しました。

より困難な問題の場合、事前トレーニングの計算を増やす方が効果的です。

要約すると、この研究では、現在のテスト時の計算スケーリング手法は、事前トレーニング済みのスケーリングを完全に置き換えるものではないかもしれないが、特定の状況では利点が示されていることが明らかになりました。

このことはネットユーザーの間で白熱した議論を引き起こした。

この研究はオンラインに掲載された後、激しい議論を巻き起こした。

一部のネットユーザーは、これが OpenAI の「Strawberry」モデルの推論方法を説明しさえしているとさえ言っています。

なぜそんなことを言うのでしょうか?

昨晩、The Information は、OpenAI の新しいモデル Project Strawberry が今後 2 週間以内にリリースされ、大幅に改善された推論能力を誇り、追加の入力プロンプトが不要になると報じました。

Strawberry はスケーリング法則を盲目的に追求するわけではありません。他のモデルとの最大の違いは、応答する前に「考える」ことです。

したがって、イチゴの応答時間は10〜20秒です。

このネットユーザーは、ストロベリーが Google DeepMind の研究で使用された方法と同様の方法を使用した可能性があると推測しました (doge):

同意しない場合は、別の推論方法を提供して説明してください。

説明しましょう:

この論文では、ベスト・オブ・n サンプリングとモンテカルロ ツリー サーチ (MCTS) について説明します。

Strawberryは、特別なトークン(バックトラッキング、プランニングなど)を備えたハイブリッドなディープラーニングモデルになる可能性があります。人間のデータラベラーと、容易に検証可能な分野(数学やプログラミングなど)からの強化学習を用いて学習される可能性があります。

論文リンク: https://arxiv.org/pdf/2408.03314

参考リンク: [1]https://x.com/deedydas/status... [2]https://x.com/rohanpaul_ai/status/1833648489898594815

- 以上-

Toutiaoの子会社であるQbitAIは、量子ビット技術の契約プラットフォームです。

最先端技術に関する最新ニュースを入手するには、ぜひフォローしてください。