618ZXW

O1だけが唯一の道ではありません!MITの新研究:テスト中のトレーニングにより、モデルの推論能力が最大5.8倍向上します。

o1 は大規模モデル推論への唯一のパスではありません。

MIT の新しい研究により、テスト中に大規模なモデルをトレーニングすると、推論パフォーマンスが大幅に向上することがわかりました。

極めて困難な ARC タスクに取り組む場合、精度は最大 5.83 倍向上します。

このようなパフォーマンスは、GPT-4 や Claude を上回るだけでなく、他の推論方法と組み合わせると、平均的な人間のレベルを超えることもできます。

OpenAI o1 チームのメンバーであるNoam Brown 氏は、o1 の大規模計算は最善のアプローチではないかもしれないと述べ、学者たちが推論能力を向上させるための新しい方法を模索していることを嬉しく思っていると語った。

テストでモデルをトレーニングする

従来のテスト前トレーニング モデルとは異なり、テスト時トレーニング (TTT) では、展開フェーズで新しいテスト サンプルに直面したときに、トレーニング済みのモデルを推論に直接使用しません

推論の前に、テスト サンプル自体に含まれる情報を使用して、迅速なトレーニング プロセスを通じてモデル パラメータを調整します。

全体として、TTT プロセスには、トレーニング データの生成、モデル適応パラダイムの設計、推論戦略という3 つの主要な段階があります。

データ生成の中核は、データ拡張を通じてテストタスクに固有の入出力ペアの利用率を最大化することであり、これは 2 つのステップに分けられます。

まず、leave-one-out に基づいて新しいタスクが構築されます。

K 個の入力と出力のペアを含むテスト タスクの場合、各サンプルはテスト サンプルとして確保され、残りの K-1 個のサンプルはトレーニング サンプルとして使用され、K 個の新しい TTT トレーニング タスクが構築されます。

これにより、単一のテスト タスクから開始して、構造は同一だがコンテンツが補完的な K 個の新しいタスクを構築し、TTT トレーニング データを拡張できます。

これを基にして、著者らはデータ拡張も実行しました。これには主に、入力と出力にさまざまな幾何学的変換を適用することと、トレーニング サンプル ペアの順序をシャッフルすることが含まれます。

このステップにより、TTT トレーニング セットのサイズが大幅に拡張される可能性があります。

TTT データ構築プロセス全体は高度に自動化されており、手動による注釈に依存しません。

構築された TTT データセットを使用して、事前トレーニング済みの言語モデルをテスト用にトレーニングできます。

テスト中のリソース制約を考慮し、著者らはパラメータ効率の高いLoRAを採用しました。LoRAは、各テストタスクごとに独立したアダプタパラメータのセットを学習し、それらを事前学習済みモデルの各層に付加します。パラメータは、元の重みに低ランク行列を乗算することで調整されます。

さらに、プロセス中にすべてのプレフィックスシーケンスの予測が追加されました。その目的は、様々な長さのデモンストレーションサンプルの損失を計算することで、モデルが限られた情報から抽象的なパターンをできるだけ早く要約できるようにし、堅牢性を向上させることでした。

最後に、TTT 効果を最大化するために、著者らは推論フェーズ中にデータ拡張とアンサンブル学習戦略を適用しました。

推論プロセスでは、まず一連の定義済み幾何学的変換演算子 (回転、反転など) を使用して元の入力を拡張し、同等の視点から複数の入力バリアントを生成します。

次に、各バリアント入力が並列に LoRA 調整モデルに入力され、独立して予測が実行され、その後、元の入力空間に整列されて復元され、ペアの予測のセットが取得されます。

ペアワイズ予測に基づいて、2 段階の投票プロセスを通じて統合と融合が実現されます。

  • 最初のレイヤーは、各変換内で投票を実行し、最も信頼度の高い上位 3 つの予測を選択します。
  • 2 番目のレイヤーは、さまざまな変換の下での上位 3 つの予測の間でグローバル投票を実行し、最終的な上位 2 つを出力として選択します。

この推論戦略は、データ拡張を通じて入力の多様性を導入するだけでなく、階層的投票を使用してさまざまなソースからの予測を構造的に組み合わせ、TTT メソッドのパフォーマンスをさらに向上させます。

ARCミッションの精度が最大6倍に向上

TTT 方式の有効性を評価するために、研究チームは 8B パラメータの GPT-3 をベースモデルとして使用してテストを実施しました。

TTT を使用せずに微調整のみを行った場合、ARC データセットでのモデルの精度はわずか 18.3% でしたが、TTT を追加した後は 47.1% に向上し、157% 増加しました。

さらに、著者らはテストのサブセットとして ARC データセットから 80 のタスクをランダムに選択しました。

テストの結果、TTT メソッドにより 1B モデルの精度が大幅に向上し、調整されたモデルは調整されていないモデルのほぼ 6 倍の精度を達成したことが明らかになりました。

さらに、調整前と調整後では、1Bスケールモデルと8Bスケールモデル間の相対的な差が縮小しました。

さらに、著者らは、TTT 法と、以前に ARC タスクで優れた結果を達成したBARC (報酬モデル構築のためのブートストラッピング アプローチ) 法を比較し、組み合わせました。

具体的には、著者らはまず 2 つのシステムを個別に実行し、各テスト タスクの出力を取得しました。

2 つの出力が完全に同一である場合、推論結果は正しいとみなされます。

出力結果に矛盾がある場合は、BARCがすべてのテストサンプルをカバーする明確かつ一意のソリューションプログラムを生成できるかどうかを確認してください。生成できる場合、BARCの出力はより信頼性が高いと判断されます。

逆に、BARC が複数の候補プログラムを生成したが、最適なソリューションを決定できない場合、または制約を満たすプログラムを生成できない場合は、TTT の出力の方が信頼性が高いと見なされます。

2つの手法を組み合わせて使用​​した場合、最先端(SOTA)スコア61.9%が達成され、平均的な人間のレベルを超えています

もう一つ

著者のツイートによると、この論文が発表される前に、MindsAIと呼ばれるチームがすでに同じ技術の利用を発見していたという。

チームは TTT テクノロジーを活用して、58% の精度で ARC チャレンジで 1 位を獲得しました。

著者らが論文を発表した後、MindsAIチームのリーダーであるジャック・コール氏も祝福のメッセージを投稿した。

TTT への関心がこれほど高まるきっかけを作ったことを嬉しく思います。

ジャック氏はまた、TTTを研究している別の学者、スタンフォード大学の中国人博士研究員であるユー・サン氏を推薦し、彼の研究は注目に値すると述べた。

Sun 氏の個人ホームページを見ると、同氏がテスト中のトレーニングに関する広範な研究を行っており、その関連成果は ICML、NeurIPS、ICLR などのいくつかのトップ カンファレンスで採択されていることが分かります。

論文リンク: https://ekinakyurek.github.io...