618ZXW

Slow Thinking のメタバージョンが登場しました。Tian Yuandong のチームは Fast Thinking と Slow Thinking を統合し、ユーザーが迷路を進んだり、ボックスを押したりできるようにしました。

Slow Thinking のメタバージョンもここにあります。

Tian Yuandong のチームは、高速思考と低速思考をシームレスに組み合わせ、パフォーマンスを向上させながらコストを削減する新製品Dualformerを発表しました。

迷路やプッシュボックスなどの複雑な問題を解くことができます。

Dualformer モデルは、推論の軌跡と最終的な答えに基づいてモデルをトレーニングし、特定の戦略に基づいていくつかの軌跡を破棄することで、速い思考のような近道を取りながら遅い思考を模倣できます。

これにより、より簡潔な CoT (CoT) の形成が可能になります。

結果によると、低速思考モードでは、Dualformer は 97.6% の最適解決率を達成し、推論ステップ数を 45.5% 削減しました。

高速思考モードと低速思考モードの自動切り替えでも、最適な成功率は 96.6% に達し、推論ステップ数は 59.9% 削減されました。

O1がプレイできない迷路ゲームを解く

O1 は、大規模モデルの推論能力を大幅に向上させることができるシステム 2 (Slow Thinking) を普及させました。

ただし、これには計算コストの増加が伴います。

Dualformer は、速い思考と遅い思考を効果的に組み合わせることで、この問題を軽減します。

これは、複雑な推論タスクを解決できるモデルであるSearchformerの研究成果に基づいています。A*探索アルゴリズムによって生成されたパスで学習され、パスプランニングタスク(迷路や倉庫番ゲームなど)で優れたパフォーマンスを発揮し、より効率的に最適解を見つけます。

研究により、人間は思考プロセスにおいて近道を探す傾向があることが分かっています。人間の行動をさらにシミュレートするために、Dualformerはランダムな推論軌跡データで学習し、学習中にカスタマイズされたドロップオフ戦略に従って構造の一部を落下させました。

たとえば、経路計画タスクを扱う場合、検索軌跡内のさまざまな句(近い句、句内のコスト トークン、作成句など)に基づいて、近い句のみを破棄することから軌跡全体を破棄することまで、4 つのレベルの破棄戦略が設計され、これらの戦略はトレーニング中にランダムに選択され、適用されました。

これらの戦略に基づいて、Dualformer はより簡潔で効率的な検索および推論プロセスを学習できます。

推論フェーズでは、Dualformer を高速モード (ソリューションのみを出力)、低速モード (推論チェーンと最終ソリューションを出力)、または自動モード (推論モード自体を決定) で構成できます。

この柔軟な推論モデル設計により、人間の思考がさまざまな状況で意思決定を行うのと同様に、モデルはさまざまなタスク要件とシナリオに適応できます。

具体的なタスクに関しては、モデルが経路計画を実行できるようにするための迷路や倉庫番ゲーム、および数学的推論タスクが研究に含まれていました。

それに比べて、o1-preview モデルと o1-mini モデルによって出力されたパスは迷路タスクでは良くなく、「壁を通り抜ける」ことになります。

Quick Think モードでは、Dualformer は次のように動作します。

Dualformer はこれらのタスクを 80% の最適成功率で実行し、ソリューション データのみでトレーニングされたソリューションのみのモデル (最適成功率はわずか 30%) を大幅に上回りました。

ゆっくり考えるモードは次のように現れます。

30×30 迷路タスクでは、最適な解決策を 97.6% のケースで達成でき、推論ステップは 45.5% 削減されます。

Dualformer は、高速思考モードと低速思考モードを自動的に切り替えることで、最適な成功率 96.6% を達成し、Searchformer と比較して推論ステップ数を 59.9% 削減します。

この方法を Mistral-7B と Llama3-8B に拡張すると、Aug-MATH データセットでのモデルのパフォーマンスが向上しました。

たとえば、Mistral-7B モデルでは、Pass@20 で測定されたベースライン モデルの絶対精度は、p = 0.1、0.2、および 0.3 の場合に 61.9% に増加します。

最後に、研究チームのラインナップを見てみましょう。

この研究はTian Yuandongらによって行われた。

Tian Yuandong は現在、Meta FAIR の研究科学者ディレクターとして、LLM 推論、計画、意思決定グループを率いています。

Qinqing ZhengはFAIRのエンジニアで、生成モデルと強化学習を専門としています。浙江大学で学士号を取得し、シカゴ大学で博士号を取得しました。2017年から2019年まではFacebookでリサーチサイエンティストとして勤務し、Facebookの広告推奨モデル向けの分散学習システムの構築に貢献しました。

サインバヤル・スフバータルはFAIRの研究科学者であり、主に大規模モデル推論と記憶の研究を担当しています。以前はGoogle、DeepMind、Metaに勤務していました。

マイケル・ラバットはFAIRの創設メンバーの一人です。Metaに入社する前は、マギル大学コンピュータ工学部の教授を務めていました。彼の研究分野は、機械学習、分散アルゴリズム、信号処理です。

論文の宛先:

https://arxiv.org/pdf/2410.09918