618ZXW

OpenAI-o1の思考代替法が大ヒット!焦建涛の優秀な学生が、推論タスクに限らず、思考の好みを最適化する手法を提案しました。

OpenAI-o1 の代替手段が登場し、大規模なモデルでタスクの複雑さに応じて異なる時間枠を考慮できるようになりました。

推論を伴う論理的または数学的なタスクに限定されず、一般的な質疑応答タスクも含まれます

最近ベストセラーとなった『Python Machine Learning』の著者セバスチャン・ラシュカ氏は、オンラインで広く流布されている新たな研究を推奨した。

最初の論文は中国の学者、天豪呉氏によって執筆されたもので、氏の指導教官は2011年清華大学特別奨学金受賞者の焦建涛氏であった。

研究チームは、 ThinkP参照最適化と呼ばれる手法を提案した。これは、OpenAI-o1と同様にモデルが内部の「思考」を通じてより良い答えを出力できるようにし最終的には思考プロセスを見せずに結果のみを表示するというものだ。

TPO は思考連鎖プロンプト/推論をトレーニングに組み込みます。

応答する前に、思考の連鎖アプローチを使用し、LLM 基準を使用して応答を評価します (LLM によって生成されたアイデアは除く)。拒否された応答と優先される応答に基づいて、 DPOの優先ペアを形成します (それらの応答からのアイデアを含む)。

Llama 3 8B 命令に基づく結果は、TPO が非常に良好に機能することを示しています。

興味深いことに、思考プロンプトが追加されても、Llama 3 8B Instruct ベース モデルが設定ペアに対して DPO 微調整を行わない場合、ベース モデルのパフォーマンスは思考プロンプトがない場合よりも大幅に低下します

指示データ (直接応答ベースライン) に基づいてモデルを微調整すると (考えたりプロンプトを出したりする必要なしに)、ベース モデルのパフォーマンスが大幅に向上します。

TPO を追加すると、AlpacaEval および Arena-Hard ベンチマーク テストのベースラインと比較してパフォーマンスが約 4% 向上しました。

ネットユーザーたちは、この研究は非常に興味深く、シンプルで実用的であると述べた。

すでに DPO を実行している場合は、この方法がほぼ唯一の選択肢になります。

では、TPO とは具体的にどのようなものなのでしょうか?

追加の手動データ注釈を必要としない 2 つの思考プロンプト テンプレート。

TPOの基本的な考え方は、モデルが最終的な答えを出す前に「思考」プロセスを生成できるようにすることです。この思考プロセスはユーザーには見えず、モデルの内部計算プロセスとしてのみ使用されます。その後、手動でラベル付けされた追加のデータを必要とすることなく、反復的な最適化を通じて思考の質が向上します。

具体的には、実装プロセスは、指示によって微調整された基本言語モデルから始まります。このモデルはまず、プロンプトワードによって誘導され、思考プロセスと最終的な回答という2つの部分を含む出力を生成します。

このプロンプトは、モデルに思考プロセスを書き留めるよう要求する一般的なプロンプトにすることも、モデルに最初に回答の下書きを書いてから評価するよう明示的に要求する具体的なプロンプトにすることもできます。

各ユーザー指示に対して、モデルは複数の異なるバージョンの出力を生成し、各バージョンには思考と応答のセクションが含まれます

さらに、思考プロセスは自然言語で提示されるため、事前に訓練された知識の説明と活用が容易になります。

次に、システムはこれらの出力の回答部分(思考プロセスを除く)を評価モデルに提供し、採点します

評価モデルは、単一の回答を直接採点する ArmoRM のようなモデル、または 2 つの回答を比較してより良い回答を選択する Self-Taught Evaluator のようなモデルになります。

評価結果に基づいて、システムは最高得点と最低得点の回答を、それに対応する思考プロセスとともに選択し、好みのペアを形成します。

これらの好みは、直接選好最適化 (DPO) トレーニングに使用され、モデルはどのような考え方がより良い答えにつながるかを徐々に学習できるようになりました。

プロセス全体は反復的であり、各ラウンドのトレーニング後に取得された新しいモデルは、次のラウンドの思考と回答生成に使用されます。

回答が長くなりすぎないようにするために、TPO は長さ制御メカニズムも導入しました。これは、スコアに長さのペナルティを追加することで、回答の質と簡潔さのバランスをとるものです。

実際の使用時には、モデルによって生成された思考プロセスは非表示になり、最終的な答えだけがユーザーに表示される点に注意してください。

詳細については、興味のある読者は原文論文を参照してください。

このトレーニング方法により、Llama-3-8B-Instruct のような比較的小さなモデルでも、AlpacaEval などのベンチマークで一部の大規模なモデルに近い、あるいはそれを上回るパフォーマンスを実現できます。

AlpacaEval ベンチマーク テストでは、TPO モデルは勝率 52.5% を達成し、ベースラインより 4.1% 向上しました。Arena-Hard テストでは、TPO モデルは勝率 37.3% を達成し、ベースラインより 4.3% 向上しました。

研究では、思考ベースのモデルはトレーニングの初期段階では質問に直接答えるベースライン モデルよりもパフォーマンスが悪かったものの、複数回の反復トレーニングの後は TPO モデルがベースラインを大幅に上回るパフォーマンスを示したことがわかりました

より詳細な分析により、思考は、推論や数学といった従来思考を必要とすると考えられてきたタスクに役立つだけでなく、マーケティング、健康、一般知識といった非推論タスクにおいても優位性を示すことが示されています。このモデルは、訓練を重ねるにつれて、徐々により効率的に(思考時間を短縮して)思考することを学習します。

中国の作家

この研究は、Meta FAIR、カリフォルニア大学バークレー校、ニューヨーク大学の研究者によって共同で提案されました。

最初の論文は中国の学者である呉天浩氏によって執筆されました。

Tianhao Wuは現在、カリフォルニア大学バークレー校でJiantao JiaoとKannan Ramchandranの指導の下、博士課程に在籍しています。

私の学部時代の専攻は数学で、共同指導教員は北京大学の教授であり、清華大学の学際情報科学研究所の非常勤教授でもある王立偉氏でした。

彼の研究は、強化学習を通じて大規模言語モデルの指示追従能力と推論能力を向上させることに焦点を当てており、複数段階の推論を必要とする複雑なタスクを解決できる大規模モデルの構築を目標としています。

さらに、モジュール方式で接続してより強力な集合知を形成できるエージェントで構成された AI 社会を開発しています。

論文リンク: https://arxiv.org/abs/2410.10630

参考リンク: [1] https://x.com/rasbt/status/18... [2] https://thwu1.github.io/tianh...