|
DeepSeek や O1/O3 のような大規模推論モデルが引き続き注目を集める中、その弱点を研究し始めた人もいます。 最新の研究で明らかになったこと: 非常に難しい問題に直面したとき、大規模な推論モデルは、「注意散漫な生徒」のように、問題解決のアプローチを頻繁に切り替えるが、深い探究が不足しているために失敗することがある。研究者はこれを「思考不足」と呼んでいる。 研究チームは、テンセントAIラボ、蘇州大学、上海交通大学から構成されています。主な研究は、オープンソースのDeepSeek-R1およびQwen QwQシリーズモデルに焦点を当てています。 AIの誤った回答を分析した結果、現在の大規模推論モデルは思考プロセスの早い段階では正しい道筋を辿ることが多いものの、「表面をなぞる」傾向があり、すぐに他のアイデアの探索を開始し、結果的に問題の解決に貢献しない数千のトークンが後で生成されることが判明した。 こうした「非効率的な努力」は、コンピューティング リソースを無駄にするだけでなく、回答の精度も大幅に低下させます。 「優柔不断であること」が原因だ。この現象は、数学競技問題などのより複雑な課題を解くときに特に顕著になります。 体系的な分析のために、チームは、MATH500、GPQA Diamond、AIME2024 という 3 つの難しいテスト セットで、QwQ-32B-Preview や DeepSeek-R1-671B などの o1 のようなモデルに対する実験を実施しました。 下のグラフは、正解と不正解におけるトークン使用量と思考の切り替え頻度を比較したものです。平均すると、O1類似モデルでは、思考の切り替え頻度が418%増加するため、誤解では正解よりも225%多くのトークンが消費されます。 この現象を詳細に分析するために、研究チームは、放棄された推論経路が実際に正しい答えを導き出すのに十分であったかどうかを判断するための評価フレームワークを開発しました。 結果は、多くのモデルが最初の推論では正しかったものの、その推論をさらに深く掘り下げることはなかったことを示しました。 誤答の70%以上には、少なくとも1つの正しい推論が含まれています。さらに、誤答の10%以上には、正しい推論が含まれています。 下の例に示すように、思考1は、与えられた方程式が(0,0)と(20,11)を中心とする楕円の方程式に似ていることを認識することで、正しい解釈を導き出しました。2つの式を等しくすることは、2つの方程式を満たす共通点(x, y)を見つける効率的な方法です。 しかし、この合理的なアプローチを詳細に調査し、分析のためにさらに代数演算と最適化手法を使用することに重点を置く代わりに、モデルは頻繁にアプローチを切り替え、追加の 7270 トークンを消費しましたが、それでも正しい答えに到達できませんでした。 最終的には、拡張された COT プロセスからのサポートが不足していたため、推測に基づく答えにたどり着きました。 これらの観察に基づいて、研究者は、考え不足の度合いを定量化する指標 (Underthinking Metric) を提案しました。 このメトリックは、誤った回答におけるトークンの使用効率を測定し、回答の開始から最初の正しいアイデアが表示されるまでに必要なトークンの数とトークンの合計数の比率を計算することで、推論効率を評価します。 実験結果によると、テストされたすべてのO1類似モデルは、顕著な認知バイアスの問題を示している。モデルの精度と認知バイアスの関係は、データセットによって異なります。 MATH500-Hard および GPQA Diamond データセットでは、優れた DeepSeek-R1-671B モデルがより高い精度と高い UT スコアを達成し、誤った回答にはより多くの思考欠陥があったことが示されました。 これは、モデルは全体的に強力であるものの、不確実性がある場合、より長い推論プロセスを生成するものの、効率が低下する可能性があることを意味します。これは、モデルが複数の誤った推論経路を探索し、正しい解に収束できないことが原因である可能性があります。 対照的に、AIME2024 テスト セットでは、DeepSeek-R1-671B モデルは高い精度を達成しただけでなく、UT スコアも低く、思考欠陥が少なく、トークン効率が高いことを反映しています。 これは、モデルが正解に至らなかった場合でも、その推論プロセスがこのタスクにおいて焦点を絞った効率的な状態を維持していることを示しています。研究チームは、この理由として、モデルがAIME2024で求められる質問の種類と推論プロセスにより適合していることが考えられると示唆しています。 思考不足という現象を理解することは、正しい答えを提供し、効果的な推論プロセスを持つモデルを開発する上で非常に重要です。 AIに「一途」になることを教えるにはどうすればいいでしょうか?どうすれば、模範となる人が優秀な学生のように「集中して熱心に勉強」できるようになるのでしょうか? 研究者たちは人間を対象としたテスト戦略を参考にして、 「思考切り替えペナルティ」(TIP)メカニズムを提案しました。 この原則は、試験中に自分自身にルールを設定することに似ています。「まず現在の方法に集中し、アプローチを変える前に少なくとも 10 分間試してください。」 技術的な詳細に関しては、TIP は思考の転換を引き起こすキーワードにペナルティを課し、デコード プロセス中にこれらの単語が生成される可能性を減らし、モデルが現在のパスをより長い時間探索するように強制します。 たとえば、モデルが「あるいは、…を検討することもできます」と書き始めると、TIP はパラメータ (ペナルティの強度 α と期間 β) を調整して、この早すぎる切り替えの傾向を抑制します。 実験結果では、ヒントを追加すると数学のテストでのモデルの精度が向上し、UT スコアが低下することが示されており、無効な切り替えが削減され、回答の品質が向上することが示されています。 たとえば、AIME 2024 数学競争テストでは、ヒントを追加した QwQ-32B-Preview モデルの精度は 41.7% から 45.8% に向上しましたが、UT スコアは 72.4 から 68.2 に低下しました。 さらに、この「痛みのないアップグレード」ではモデルの再トレーニングは必要なく、デコード戦略を調整するだけで済むため、実用的な価値が実証されています。 もう一つカリフォルニア大学バークレー校のアレックス・ディマキス教授も同時期に同様の見解を述べています。 DeepSeek-R1 およびすべての推論モデルでは、誤った回答は長くなり、正しい回答ははるかに短くなります。 これに基づいて、彼らは「Laconic decoding」と呼ばれる単純な解決策を提案しました。 モデルを 5 回並列実行し、トークンが最も少ない回答を選択します。 予備実験の結果、コンセンサス デコーディングは AIME2024 テストで精度を 6% ~ 7% 向上させ、コンセンサス デコーディングよりも優れており、高速であることが示されました。 論文リンク: https://arxiv.org/abs/2501.18585 参考リンク: |
新たな研究により、DeepSeek の弱点が明らかになりました。思考プロセスの頻繁な切り替えにより十分な検討ができず、最も短い答えが正解となることがよくあります。
関連するおすすめ記事
-
[Triton チュートリアル] Libdevice (tl_extra.libdevice) 関数
-
Li Feifei 氏のチームの最新作: ImageNet の空間インテリジェンス バージョンが登場しました。
-
Windows と Mac に Quark をインストールするだけで、コンピュータ全体が AI になります。
-
ポップアップウィンドウがクロード氏を完全に困惑させ、コンピューターを全く使用できなくなった | スタンフォード大学と香港大学の新たな研究
-
比類なきスターたち:2000年代以降の天才たちが中国のAAA SFコンソールゲーム市場を席巻
-
テレンス・タオ氏とユフェイ・チャオ氏の学生たちは、組み合わせ論における難問を共同で解き、23年ぶりの画期的な成果を達成した。