思考が遅いと、実は精度が30%も低下する！プリンストン大学が、特定のタスクにおける思考連鎖の失敗の秘密を明かす。

OpenAI の o1 により、スローシンキングと CoT (CoT) メソッドが非常に普及しましたが、CoT は実際には一部のタスクでモデルのパフォーマンスを低下させる可能性があります。

たとえば、新しく造られた単語を分類するタスクでは、GPT-4 はゼロショットヒントで最大 94% の精度を達成しましたが、CoT の精度は 64.4% に急落しました。

組み込みの CoT o1-preview の精度はわずか 57.7% です。

CoT がどのタスクを「台無しにする」かは、学界では未解決の問題のままです。

現在、プリンストン大学のコンピュータサイエンス学部と心理学部が協力して、これらのタスクのいくつかの特徴を特定しました。これらのタスクにおける人間のパフォーマンスは、深く考え込んでいるときや、自分の考えを説明するよう求められたとき、低下します。

「一歩一歩考え、しかし足元に注意」というタイトルの新しい論文が arXiv にアップロードされました。

思考の連鎖が破綻する理由の心理学的探究

研究の範囲を絞り込むために、研究チームは CoT の手がかりと人間の言語思考との類似点を見出しました。

大規模モデルと人間の能力は根本的に異なるため、パフォーマンスに影響を与える制約も異なります。例えば、大規模モデルのコンテキスト長は非常に長く、人間の記憶の限界をはるかに超えています。

したがって、チームは、次のような状況では CoT がモデルのパフォーマンスに悪影響を与えると予想しています。

(i) 熟考は人間のパフォーマンスを低下させる可能性がある。(ii) タスクにおける人間のパフォーマンスに影響を与える制約は、大規模なモデルに一般化できる。

実験では、心理学の文献から 6 つのタスクが選択され、その中で暗黙的統計学習、顔認識、異常を含むデータの分類が仮説条件を満たしました。

暗黙的統計学習

心理学的研究により、統計的パターンを含むデータは言語で記述されていない場合の方が人間はより一般化できることがわかっています。

「人工語」は有限状態文法を使用して構築され、参加者はどの単語が同じカテゴリに属するかを識別することが課題となります。

人間の参加者は不正なシーケンスを識別することはできますが、その判断の根拠を言葉で明確に表現することはできません。

いくつかのオープンソースおよびクローズドソースモデルでこのタスクを評価したところ、ゼロショットヒントと比較して CoT ヒントを使用するとパフォーマンスが大幅に低下することが明らかになりました。

顔認識

別の種類のタスクでは、言語的思考が視覚的知覚を妨げることがあり、これは言語的オーバーシャドウイングと呼ばれる現象です。

この実験では、古典的な顔認識課題が用いられました。まず顔写真が提示され、参加者は候補リストから同じ人物を見つけるように指示されました。

人間の参加者は、話さずに選択すると精度が高くなります。選択を行う前に見た顔を説明すると、顔認識能力は実際に低下します。

マルチモーダル大規模モデルの性能はほぼ同等でしたが、CoT手がかりを用いた場合、すべてのモデルのパフォーマンスが低下しました。性能の低いモデルは、「すべての画像は同じ人物です」と回答する傾向がありました。

例外を含むパターンによるデータの分類

3 番目のタイプのタスクはより複雑で、トラップが含まれます。

10 種類の異なる車があり、クラス A とクラス B に分類する必要があります。各車には 5 つの特性があります。

1 つの固有機能 (ナンバープレート番号、車両ごとに異なります)。
色など、一見通常の機能の 1 つですが、20% の例外があります。
トランスミッションの種類、シートの材質、ドアの数など、分類とは関係のない 3 つの特徴。

実際には、ナンバープレートの番号だけが最も信頼できる分類基準です。

10 台の車すべてを正しく推測できなかった場合は、順序が再度シャッフルされ、最大 15 ラウンドで次のラウンドが行われます。

CoTの手がかりがない場合、モデルは各車両の正しい分類を素早く記憶します。しかし、CoTがある場合、モデルはパターンを要約しようとして行き詰まり、必要な試行回数が増加します。

これは、分類の根拠を説明するよう求められたときの人間の行動に似ています。

大規模なモデルと人間の制約は異なります。

一方、研究チームは、思考の面で人間のパフォーマンスを低下させる3つのタスクも特定しましたが、大規模モデルではCoTの手がかりを使用することでパフォーマンスを向上させることができます。

自然言語推論
空間的直観（モデルに関する事前の知識の欠如を伴う）
ワーキングメモリの制限を伴うタスク

チームの分析によれば、モデルと人間は根本的に異なる能力を持っており、異なる制約がそのパフォーマンスに影響を及ぼしていることが示唆されている。

これは、大規模モデルが、人間をはるかに超える作業記憶（コンテキストの長さ）と特定の論理的推論能力を備えているためです。

つまり、CoT が良いかどうかは具体的な状況によって決まります。

この研究のより大きな意義は、認知心理学と大規模モデルとのつながりを確立することにあります。

論文の考察セクションでは、過去数十年間に心理学界が蓄積した豊富な文献から、大規模モデルの分野を前進させるさらなる洞察が得られる可能性があることを示唆しています。

論文の宛先:
https://arxiv.org/abs/2410.213

618ZXW

思考が遅いと、実は精度が30%も低下する！プリンストン大学が、特定のタスクにおける思考連鎖の失敗の秘密を明かす。

思考の連鎖が破綻する理由の心理学的探究

暗黙的統計学習

顔認識

例外を含むパターンによるデータの分類

大規模なモデルと人間の制約は異なります。

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ