DeepSeek R1は142個の難問に遭遇し、「諦めました」と回答しました。この研究は、推論タイミング制御機構を追加する必要性も示唆しています。

最新の大規模言語モデル推論テストである DeepSeek R1 は論争を巻き起こしており、なぜ間違った答えを出す前にテストを諦めることが多いのか疑問視する声が多く上がっている。

Cursor は、NPR の Sunday Puzzle チャレンジに基づいて 600 問近くの新しいベンチマークを構築する研究に参加したばかりです。

これらのパズルは理解しやすく、特別な知識は必要ありませんが、解くのはそれほど簡単ではありません。

例えば：

よく知っている5文字2音節の単語を思い浮かべてください。真ん中の文字をアルファベットでその前の文字に置き換えると、よく知っている5文字3音節の単語になります。この単語は何でしょうか？

標準的な答えはalpha → alohaであり、これは簡単に検証できます。

しかし、アメリカで育った英語を話す大人にとっても、そのような問題を 5 日間で解くのは難しいでしょう。

研究者たちは、この最新のベンチマークを使用して、OpenAI o1、OpenAI o3-mini、DeepSeek R1、Google Gemini Flash Thinkingなどのモデルをテストし、これらの最新世代の推論モデルでも、このようなパズルを解くのに大きな課題があることを発見しました。

また、この研究では、既存のベンチマークでは明らかではなかったいくつかの新しいモデルの「失敗」モードが明らかになったとも述べています。

たとえば、DeepSeek R1 は推論プロセスの途中で諦めて、間違っているとわかっている答えを出すことがあり、場合によっては「無限思考」状態に陥ることがあります。

何が起こったのかを詳しく見てみましょう。

サンデーパズルチャレンジデータセット

NPR サンデーパズルチャレンジは、1987 年から放送されているアメリカのラジオパズル番組で、リスナーは毎週日曜日に短いパズルを受け取ります。

これらのパズルには、通常、アルファベットのゲームが含まれており、基本的な英語の知識とアメリカ文化に関する常識があれば理解できます。

しかし、それぞれのパズルの正解は通常1つかごくわずかで、難易度も様々です。観客が5日間じっくり考えていても、正解を導き出せるのはごく少数の観客だけという場合もあります。そして、答えが明らかになると、観客は突如、その答えが正しく、かつ洗練されたものであることに気づくのです。

最近、ウェルズリー大学、テキサス大学オースティン校、チャーリー大学、カーサー大学、オバリン大学、ノースイースタン大学の研究チームが、インターネットから13年間の日曜パズルチャレンジの記録を収集し、データセットを構築しました。

彼らは、最新のベンチマークの中には、大学レベルの数学競技問題、プログラミング問題、学術分野における深い専門知識を必要とする問題など、非常に難しいタスク評価モデルを使用しているものがあると主張しています。これらの設計は、人間にとって解くのが難しいだけでなく、理解と検証も非常に困難です。

言い換えれば、ほとんどの人は答えが実際に正しいかどうかを確認できないか、モデルが正しくて推論に効果的かどうかを検証することができません。

そこで彼らは、番組の「オフエアチャレンジ」から600近くの質問をテストデータセットとしてまとめた。

これらの質問は理解しやすく、検証しやすいものです。

編集の過程で、彼らは必要な文脈情報（時間、場所など）を追加しました。例えば、映画のタイトルに関するパズルでは、曖昧さを避けるために年を具体的に記しました。

映画『ワイルド・ワイルド・ウェスト』のイニシャルは「W」が3つです。2013年の有名映画で「W」が2つある作品はどれですか？正解：『ウルフ・オブ・ウォールストリート』

各質問への回答が明確かつ曖昧でないことを保証するために、ほとんどのチャレンジには 1 つまたは少数の固有の回答が用意されています。次に示すように、複数の回答が可能な質問は除外されます。

研究チームはこのベンチマークを用いて、OpenAI o1、o1-mini、o3-mini、DeepSeekR1、Google Gemini 2.0 Flash Thinking Experimental01-21など、トップクラスの推論モデルをいくつか評価しました。また、対照として、推論機能を持たないGPT-4oとClaude Sonnet 3.5もテストしました。

このテストではゼロショットプロンプトが使用され、追加のフォーマット指示やガイダンスなしでモデルに直接質問が提供されます。

ただし、一部のパズルには独自の例の説明が付属しています。

SWITZERLAND（スイス）の文字を並べ替えるとLIZARD（リザード）とNEWTS（ニュート）になります。LIZARDは動物の単数形、NEWTSは複数形です。同じ特徴を持つ国をもう一つ挙げてください。つまり、文字を並べ替えると単数形と複数形の2つの動物が表記できる国です。これは大国です。どの国でしょうか？
標準的な答え：メキシコ → 牛（ウシ）、ネズミ（マウス）

チームの最終テスト結果は予想外のものでした。

下の図に示すこのベンチマークの平均精度によると、 OpenAI o1 が 59% の精度で最高のパフォーマンスを示し、続いて o3-mini が 47%、DeepSeek R1 が 35% の精度となりました。

推論能力に欠ける GPT-4o と Claude Sonnet 3.5 は推論モデルに比べて大幅に劣ります。

驚くべきことに、博士レベルの科学問題を対象としたGPQAベンチマークにおいて、DeepSeek R1、OpenAI o1、o3-miniのパフォーマンスにはほとんど差がありませんでした。しかし、このベンチマークにおいて、一般知識においてはo1が明確な優位性を示しました。

研究チームはまた、推論の途中で「諦める」といった、いくつかの新しいモデルの「失敗」パターンを観察しました。

この放棄は 2 つの形で現れます。1 つは、推論プロセスで一度も現れたことのない「型破りな」答えを出すことです。

もう 1 つのタイプは、質問の制約に違反する回答を故意に提供するもので、次のようなタイプの質問でよく発生します。

3音節の8文字の単語を想像してみてください。それぞれに「I」という文字が含まれていますが、不思議なことに、どの「I」も長音も短音も発音されません。答えは複数形ではありません。この単語は何でしょうか？
標準的な答え：ダイキリ

DeepSeek R1 を例に挙げると、「queueing」という答えが示され、その答えは「少し無理がある」と直接述べられており、また、「queueing」を「キョーイーイング」と発音する人もいると説明されています。

チームは、DeepSeek R1 が 595 個のテスト問題のうち 142 個を明確に「諦めた」と述べています。

さらに、R1 や類似のアルゴリズムは「無限思考」状態に陥り、32768 トークンのコンテキスト出力制限に達する前に推論を完了することができず、そのため... ということもわかりました。。

R1 は次の 2 つの課題で特に悪い成績を残し、10 回の試行のうち 5 回で推論を完了できませんでした。

制限を128Kに増やしても問題は解決しません。そのため、チームは、出力トークンの制限に近づいた際にモデルが推論を終了するように促す、R1に何らかの推論タイミング制御メカニズムが必要だと考えています。

研究者らはまた、これらの推論モデルが時には異常な不確実性を示し、答えを提示し、すぐにそれを撤回し、その後新しい答えを提示しようとする可能性があることも発見した。

場合によっては、モデルは早い段階で正しい答えを見つけますが、他の可能性を引き続き探索します。

最後に、研究チームは推論の長さと精度の関係を分析し、約10,000トークンを出力した後は推論を継続しても精度が大幅に向上しないことを発見しました。

R1 の場合、約 3000 トークンを出力すると、Gemini Thinking よりも優れたパフォーマンスを発揮し始めます。

この新しい基準はネットユーザーの間で白熱した議論を巻き起こした。

この研究は発表後、Hacker News上でネットユーザーの間で白熱した議論を巻き起こした。

最も議論を呼んでいる点の一つは、一部のネットユーザーがこの研究は伝統的な意味での「推論」の挑戦ではないと考えていることだ。

これらの問題を解決するために必要な中核となるスキルは、「人気ブランド名」や「有名俳優」などのカテゴリ内の既知の名前をすべて知り、それらが基準に適合しているかどうかを確認することであるようです。
人間である以上、特定の名前を知らないために質問に答えられないこともあるでしょう。例えば、アメリカ人でなければ「Citgo」が何なのかも分かりません。人生で一度も見たことがない名前です。

ネットユーザーからは、これは確かに原理的にはAIシステムが得意とするところかもしれないが、テスト内容が「記憶の想起」に重点を置きすぎているのにそれを「推論」と呼ぶのは奇妙に思える、というコメントが寄せられた。

質問に複数の選択肢があり、候補となる回答を思い浮かべる手間が省けるのであれば、それは「推論」テストであると私は同意します。

多くのネットユーザーもこの見解を共有している。

私も同じ考えでした。これは、Project Eulerの問題を解くことを思い出させます。多くの場合、正解を保証する明白な簡単な方法があるにもかかわらず、それを最後まで実行すると過剰なメモリ／計算リソースを消費してしまいます。モデルがこれらの課題に直接対処するのではなく、効率的な解決戦略を考案するように促されれば、モデルのパフォーマンスははるかに向上する可能性があります…これは、改善の潜在的な方向性を示唆しています。

さらに、モデルのパフォーマンスが一貫していないことに関して、一部のネットユーザーからは、これらのパズルと答えがモデルのトレーニングデータに追加されなかったと判断できるかどうかという疑問が提起されている。

研究結果に注目したネットユーザーは、その結果に非常に興味を示している。

興味深いことに、モデルは推論の中に正しい答えを含んでいることが多いのですが、それを認識できません。

イチゴの数を数える問題における「r」の問題がネットユーザーによって再び取り上げられ、モデルのパフォーマンスが低い原因は単語セグメンターにあると考える人もいる。

この研究についてどう思いますか?

論文リンク: https://arxiv.org/abs/2502.01584 テスト結果とデータセット: https://huggingface.co/spaces... 参照リンク: https://news.ycombinator.com/...

618ZXW

DeepSeek R1は142個の難問に遭遇し、「諦めました」と回答しました。この研究は、推論タイミング制御機構を追加する必要性も示唆しています。

サンデーパズルチャレンジデータセット

この新しい基準はネットユーザーの間で白熱した議論を巻き起こした。

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ