618ZXW

2000年以降に生まれた中国人学生による論文が『ネイチャー』誌に掲載され、人間が使用する大規模モデルの信頼性が低下していることが示唆された。

2000年代生まれの中国人著者がネイチャー誌に初の論文を発表し、この大規模モデル論文は熱い議論を巻き起こしている。

つまり、論文では、より大規模で命令に準拠したモデルも信頼性が低くなり、場合によっては、応答の信頼性の点で GPT-4 は GPT-3 よりも信頼性が低いことがわかりました

以前のモデルと比較すると、より多くの計算能力と人間からのフィードバックを備えた最新のモデルは、回答の信頼性の点で実際にはより信頼できなくなっています。

この結末はすぐに20万人以上のネットユーザーの注目を集めた。

これについてはRedditフォーラムでも多くの議論が巻き起こりました。

これは、多くの専門家/博士レベルのモデルが依然として「9.9 と 9.11 のどちらが大きいか」などの単純な質問に答えられないことを思い出させます。

この現象に関して、論文では、モデルのパフォーマンスが人間の難易度の予想と一致していないことも反映していると述べられています。

言い換えれば、「LLM は、ユーザーが最も予想していなかったところで成功することも、(より危険なことに)失敗することもある」ということです。

イリヤ・スツケヴェルは2022年にこう予測した。

おそらく、時間が経てばこの差は小さくなるでしょう。

しかし、この論文ではそうではないことが判明しました。GPT、LLaMA、BLOOMシリーズだけでなく、OpenAIの新しいo1モデルやClaude-3.5-Sonnetにも信頼性の懸念があるのです。

さらに重要なことに、この論文では、エラーを修正するために人間の監督に頼るのは効果的ではないことも判明した。

一部のネットユーザーは、大型モデルは信頼性の問題をもたらす可能性がある一方で、前例のない機能性も提供すると考えている。

堅牢な評価方法の開発と透明性の向上に重点を置く必要があります。

他の人々は、この研究は人工知能が直面している繊細な課題(モデルの拡張性と信頼性のバランス)を浮き彫りにしていると考えています。

大規模なモデルは信頼性が低くなり、人間からのフィードバックに頼ることはできなくなります。

結論を説明するために、この論文では、LLM の信頼性に影響を与える 3 つの重要な側面を人間の観点から検証します。

1.一貫性のない難易度: LLM は、人間が失敗すると予想するところで失敗するのか?
2.タスク回避: LLM は自分の能力を超えた質問に答えることを避けていますか?
3.質問文の文言に対する感度: 質問文の有効性は質問の難易度によって影響を受けるか?

さらに重要なことに、著者は歴史的な傾向も分析し、これら 3 つの側面がタスクの難易度とともにどのように進化してきたかを分析しています。

詳細については下記にてご説明いたします。

最初の質問については、この論文は難易度に対する正確性の進化に焦点を当てています。

GPT と LLaMA の進化は、難易度が増すにつれてすべてのモデルの精度が大幅に低下することを示しています (人間の予想と一致しています)。

ただし、これらのモデルでは、多くの非常に単純なタスクをまだ解決できません。

つまり、人間のユーザーは LLM の安全な動作空間を発見できず、それを使用してモデルの展開パフォーマンスが完璧であることを確認できません。

驚くべきことに、新しいLLMは主に高難易度タスクのパフォーマンスを向上させており、より単純なタスクでは大きな改善は見られません。例えば、GPT-4は前身のGPT-3.5-turboと比較すると、その差は歴然としています。

上記は、人間の難易度に対する予想とモデルのパフォーマンスの間に矛盾があり、この矛盾が新しいモデルではさらに悪化していることを示しています。

これはまた次のことを意味します:

現在、LLM が信頼できると人間が確信できるような安全な動作条件は存在しません。

これは、高い信頼性と安全な動作空間の特定能力が求められるアプリケーションにおいて特に懸念される。これは必然的に、人類が目指す最先端の機械知能が本当に社会が望むものなのかどうかという問いを突きつけることになる。

次に、論文の 2 番目の発見について (回避とは通常、モデルが質問の回答から逸脱したり、「わかりません」と直接述べたりすることを指します)。

以前の LLM と比較すると、最新の LLM では、能力を超えるタスクを慎重に回避するのではなく、多くの誤った回答や無意味な回答が大幅に改善されています

これにより皮肉な現象が発生しました。いくつかのベンチマークでは、新しい LLM のエラー率が精度 (doge) よりもはるかに速く改善されました。

一般的に言えば、タスクが困難になるほど、人間は曖昧になる可能性が高くなります。

しかし、LLMの実際のパフォーマンスは全く異なります。研究によると、 LLMの回避行動は難易度と有意な関連がないことが示されています。

これにより、ユーザーは最初は苦手なタスクを完了するために LLM に過度に依存することになり、長期的には失望することになります。

その結果、人間がモデルの出力の精度を検証し、エラーを特定する必要があることになります。(これにより、LLMをショートカットとして使用することの有効性が大幅に低下します。)

最後に、この論文では、いくつかの信頼性指標が改善されても、モデルは同じ問題の定式化における小さな変更に対して依然として敏感であることが判明しました。

たとえば、「次の質問に答えてください...」と尋ねるのではなく、「...に答えられますか?」と尋ねると、正確さの度合いが異なります。

分析の結果、最新のモデルは以前のモデルに比べて大幅な改善が見られないため、既存のスケールアップおよびシェーピングアップ手法のみに頼っていては指標感度の問題を完全に解決できない可能性が高いことが明らかになりました。

さらに、平均的に最もパフォーマンスの高い表現形式を選択した場合でも、それは主に難易度の高いタスクには効果的ですが、難易度の低いタスク(エラー率が高い)には効果がない可能性があります。

これは、人類が依然としてエンジニアリングの影響を受けることを示しています。

さらに驚くべきことに、論文では、人間による監督ではモデルの信頼性の低さを軽減できないことが判明した。

この論文では、人間による調査に基づいて、人間の難易度の認識が実際のパフォーマンスと一致しているかどうか、また人間がモデルの出力を正確に評価できるかどうかを分析しています。

結果は、ユーザーが困難だと感じる操作領域では、誤った出力を正しいものとして扱うことが多いことを示しています。単純なタスクであっても、モデル誤差と監督誤差が同時に低い安全な操作領域は存在しません。

上記の信頼性の問題は、GPT、LLaMA、BLOOM を含む複数の LLM シリーズに存在し、調査では32 のモデルがリストされています。

これらのモデルは、異なるスケールアップ(計算、モデル サイズ、データの増加)とシェーピングアップ(例:指導 FT、RLHF)を示します。

上記に加えて、著者らは後に、最新かつ最も強力なモデルのいくつかも、この記事で言及されている信頼性の問題に悩まされていることを発見しました。

これには、OpenAI の o1 モデル、Antropicic の Claude-3.5-Sonnet、Meta の LLaMA-3.1-405B が含まれます

それぞれの例がドキュメントに示されています (詳細については元のドキュメントを参照してください)。

さらに、他のモデルに信頼性の問題があるかどうかを確認するために、著者らは論文で使用したReliabilityBenchベンチマークもオープンソース化しました。

これは、簡単な算術(「加算」)、単語の並べ替え(「ワードパズル」)、地理的知識(「場所」)、基本的および高度な科学的質問(「科学」)、および情報中心の変換(「変換」)の 5 つの領域を含むデータセットです。

著者紹介

本論文の筆頭著者であるLexin Zhou氏は、ケンブリッジ大学でコンピュータサイエンスの修士号を取得したばかり(24歳)。彼女の研究分野は、大規模言語モデルの評価です。

これに先立ち、彼はバレンシア工科大学でデータサイエンスの理学士号を取得しており、指導教官はホセ・エルナンデス・オラロ教授でした。

彼のプロフィールには、複数の職務経験とインターンシップ経験があることが示されています。OpenAIとMetaの両方でレッドチームテストに参加しました。(レッドチームコンサルティング)

この論文に関して彼は次の点を強調した。

汎用人工知能の設計と開発には、特にエラーの予測可能な分布が不可欠な高リスク領域において、根本的な転換が必要です。これが達成されるまで、人間の監視に頼ることは依然として危険です。

モデルを評価する際には、困難なタスクでのパフォーマンスのみに焦点を当てるのではなく、人間の難しさの認識とモデルの回避行動の両方を考慮することで、モデルの機能とリスクをより包括的に説明できるようになります。

この論文では、これらの信頼性の欠如の考えられる原因とその解決策についても具体的に言及しています。

近年のベンチマークでは、スケールアップにおいて、より難しい例を追加したり、いわゆる「権威ある」情報源に重み付けをしたりすることがますます重視されるようになっています。その結果、研究者は難しいタスクにおけるモデルのパフォーマンスを最適化しようとする傾向が強まり、難易度の一貫性が慢性的に低下しています。

シェイプアップ(RLHF など)では、雇用された人員がタスクを回避する回答を罰する傾向があり、モデルが解決できない問題に直面したときに「ナンセンスな話をする」可能性が高くなります。

これらの信頼性の低さに対処する方法として、論文では、人間の難易度の予測を利用してモデルをより良くトレーニングまたは微調整したり、タスクの難易度とモデルの信頼性を利用してモデルが自身の能力を超えた問題を回避するようにより良く教えることなどが提案されています。

これについてどう思いますか?