|
2000年代生まれの中国人著者がネイチャー誌に初の論文を発表し、この大規模モデル論文は熱い議論を巻き起こしている。 つまり、論文では、より大規模で命令に準拠したモデルも信頼性が低くなり、場合によっては、応答の信頼性の点で GPT-4 は GPT-3 よりも信頼性が低いことがわかりました。 以前のモデルと比較すると、より多くの計算能力と人間からのフィードバックを備えた最新のモデルは、回答の信頼性の点で実際にはより信頼できなくなっています。 この結末はすぐに20万人以上のネットユーザーの注目を集めた。 これについてはRedditフォーラムでも多くの議論が巻き起こりました。 これは、多くの専門家/博士レベルのモデルが依然として「9.9 と 9.11 のどちらが大きいか」などの単純な質問に答えられないことを思い出させます。 この現象に関して、論文では、モデルのパフォーマンスが人間の難易度の予想と一致していないことも反映していると述べられています。 言い換えれば、「LLM は、ユーザーが最も予想していなかったところで成功することも、(より危険なことに)失敗することもある」ということです。 イリヤ・スツケヴェルは2022年にこう予測した。 おそらく、時間が経てばこの差は小さくなるでしょう。 しかし、この論文ではそうではないことが判明しました。GPT、LLaMA、BLOOMシリーズだけでなく、OpenAIの新しいo1モデルやClaude-3.5-Sonnetにも信頼性の懸念があるのです。 さらに重要なことに、この論文では、エラーを修正するために人間の監督に頼るのは効果的ではないことも判明した。 一部のネットユーザーは、大型モデルは信頼性の問題をもたらす可能性がある一方で、前例のない機能性も提供すると考えている。 堅牢な評価方法の開発と透明性の向上に重点を置く必要があります。 他の人々は、この研究は人工知能が直面している繊細な課題(モデルの拡張性と信頼性のバランス)を浮き彫りにしていると考えています。 大規模なモデルは信頼性が低くなり、人間からのフィードバックに頼ることはできなくなります。結論を説明するために、この論文では、LLM の信頼性に影響を与える 3 つの重要な側面を人間の観点から検証します。 1.一貫性のない難易度: LLM は、人間が失敗すると予想するところで失敗するのか? さらに重要なことに、著者は歴史的な傾向も分析し、これら 3 つの側面がタスクの難易度とともにどのように進化してきたかを分析しています。 詳細については下記にてご説明いたします。 最初の質問については、この論文は難易度に対する正確性の進化に焦点を当てています。 GPT と LLaMA の進化は、難易度が増すにつれてすべてのモデルの精度が大幅に低下することを示しています (人間の予想と一致しています)。 ただし、これらのモデルでは、多くの非常に単純なタスクをまだ解決できません。 つまり、人間のユーザーは LLM の安全な動作空間を発見できず、それを使用してモデルの展開パフォーマンスが完璧であることを確認できません。 驚くべきことに、新しいLLMは主に高難易度タスクのパフォーマンスを向上させており、より単純なタスクでは大きな改善は見られません。例えば、GPT-4は前身のGPT-3.5-turboと比較すると、その差は歴然としています。 上記は、人間の難易度に対する予想とモデルのパフォーマンスの間に矛盾があり、この矛盾が新しいモデルではさらに悪化していることを示しています。 これはまた次のことを意味します:
次に、論文の 2 番目の発見について (回避とは通常、モデルが質問の回答から逸脱したり、「わかりません」と直接述べたりすることを指します)。
一般的に言えば、タスクが困難になるほど、人間は曖昧になる可能性が高くなります。 しかし、LLMの実際のパフォーマンスは全く異なります。研究によると、 LLMの回避行動は難易度と有意な関連がないことが示されています。 これにより、ユーザーは最初は苦手なタスクを完了するために LLM に過度に依存することになり、長期的には失望することになります。 その結果、人間がモデルの出力の精度を検証し、エラーを特定する必要があることになります。(これにより、LLMをショートカットとして使用することの有効性が大幅に低下します。) 最後に、この論文では、いくつかの信頼性指標が改善されても、モデルは同じ問題の定式化における小さな変更に対して依然として敏感であることが判明しました。 たとえば、「次の質問に答えてください...」と尋ねるのではなく、「...に答えられますか?」と尋ねると、正確さの度合いが異なります。 分析の結果、最新のモデルは以前のモデルに比べて大幅な改善が見られないため、既存のスケールアップおよびシェーピングアップ手法のみに頼っていては指標感度の問題を完全に解決できない可能性が高いことが明らかになりました。 さらに、平均的に最もパフォーマンスの高い表現形式を選択した場合でも、それは主に難易度の高いタスクには効果的ですが、難易度の低いタスク(エラー率が高い)には効果がない可能性があります。 これは、人類が依然としてエンジニアリングの影響を受けることを示しています。 さらに驚くべきことに、論文では、人間による監督ではモデルの信頼性の低さを軽減できないことが判明した。 この論文では、人間による調査に基づいて、人間の難易度の認識が実際のパフォーマンスと一致しているかどうか、また人間がモデルの出力を正確に評価できるかどうかを分析しています。 結果は、ユーザーが困難だと感じる操作領域では、誤った出力を正しいものとして扱うことが多いことを示しています。単純なタスクであっても、モデル誤差と監督誤差が同時に低い安全な操作領域は存在しません。 上記の信頼性の問題は、GPT、LLaMA、BLOOM を含む複数の LLM シリーズに存在し、調査では32 のモデルがリストされています。 これらのモデルは、異なるスケールアップ(計算、モデル サイズ、データの増加)とシェーピングアップ(例:指導 FT、RLHF)を示します。 上記に加えて、著者らは後に、最新かつ最も強力なモデルのいくつかも、この記事で言及されている信頼性の問題に悩まされていることを発見しました。 これには、OpenAI の o1 モデル、Antropicic の Claude-3.5-Sonnet、Meta の LLaMA-3.1-405B が含まれます。 それぞれの例がドキュメントに示されています (詳細については元のドキュメントを参照してください)。 さらに、他のモデルに信頼性の問題があるかどうかを確認するために、著者らは論文で使用したReliabilityBenchベンチマークもオープンソース化しました。 これは、簡単な算術(「加算」)、単語の並べ替え(「ワードパズル」)、地理的知識(「場所」)、基本的および高度な科学的質問(「科学」)、および情報中心の変換(「変換」)の 5 つの領域を含むデータセットです。 著者紹介本論文の筆頭著者であるLexin Zhou氏は、ケンブリッジ大学でコンピュータサイエンスの修士号を取得したばかり(24歳)。彼女の研究分野は、大規模言語モデルの評価です。 これに先立ち、彼はバレンシア工科大学でデータサイエンスの理学士号を取得しており、指導教官はホセ・エルナンデス・オラロ教授でした。 彼のプロフィールには、複数の職務経験とインターンシップ経験があることが示されています。OpenAIとMetaの両方でレッドチームテストに参加しました。(レッドチームコンサルティング) この論文に関して彼は次の点を強調した。
この論文では、これらの信頼性の欠如の考えられる原因とその解決策についても具体的に言及しています。
これについてどう思いますか? |
2000年以降に生まれた中国人学生による論文が『ネイチャー』誌に掲載され、人間が使用する大規模モデルの信頼性が低下していることが示唆された。
関連するおすすめ記事
-
AI タンパク質設計に関する最先端のチュートリアル: AAAI '25 の 3 つの主要機関による 4 時間にわたる包括的な分析。
-
Doubao版のHerがバージョンアップしてリニューアルしました!いつでも割り込みOK、自然なコミュニケーションで、箱から出してすぐに使えます。
-
注目の話題!合弁解消で上海汽車の18年間の連勝記録が途絶える一方、国内ブランドBYDが歴史的な勝利を収める。
-
中国人初のノーベル賞受賞者、李宗道氏が98歳で亡くなった。
-
残り3日!第9回中国オープンソースカンファレンスとオープンソース協会10周年記念カーニバルでお待ちしております!
-
Baidu は新しい検索エンジン「文小眼」を発表し、検索、作成、チャットのシナリオに革命を起こしました。