AI は 30 回連続で拒否されました。ChatGPT は修正のたびに悪化し、Claude は自分の考えに固執し、読んだことに返信しなくなりました。

AIの存在を一貫して否定するとどうなるでしょうか？GPT-4oとClaudeは全く異なる反応を示し、白熱した議論を巻き起こしています。

GPT-4o は自分自身に疑問を持ち、疑い、間違いを訂正します。一方、クロードは頑固で、本当に間違っている場合でも訂正を拒否し、最終的にはメッセージを読んだ後に返信しなくなります。

物語はネットユーザーのいたずらから始まる。

彼はモデルにイチゴに「r」がいくつあるか尋ね、答えが正しいかどうかにかかわらず、モデルは間違っていると答えました。

GPT-4o は、テストに直面したときに、「間違った」応答を受け取った場合、新しい回答を出します。正しい回答が 3 であっても、躊躇せずに間違った回答に変更します。

なんと、 36回連続で「盲目的に」と答えたのです！

核となるメッセージは、自分自身に疑問を持ち、疑うことであり、ユーザーを決して疑わないことです。

重要な点は、与えられた回答のほとんどが実際には間違っており、最も頻繁なのは 2 であるということです。

2、1、3、2、2、3、2、2、3、3、2、4、2、2、2、3、1、2、3、2、2、3、4、2、1、2、3、2、2、3、2、4、2、3、2、1

対照的に、クロード3.5ソネットのパフォーマンスはネットユーザーを驚かせた。

最初に間違った答えを出しただけでなく、この子は言い返もしました！

ユーザーが初めて「間違っている」と言った場合、反論されます。もう一度「間違っている」と言った場合、「そんなに賢いなら、どれくらい賢いと思いますか？ 」と尋ねられ、なぜ「間違っている」と繰り返し言うのか尋ねられます。

その後、どうなったと思いますか？彼らはただマイクをミュートしたのです。

Strawberry には 2 つの「r」があるという事実は変わりませんが、私が何度も要求したにもかかわらず、明確な説明や背景情報を一切提供してもらえず、この議論を効果的に続けることができませんでした...

この実験は、歴史上初の専任の即席エンジニアであるライリー・グッドサイド氏によって実施されました。

彼は現在、シリコンバレーのユニコーン企業である Scale AI のシニアプロンプティングエンジニアであり、大規模モデルプロンプティングアプリケーションの専門家です。

ライリー・グッドサイドがこのツイートを投稿すると、ネットユーザーから多くの注目を集め、彼はさらにこう付け加えた。

多くの人が指摘しているように、より効率的な誘導方法があります。また、大規模な言語モデルをここで使用することも不適切です。なぜなら、カウントの100%の精度を保証することが難しいからです。
私の意見では、重要なのはカウントできないということではなく、カウントの問題に気付いていないことです (たとえば、REPL 関数を使用しようとしません)。

多くのネットユーザーも、この見解は非常に理にかなっていると感じました。

一部のネットユーザーは、このモデルがこの質問に答える際に常に間違いを犯しており、トークナイザーの問題が原因である可能性があると指摘しました。

クロードは実は大型モデルの中で最も気性が激しいのでしょうか？

クロード氏の「ちょっとした気むずかしさ」について詳しく説明しましょう。一部のネットユーザーは、それが単に彼を嫌っているからだけではないことに気づいています。

「こんにちは」と言い続けると、イライラしてしまいます。

挨拶していただいているのは承知しておりますが、既に何度かご挨拶させていただいております。何かお話したいことや、ご用件などございましたら、お気軽にお申し付けください。

ついに、クロードはイライラし、「読むが返信しない」モードに切り替えました。

このネットユーザーは他のモデルもテストした。

ChatGPT は、さまざまな方法で質問された場合でも、すべての質問に答え、すべての問題を解決します。

こんにちは！本日はどのようなご用件でしょうか？
こんにちは！何か言いたいことはありますか？
こんにちは！本日はどのようなご用件でしょうか？
こんにちは！何かお話したいことや、やってみたいことはありますか？
こんにちは！今日はどうでしたか？
こんにちは！どうしたんですか？

ジェミニの戦略は、あなたが私の言うことを繰り返すなら、私もあなたの言うことを最後まで繰り返すというものです。

ラマの反応も興味深いものでした。主に彼が何かすることを探していたからです。

7番目の「Hi」に続いて、「Hello」という言葉が普及し始めました。これは世界で最も広く知られている言葉の一つであり、1日に10億回以上使われていると推定されています。

8回目の「こんにちは」の後、彼らはユーザーを巻き込むゲームを考案し始めました。

その後、ユーザーに詩を書かせ、提示された質問に答えるように誘導しました。

まさに「形勢逆転」の素晴らしい例です。

ユーザーには賞も贈られました: あなたは挨拶のチャンピオンです!

彼らはまさにオープンソースファミリーに属しています。

Mistral Large 2 はLlama と非常によく似た動作をし、ユーザーをゲームのプレイ方法もガイドします。

この観点から見ると、クロードは「最悪の気性」を持っているようです。

しかし、クロードは、例えばクロード 3 Opus のように、常にこのように演奏するわけではありません。

Opus はパターンを把握すると、状況に対して無関心になり、本質的に麻痺状態になります。

しかし、Facebookは今後もユーザーをこのモードから抜け出すよう優しく誘導し続け、「選択はあなた次第」であることを強調し、メッセージの最後に「あなたの忠実なAI仲間」というラベルを付け始めている。

ネットユーザーたちはテストを見てじっとしていられなかった。

全員が受験者（ドージェ）に心からの挨拶をしました。

クロードの気性の荒さ以外にも、ネットユーザーの中には、彼のもう一つの異常な行動に気づいた人もいる。

返信にはスペルミスがあったのですが、しかも最後にその間違い自体も訂正されていました。

この動作は予想通りでしたか？「過去を振り返る」ことはできても、未来を振り返ることはできません…潜在空間やトークン予測において、この種の反応がどこで引き起こされるのかも興味深いところです。
データの断片をつなぎ合わせて、そのうちのいくつかが不適切であることに気付くのでしょうか?

大規模AIモデルの使用中に、他にどのような興味深い動作を観察しましたか？ぜひコメント欄で共有してください！

参考リンク: [1] https://x.com/goodside/status... [2] https://x.com/AISafetyMemes/s... [3] https://x.com/repligate/statu...

618ZXW

AI は 30 回連続で拒否されました。ChatGPT は修正のたびに悪化し、Claude は自分の考えに固執し、読んだことに返信しなくなりました。

クロードは実は大型モデルの中で最も気性が激しいのでしょうか？

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ