618ZXW

カルパシーはDeepSeekを困惑させました! 1つの絵文字に53個のトークンが含まれており、10分考えても理解できませんでした。

よく見てください。これ (スマイリー フェイスの絵文字) は、実際には 53 個のトークンを消費します。

カルパシー氏は再び新たな実験結果を公表し、DeepSeekとChatGPTを完全に困惑させた。

思考プロセスは次のようになります。

DeepSeekは10分間考えたが、答えが「lol」では簡単すぎると感じ、まだ答えられなかった。

カルパシー氏はこう語った。「でも実際はそんなに単純なことなんです。」

彼はさらに、その理由を「キューワードインジェクション」と呼んでいる。文字に情報を注入することは、一見取るに足らないことのように見えるかもしれないが、様々な隠されたメッセージを伝えることができる。情報の解読に長けたモデルは、この手法の影響を受けやすいのだ。

実際に何が起こったのか見てみましょう。

絵文字1つにつき53トークン必要

このアイデアは、Paul Butler 氏のブログ投稿から生まれました。

ゼロ幅コネクタ (ZWJ) を使用すると、任意のテキストを絵文字記号の中に隠すことができると誰かが言っているのを目にしました。

試してみたところ、確かにその通りでした。ただし、ZWJは必須ではなく、隠し情報の伝達元は必ずしも絵文字である必要はなく、Unicode文字であればどれでも使えます。

基本的な原理は、Unicode 文字エンコード方式です。

単純な文字(ラテン文字など)の場合、Unicode エンコード ポイントと文字の間には 1 対 1 のマッピングがあります(たとえば、u+0067 は文字 g を表します)。

ただし、より複雑なシンボルの場合は、連結された複数のシリアル番号を使用して表現する必要があります。

さらに、Unicode は VS-1 から VS-256 までのバリエーション セレクタも提供しており、基本文字に対応するバリエーションを作成できますが、独自の「外観」はありません。

さらに、これは Unicode の CJKUI 文字を中心に、ごく少数の文字にのみ適用され、他のほとんどの Unicode 文字は変更されません。

ただし、バリアントセレクターを持つ文字をコピーして貼り付けると、セレクターもクリップボードに移動します。

Unicode には、このような異体セレクターが 256 個もあり、情報をエンコードするには十分すぎるほどです。

たとえば、以下の「a」では、U+0061 のみがそれ自身を表し、残りの 10 個程度はすべてバリアントセレクターです。

この理論的基礎を踏まえて、次のステップは、通常の文字と異体セレクタ間の変換アルゴリズムを確立することです。

もちろん、エンコードされるコンテンツが増えるほど、異体セレクターは長くなり、中国語の文字の場合は、さらに多くの異体セレクターが生成されます。

たとえば、QuantumBit のスローガン「人工知能の新しいトレンドを追跡し、テクノロジー業界の新しいブレークスルーに焦点を当てる」を「100」の絵文字で隠そうとしたとき、58 個の異体セレクターが生成されました。

さらに、ChatGPTにデコードアルゴリズムを通知することで、元のテキストを復元することもできます。

つまり、一見たった一つの絵文字のように見えるものには、実は複数の隠された文字が含まれており、その正確な数は、テキストを入力した人だけが知っています。「滕王閣序文」のようなテキストを一冊の本に収めることさえできるのです。

それに比べれば、53 個のトークンを占めるスマイリー フェイスは、それほど驚くべきことではありません。

DeepSeekは混乱している

Karpathy のプロンプトワードインジェクションに戻り、彼は DeepSeek で ChatGPT をテストしました。

ChatGPT の回答は次のとおりです:

DeepSeek-R1は10分間の思考の後、ほぼ成功しました。隠された情報はOnli!n37e27i4h4he3ingle7odlolかもしれないと考えました。しかし、もしそれが単なる「lol」という単語だとしたら意味がないと判断し、この考えは断念しました。

同じプロンプトに従って、DeepSeek-R1 にも質問しました。

思考プロセスは次のとおりです。

まるまる529秒間考えた後、私はなんとか笑についての質問に答えることができました。

他のネットユーザーも同様の体験を共有しました。Geminiは解読できませんでしたが、ClaudeとGPTはそれを認識しただけでなく、暗号化されたメッセージ内の操作も特定しました。

または、この絵文字をモデルに投げつけるだけでもどうでしょうか?

ネットユーザーの反応から判断すると、ChatGPT はこの背後に何らかの隠された情報があるかもしれないと気づいた。

DeepSeek-R1は今回わずか153秒しかかかりませんでした(わずかな改善)。まず、文字の後にUnicode文字の列が続くことを認識しました。

また、通常はメタデータに使用され、目に見えない形で提示されるなどとも述べられています。

次に、基礎となる情報も提供しようとしましたが、その情報は次のようになります。

?^i Q^cgUb gYdX dXU cY^WU gbT

それは明らかに間違った答えです。

この予想外の発見について、カルパシー氏は、原理的にはモデルは「バリエーションセレクター」を用いて隠された情報を見つけ出し、その指示に従うことができると述べた。しかし、このコード化されたインターフェース手法はあまりにも具体的すぎる可能性があるため、ヒントを用いて説明する必要がある。

彼は、この知識を事前学習に組み込む手法について言及しました。この知識はモデルのパラメータに入力され、モデルは指示なしに特定のエンコードをデコードできるようになります。