618ZXW

Google が大規模モデルが r をカウントできない理由を明らかに: トークナイザーの問題だけではなく、埋め込み次元が鍵となる。

クレッシーがAofei Temple、QbitAIからレポート | WeChat公式アカウントQbitAI

大規模モデルはオリンピックの問題を簡単に処理できるのに、単純なカウントの問題では繰り返し失敗する理由が判明しました。

Google の新しい調査により、大規模なモデルがカウントできない理由は、単にトークナイザーのせいではなく、カウントに使用するベクトルを保存するスペースが足りないためであることが判明しました。

文章中に単語が出現する回数を数えることは単純な作業ですが、GPT-4o や Claude 3.5 など多くの大規模モデルでは困難を極める可能性があります。

さらに一歩進むと、最も頻繁に出現する単語を見つけることは非常に困難になります。与えられた数字を正確に推測したとしても、それはやはり間違いです。

単語のトークン化により、大規模なモデルで見た「単語」と私たちの認識との間に食い違いが生じると主張する人もいますが、この論文は実際の状況がそれほど単純ではないことを示しています。

単語を正確にカウントするには、埋め込み次元が十分に大きくなければなりません。

Transformer のカウント能力は、埋め込み次元 d と語彙サイズ m (語彙内の単語数、非シーケンス長を指します) と密接に関連しています。

詳細な理由には、Transformer が単語の頻度をカウントするメカニズムが関係しています。

Transformer は、特殊な埋め込み方法を通じて埋め込み空間の線形構造を利用して、カウント問題をベクトル加算に巧みに変換します

具体的には、各単語は一意の直交ベクトルにマッピングされ、この表現では、これらの直交ベクトルを合計することで単語の頻度を簡単に計算できます

ただし、このメカニズムの制限は、語彙内の各単語が独立した直交ベクトル表現を持つ必要があるため、埋め込み次元が語彙サイズよりも大きくなければならないことです。

埋め込み次元が不十分な場合、単語ベクトルは直交性を維持できず、単語頻度の線形重ね合わせを実現できません。

この場合のカウントを実現するために、Transformer はアテンション メカニズム (CountAttend) を使用できますが、これにはシーケンスの長さ n とともに直線的に増加する大規模な「逆 MLP」レイヤーが必要です。

具体的には、まずモデルは注目度を通してクエリ語に大きな重みを割り当て、次に位置エンコーディングを用いて注目度の重みを値ベクトルの最後の要素に抽出します。この要素は実際にはクエリ語の出現頻度の逆数を記録します。

これは、モデルが 1/x 関数 (x は単語の出現回数) を計算するために O(n) MLP レイヤーを必要とすることを意味します。

しかし、さらに分析を進めると、定数層ReLUネットワークではO(n)個のニューロンで1/x関数を近似できないことがわかります。

したがって、このアプローチは、固定サイズのTransformerでは任意の長さのシーケンスに一般化することはできません。シーケンスの長さがトレーニングセットの長さを超えると、モデルのカウント能力は著しく低下します。

長さは主要な要素ではなく、語彙の量が重要です。

この結論を検証するために、著者らは2つの実験を行った。

最初の実験は、次のパラメータを使用して、最初からトレーニングされた Transformer モデルで実施されました。

  • 2 つの Transformer レイヤーと 4 つのアテンション ヘッドで構成される標準モデルを使用します。
  • 埋め込み次元dの範囲は8〜128です。
  • 固定されたdごとに、語彙サイズmは5から150まで変化し、20の異なる値がテストされます。
  • このモデルは、バッチ サイズ 16、学習率 10^-4、トレーニング ステップ 100,000 の Adam オプティマイザーを使用して最初からトレーニングされました。

学習データと評価データはランダムサンプリングによって生成されます。まず、サイズmの語彙からn個の単語が均一にサンプリングされ、長さnのシーケンスが形成されます。

シーケンスの長さnはn=10mに設定され、各単語の平均出現回数は10に固定されました。合計1600個のサンプルがテストに使用されました。

著者らは、語彙サイズが増加するにつれて、モデルのカウント精度が段階的に低下し、語彙サイズが埋め込み次元を超えたときにまさに臨界点が発生することを発見しました。

モデルのカウント能力をさらに定量化するために、著者らは、モデルのカウント精度が 80% に低下する臨界語彙サイズを表すインデックス m_thr を定義しました。

直感的に言えば、m_thr は、与えられた埋め込み次元においてモデルが「処理」できる最大の語彙サイズを反映します。つまり、m_thr が大きいほど、モデルのカウント能力は強くなります。

結果は、カウント(QC)タスクと最も頻出単語の検索(MFC)タスクの両方で、 m_thrは埋め込み次元dの増加とともにほぼ直線的に増加することを示しています。

2 番目の実験は、事前トレーニング済みの Gemini 1.5 モデルで実施され、著者らは語彙のサイズが計数能力に与える影響に焦点を当てました。

彼らは、それぞれ異なるサイズの語彙を使用する一連の計数課題を設計し、そのシーケンス内での各単語の出現回数の平均を固定しました。

これは、実験グループでは語彙が大きいほど、シーケンスの長さが長くなることを意味します。

対照として、著者らは語彙に 2 つの単語のみを含む「バイナリ ベースライン」も設定しましたが、シーケンスの長さは主な実験グループと同じでした。

このようにして、モデルカウントのエラーが語彙のサイズによるものか、シーケンスの長さによるものかを判断することができます。

実験結果によると、語彙が増えるにつれて、計数タスクにおける Gemini 1.5 の平均絶対誤差が大幅に増加するのに対し、「Binary Baseline」の誤差ははるかに低くなります。

これは、シーケンスの長さの増加ではなく、語彙の増加が大規模モデルの計数能力の低下の主な理由であることを示しています。

しかし、著者らは、この研究は大規模モデルの計数能力の上限と下限をある程度定義したものの、これらの境界は十分に厳密ではなく、理想的な結果とのギャップがまだあるとも述べています。

同時に、著者らは、Transformer レイヤーの数を増やすことでこの結論が変化するかどうかについては調査しなかったため、今後さらに検証するには新しい技術ツールの開発が必要になります。

論文リンク: https://arxiv.org/abs/2407.15160