Microsoft と清華大学がトランスフォーマーを改良: ノイズキャンセリングヘッドフォンの原理を使用して注意力を向上させる。第一著者がオンラインで質問に答える。

Transformer はリリース以来大きな成功を収めてきましたが、1 つの小さな問題が未解決のまま残っています。

無関係なコンテンツに注意を集中する傾向があり、信号対雑音比が低くなります。

現在、マイクロソフトリサーチアジアと清華大学のチームは、熱い議論を巻き起こしたこの古い問題を解決するために特別に設計された、改良された新しいバージョンの Differential Transformer を開発しました。

この論文では、2 つの信号の差を利用してコモンモードノイズを除去する、差動増幅回路やノイズキャンセリングヘッドフォンに似た全体的なアプローチについて説明します。

特に言語モデルにおいては、文が非常に長い場合、現在のトークンの意味に実際に影響を与えるトークンはごくわずかです。しかし、アテンションメカニズムでは2つの単語間の相互作用を考慮するため、必然的にかなりの量のノイズが発生します。

チームが提案した方法は、アテンションレイヤーに Softmax レイヤーを追加し、その後 2 つの Softmax レイヤーを減算することです。

この削減により、ノイズが大幅に除去され、関連するコンテンツに注意を集中できるようになります。

言語モデリングタスクに関する一連の実験結果から、DIFF Transformer は、モデルサイズまたはトレーニングトークンの約 65% のみで、従来の Transformer に匹敵するパフォーマンスを実現できることが示されています。

新しいアーキテクチャは、長いコンテキストのモデリング、重要な情報の取得、錯覚の削減、コンテキスト学習機能の向上、アクティベーション外れ値の削減など、さまざまなメトリックにおいて Transformer アーキテクチャよりも全体的に優れています。

論文がarXivプラットフォームにアップロードされた後、多くの研究者がalphaXivフォーラムで質問を投げかけました。筆頭著者のTianzhu Ye氏が現在、オンラインで優れた回答を提供しています。

差動トランス

従来の Transformer と比較すると、DIFF Transformer は同じマクロなアーキテクチャを維持していますが、主な違いは従来のソフトマックスアテンションを差分アテンションに置き換えていることです。

さらに、pre-RMSNorm 正規化や SwiGLU 活性化関数など、LLaMA シリーズからのいくつかの改善が採用されました。

差分アテンションモジュールでは、まず Q と K を 2 つのグループに分割し、次に各グループごとにソフトマックスを個別に計算する必要があります。

2 番目のグループには、同じレイヤー内のアテンションヘッド間で共有される学習可能なパラメーターであるスカラー λ が乗算されます。

λ の導入は、差分操作における 2 つの注意セットの寄与のバランスをとるためであり、これにより、差分注意メカニズムはさまざまなタスク要件とデータ分布により適切に適応できるようになります。

以下は一連の実験結果です。

言語モデル評価

StableLM-3B-4E1T 式に従って 1T トークンで 3B サイズの DIFF Transformer をトレーニングすると、さまざまなダウンストリームタスクにわたって、以前に十分にトレーニングされた Transformer モデルと比較して優れたパフォーマンスが示されます。

スケーラビリティ評価

Transformer のパフォーマンスに一致させるには、モデルパラメータまたはトレーニングトークンの約 65% のみが必要です。

長期コンテキスト能力評価

追加の 15 億トークンで 3 億サイズの DIFF Transformer をトレーニングして、コンテキストの長さを 64k に拡張します。

コンテキストの長さが長くなると、累積平均負の対数尤度 (NLL) は減少し続け、従来の Transformer の NLL 値よりも低くなります。

これは、DIFF Transformer が、増え続けるコンテキストを効果的に活用できることを示しています。

主要情報検索能力評価

言い換えれば、これは複数の「針」を使って干し草の山の中の針を探すような実験であり、異なるコンテキストの長さ (4K と 64K) を設定することで、さまざまな複雑さの情報検索シナリオをシミュレートします。

コンテキスト長が 4K の場合、挿入される「ニードル」とクエリの数が増えても DIFF Transformer の精度は安定しますが、Transformer の精度は大幅に低下します。

コンテキスト長が 64K の場合、DIFF Transformer は、さまざまな回答ニードル深度 (つまり、長いコンテキスト内のキー情報の位置) とコンテキスト長で安定したパフォーマンスを維持し、キー情報がコンテキストの前半にある場合にその利点は明らかです。

特に、重要な情報が 25% の深度にある場合、DIFF Transformer は Transformer と比較して精度を 76% 向上させます。

文脈的学習能力評価

評価は、マルチサンプル分類に対する堅牢性とコンテキスト学習に対する堅牢性の 2 つの観点から行われます。

マルチサンプル分類タスクでは、コンテキスト長が 64K の同じ 3B パラメータモデルを使用した場合、DIFF Transformer が一貫して Transformer よりも優れており、改善率は 5.2% から 21.6% の範囲です。

コンテキスト学習の堅牢性には順列順序タスクが採用されており、DIFF Transformer の結果の分散は従来の Transformer よりもはるかに小さくなります。

文脈的錯覚評価

主な焦点は、入力に正しい事実が含まれているにもかかわらず、モデルが正確な出力を生成できない状況にあります。

モデルの出力は、グラウンドトゥルースデータとともにGPT-4oに送信され、GPT-4oは幻覚が存在するかどうかを判断します。これまでの実験では、GPT-4oの判断は人間の評価と高い一致率を示し、比較的信頼できることが示されています。

DIFF Transformer は、さまざまなデータセットでより高い精度とより少ない錯覚を実現します。

外れ値分析を有効にする

Transformer のアクティベーション外れ値により、トレーニングおよび推論中にモデルを定量化することが困難になります。

この実験では、注目ロジットと隠れ状態の2種類の活性化タイプにおける最大活性化値を比較しました。DIFF Transformerはどちらの場合も最大活性化値が低く、活性化の外れ値が少なくなったことを示しています。

アテンションロジットで量子化実験を実行すると、DIFF Transformer はビット幅の量子化を削減するときに高いパフォーマンスを維持しますが、6 ビットの量子化を実行すると Transformer の精度が大幅に低下します。

4 ビット DIFF トランスフォーマーは、6 ビットトランスフォーマーに匹敵する精度を実現でき、4 ビットトランスフォーマーよりも約 25% 精度が高くなります。

コードは現在オープンソースになっており、ノイズキャンセリングヘッドホンとの類似性が熱い議論を巻き起こしている。

著者は、読者が現在提起している疑問に対してすでにいくつかの回答を提供しています。

質問1: Diff Transformerは、注目度ごとに温度を学習できる手法とどう違うのでしょうか？また、ゲート付き注目度と比べるとどう違うのでしょうか？

著者らは、温度学習は実験においてあまり効果的ではなかったと回答した。彼らが提案した手法は、ゲート付き注意の改良版である。

質問 2: 差別的注意とは、標準注意マトリックスのパラメータを 2 倍にすることを意味しますか?

著者らは、単一のアテンションヘッドの次元が 2 倍になった一方で、アテンションヘッドの数は半分になり、結果としてパラメーターと FLOPS が全体的に揃ったことを明らかにしました。

質問 3: 学習可能なパラメータ lambda による Softmax 乗算の 2 番目のグループの研究アプローチ。

著者も詳細な回答を提供しました。

DIFF Transformer は純粋に学術的な分野以外でも多くの議論を巻き起こしており、論文のノイズキャンセリングヘッドフォンとの類似性に多くの人が混乱しています。

ノイズキャンセリングヘッドホンは周囲のノイズを集音し、その逆の信号を生成します。この場合、どの信号がノイズであるかは分かっていますが、微分注意では、どの信号がノイズであるかを事前に判断することはできません。

1 つの説明としては、注意スコアが低いノイズは勾配も非常に低いため、モデルは実際にどの部分がノイズであるかを認識しているが、単一の Softmax では 0 を出力できないため、ノイズを除去するのが困難であるということが挙げられます。

プロのオーディオ伝送には、ノイズキャンセリングヘッドフォンよりもバランスケーブル、USB、またはネットワークカードの方が適しているという意見もあります。

正負の信号を伝送するために2本の信号線が使用されます。受信機はそれらの差のみを比較します。これらの信号線は空間的に非常に近いため、干渉は同じになります。

有用な正信号と負信号の差が増幅され、同じノイズ信号間の差がキャンセルされるため、耐干渉能力が大幅に向上します。

要約すると、DIFF Transformer コードは Microsoft unilm プロジェクトの下でオープンソース化されており、これには差分アテンションをサポートする FlashAttention-2 コードの修正バージョンも含まれています。

興味のある方はぜひお試しください。

紙：
https://arxiv.org/abs/2410.05258

コード：
https://aka.ms/Diff-Transformer

参考リンク:
[1]https://news.ycombinator.com/…

- 以上-

618ZXW