618ZXW

Meta の最新の研究: トークナイザーのないアーキテクチャ!

データホエール

データホエールの共有

最新: Meta、編集者: Machine Heart

BLT は、多くのベンチマーク テストでトークンベースのアーキテクチャよりも優れたパフォーマンスを発揮します。

最近、Meta、シカゴ大学、その他の機関による共同執筆論文「Byte Latent Transformer: Patches Scale Better Than Tokens」が話題となり、Hacker News で広く議論されています。

この研究が成功し、トークナイザーに別れを告げられることを強く期待する人もいました。

「トークン化は現在、ほとんどのモデルの基盤となっている。この研究が採用される可能性はどれくらいあるのだろうか」と懸念を表明する人もいた。

要約すると、本研究はLLMに新たなアイデアを提案する。従来の言語モデルはデータの前処理にトークナイザーに依存しているが、トークナイゼーションには、固定語彙、多言語データやノイズの多いデータの処理における非効率性、圧縮ヒューリスティックによって生じるバイアスなど、固有の限界がある。

本研究では、この従来のアプローチに挑戦するバイト・ラテント・トランスフォーマー(BLT)を提案します。BLTは、生のバイトストリームを直接モデル化し、エントロピーに基づいて動的にパッチにグループ化することで、効率的な計算を実現します。

具体的には、BLT はトークナイザー アーキテクチャを必要とせず、生のバイト データから直接学習でき、静的語彙の制限を回避し、多様でノイズの多い入力をより適切に処理できます。

エントロピーベースのパッチ適用: 情報の複雑さに基づいてバイトをパッチに動的にグループ化し、高エントロピー領域 (複雑な入力) に多くのコンピューティング リソースを割り当て、低エントロピー領域のリソースを節約します。

非常に効率的なスケーリング: パッチ サイズを最適化し、軽量のローカル モデルを活用することで、BLT は LLaMA などのトークンベースのモデルと同等かそれ以上のパフォーマンスを実現すると同時に、推論中に最大 50% の計算リソースを節約します。

堅牢性と柔軟性: BLT は、文字レベルの理解、ノイズの多い入力、ロングテールの一般化を必要とするタスクで優れたパフォーマンスを発揮し、多くのベンチマークでトークンベースのアーキテクチャよりも優れています。

画像ソース: https://x.com/theraggedflesh/...

さらに、本研究は、最大 8B のパラメータ スケールと最大 4T のトレーニング バイト サイズを備えたバイト レベル モデルのフロップ制御に関する拡張研究を提案した初めての研究であり、固定語彙のトークン化なしでバイト レベルでのモデルの大規模なエンドツーエンドのトレーニングを実証しています。

全体的に、BLTの学習中のフロップ制御性能はLlama 3と同等であり、推論中に使用されるフロップ数を最大50%削減しています。本研究では、推論フロップ制御に関する拡張実験も実施し(図1)、BLTの拡張傾向はトークン化ベースのアーキテクチャと比較して大幅に優れていることを確認しました。

この論文の貢献は次のとおりです。

  • フロップ効率を向上させるためにコンピューティング リソースを動的に割り当てる、バイトベースの潜在的な LLM アーキテクチャである BLT が提案されました。
  • これは、パラメータスケールが 8B (つまり 80 億) の場合、評価メトリックの一部を犠牲にしてフロップ効率を最大 50% 向上させながら、Llama 3 モデルに匹敵するトレーニング フロップ制御を実現できることを示しています。
  • BLT モデルは、大規模な言語モデルのスケーリングに新たな次元を開き、固定の推論予算を維持しながらモデル サイズを拡張することを可能にします。

  • 論文タイトル: バイト潜在的トランスフォーマー: パッチはトークンよりもスケールする
  • 論文リンク: https://arxiv.org/pdf/2412.09871
  • プロジェクトアドレス: https://github.com/facebookre...

このトークナイザーを使用しないアプローチは、言語モデリングにおける大きな転換を表し、より効率的でスケーラブルかつ堅牢な AI システムへの道を開きます。

これに対して、ある研究者は「Meta はトークナイゼーションを廃止した。Meta の BLT はトークナイザーを必要としないアーキテクチャで、バイトをパッチに動的にエンコードし、より優れた推論効率と堅牢性を実現している」と述べた。

「2025年はトークン化に別れを告げる年になるかもしれない。」

BLTアーキテクチャ

BLT は、パッチ表現を操作する大規模なグローバル自己回帰言語モデルと、バイト シーケンスをパッチにエンコードし、パッチ表現をバイトにデコードする 2 つの小さなローカル モデルで構成されています (図 2)。

潜在的なグローバルTransformerモデル

潜在グローバル トランスフォーマーは、一連の潜在入力パッチ表現 p_j を一連の出力パッチ表現 o_j にマッピングする l_G レイヤーを持つ自己回帰トランスフォーマー モデル G です。

この論文では、添え字jをパッチ、添え字iをバイトとして表現しています。グローバルモデルでは、ブロック因果アテンションマスク(Dubey et al., 2024)を使用しています。

ローカルエンコーダ

ローカルエンコーダモデル(εで表記)は、軽量なTransformerベースのモデルであり、各層の主な機能は、入力バイトシーケンスb_iを表現力豊かなパッチ表現p_jに効率的にマッピングすることです。Transformerアーキテクチャとの主な違いは、各Transformer層の後にクロスアテンション層が追加されていることです。クロスアテンション層は、バイト表現をパッチ表現にプールします(図5)。

まず、入力バイトシーケンス b_i が行列埋め込み(x_i と表記)を用いて埋め込まれます。これらの埋め込みは、オプションでハッシュ埋め込みの形で追加情報を追加できます。次に、一連の交互に配置されたトランスフォーマー層とクロスアテンション層によって、これらの表現がパッチ表現 p_i に変換され、グローバルトランスフォーマー G によって処理されます。トランスフォーマー層はローカルブロックの因果的アテンションマスクを使用します。各バイトは、通常、動的パッチ境界にまたがりますが、ドキュメント境界にはまたがりません。

ローカルデコーダー

ローカルエンコーダーと同様に、ローカルデコーダーDは軽量なトランスフォーマーベースのモデルであり、グローバルパッチ表現シーケンスo_jを生のバイトy_iにデコードするレイヤーを備えています。ローカルデコーダーは、以前にデコードされたバイトに基づいて生のバイトシーケンスを予測し、ローカルエンコーダーによってバイトシーケンスに対して生成された隠れ表現を入力として受け取ります。そして、クロスアテンションレイヤーとトランスフォーマーレイヤーを交互に適用します。デコーダー内のクロスアテンションレイヤーは、トランスフォーマーレイヤーの前に適用され、パッチ表現からバイト表現を最初に作成します。そして、ローカルデコーダーのトランスフォーマーレイヤーは、結果として得られたバイトシーケンスに対して処理を行います。

拡大するトレンド

この研究は、バイトレベルモデル拡張の傾向を包括的に示し、BLTモデルのさらなる拡張に関する情報を提供し、以下の方法でこれまでのバイトレベルモデル研究の限界に対処することを目指しています。

  • 最適なトレーニング スキームの傾向を比較および計算します。
  • 大規模なトレーニング データセットで一致した 8B モデルをトレーニングし、下流のタスクで評価します。
  • 測定推論コスト管理設定の拡張トレンド。

最適な拡大傾向のパラメータマッチング計算

本研究では、Llama 2データセットを用いて、4つの異なるサイズ(パラメータは1Bから8B)の様々な計算上最適なBPEおよびBLTモデルを学習しました。学習の失敗は、言語モデリングのパフォーマンスに基づき、学習データ混合物の代表的なサブセット上にプロットされました。BPEモデルは、Llama 3(Dubey et al., 2024)によって決定されたモデルパラメータと学習データの最適な比率を使用して学習されました。この計算上最適な設定は、理論的には、与えられた学習予算内で学習データセットで最高のパフォーマンスを達成することを目指しており(Hoffmann et al., 2022)、モデルの堅牢なベースラインを提供します。各BPEモデルについて、本研究では、対応するBPE Transformerとサイズおよびアーキテクチャが一致する潜在Transformerを用いて、同じデータ上で対応するBLTモデルの学習も行いました。

図 6 (右) に示すように、BLT モデルは BPE モデルと同等かそれ以上であり、この傾向はモデルのサイズとフロップスが増加しても持続します。

スケーリング特性をさらに評価するため、本研究では、より大規模で高品質なデータセットBLT-1Tを用いて、8BパラメータスケールのBLTモデルを学習しました。表1は、BLT-1Tデータセットで学習した3つのモデル、すなわちトークナイザーベースのBPE Llama 3モデルと、BLTモデルの2つのバリアント(空間パッチ方式(BLT-Space)を使用、エントロピーベースのパッチ方式(BLT-Entropy)を使用)を比較したものです。

結果は、BLT-Entropyモデルが7つのタスクのうち4つでLlama 3モデルを上回ることを示しています。この改善は、(1)動的パッチ適用による学習計算の有効活用、および(2)トークンレベルではなくバイトレベルでの直接的なモデリングによるものです。

さらに、この論文では、Patch の方が Token よりも拡張しやすいことも示されています。

まとめると、パッチ長のスケーリングに関する研究は、BLTのようなパッチベースのアーキテクチャは、パッチとモデルサイズの両方を同時に増加させることで、より優れたスケーラビリティを実現できることを示唆しています。この傾向は、より大規模なモデルでも持続し、あるいは改善される可能性さえあります。

バイトモデリングにより堅牢性が向上

キャラクターレベルのタスク

ノイズの多い HellaSwag データセットでのテスト結果では、BLT が確かに堅牢性の点でトークナイザー ベースのモデルよりも優れており、平均で 8 パーセント ポイントの優位性があり、さらに大規模なデータセットでトレーニングされた Llama 3.1 モデルを上回っていることが示されました。

図 7 は、Llama 3 トークナイザー モデルのパフォーマンスが低いが、BLT モデルのパフォーマンスが高いシナリオをいくつか示しています。

表4は、BLTがLlama 3トークナイザーを用いて学習したモデルよりも優れていることを示しています。よく使われる言語ペアでは、BLTはLlama 3と同等かわずかに優れたパフォーマンスを示しました。しかし、リソースが少ない言語ペアでは、BLTはLlama 3を上回り、ロングテールバイトシーケンスへの一般化におけるバイトモデリングの有効性を浮き彫りにしました。

ラマ3からBLTまで

最後に、著者らは、BLTモデルが事前学習済みのトークナイザーベースのモデルを活用できるワークフローについても検討し、事前学習済みのLlama 3.1を用いてBLTのグローバルトークナイザーパラメータを初期化することで、より優れた高速な学習収束を実現しました。表5に結果を示します。

Llama 3.1 で初期化された BLT は、同じ数のフロップでトレーニングされた Llama 3 および BLT ベースラインよりも大幅に優れていることは明らかです。

いいね (3件のいいね!)↓