618ZXW

陳丹奇氏のチームは、パフォーマンスを同じレベルに維持しながらデータを3分の1に削減するという、別のコスト削減方法を考案した。

陳丹奇氏のチームがコスト削減技術を再び披露した。

データの 3 分の 1 が切り捨てられても、大規模モデルのパフォーマンスはまったく影響を受けません。

彼らはメタデータを導入し、追加の計算オーバーヘッドを増やすことなく大規模モデルの事前トレーニングを加速しました。

さまざまなモデル サイズ (600M – 8B) とトレーニング データ ソースにわたってパフォーマンスの向上を実現できます。

メタデータについてはこれまでも広く議論されてきましたが、第一著者の Gao Tianyu 氏は、メタデータが下流のパフォーマンスにどのように影響するか、また推論における一般的な適用性を確保するために実際にどのように実装するかを実証したのは彼らが初めてであると述べています。

どうやってやるのか見てみましょう。

メタデータは大規模モデルの事前トレーニングを加速します

言語モデルの事前学習コーパスは、スタイル、ドメイン、品質レベルにおいて大きな差異を示しており、これは汎用的なモデル機能の開発に不可欠です。しかし、これらの異種データソースのそれぞれについて、正しい動作を効率的に学習し、展開することは非常に困難です。

このような背景から、彼らは「メタデータ コンディショニングとクールダウン (MeCo)」と呼ばれる新しい事前トレーニング方法を提案しました。

具体的には、2 つのトレーニング フェーズが含まれます。

事前トレーニング段階 (90%) では、メタデータ (ドキュメント URL の絶対ドメイン名 c など) がドキュメント (「URL: en.wikipedia.orgnn [ドキュメント]」など) と連結され、トレーニングが行われます。

(たとえば、ドキュメントの URL が https://en.wikipedia.org/wiki... Gates の場合、ドキュメント URL の絶対ドメイン名 c は en.wikipedia.org です。この URL 情報は、多くの事前トレーニング済みコーパスで簡単に入手できます。そのほとんどは CommonCrawl2 (Web クロール データのオープン リポジトリ) から取得されます。) 他の種類のメタデータを使用する場合は、URL を対応するメタデータ名に置き換える必要があります。

予備実験で、これらのタグを使用したトレーニングによって下流のパフォーマンスがわずかに低下することが示されたため、テンプレートやメタデータ内のタグを考慮せずに、ドキュメント タグのクロスエントロピー損失のみを計算しました。

学習プロセスの最後の10%はクーリングオフフェーズであり、標準データを用いて学習が行われます。学習率とオプティマイザーの状態はメタデータ調整フェーズから継承されます。つまり、学習率、モデルパラメータ、オプティマイザーの状態は前のフェーズの最後のチェックポイントから初期化され、学習率は計画に従って調整され続けます。

1) クロスドキュメント アテンションを無効にすると、トレーニングが高速化され (1.6B モデルのトレーニング速度が 25% 向上)、ダウンストリームのパフォーマンスが向上します。

2) 複数のドキュメントをシーケンスにパックする場合、各シーケンスがドキュメントの途中ではなく、新しいドキュメントから始まるようにします。これにより、ドキュメントを固定長にパックするときに一部のデータが破棄される可能性がありますが、ダウンストリームのパフォーマンスが向上することが実証されています。

この実験では、Llama TransformerアーキテクチャとLlama-3トークナイザーを使用しました。600MB、16B、3B、8Bの4つの異なるモデルサイズと、それに関連する最適化設定で実験を行いました。

結果によると、MeCo は標準的な事前トレーニングを大幅に上回り、平均パフォーマンスは 240B ラベルのベースラインに匹敵し、使用するデータは 33% 少なくなっています。

結論として、彼らは主に次の3つの貢献をしました。

1. MeCo は事前トレーニングを大幅に加速します

実験の結果、MeCo は 1.6B モデルで、標準的な事前学習済みモデルと同等の平均ダウンストリーム性能を、学習データ量を 33% 削減しながら達成できることが実証されました。MeCo は、異なるモデルサイズ(600MB、1.6B、3B、8B)およびデータソース(C4、RefinedWeb、DCLM)において、一貫したパフォーマンス向上を示しています。

2. MeCo は言語モデルをガイドする新しいアプローチの先駆者です。

たとえば、factquizmaster.com (実在しない URL) を使用すると常識的なタスクのパフォーマンスが向上します (常識的な質問の回答がゼロの場合、絶対値が 6% 向上するなど)。一方、wikipedia.org を使用すると、標準的な無条件推論と比較して、毒性が生成される可能性が数倍減少します。

3. MeCo の設計上の選択を解決し、MeCo がさまざまな種類のメタデータと互換性があることを証明します

ハッシュ化されたURLとモデル生成トピックを用いた分析により、メタデータの主な機能はドキュメントをソース別に分類することであることが示されました。したがって、URLがなくても、MeCoはより詳細なオプションを含むさまざまな種類のメタデータを効果的に統合できます。

陳丹祁のチーム

論文の著者は、プリンストン NLP グループ (プリンストン言語・インテリジェンス PLI の一部) の博士課程学生である Tianyu Gao、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi、および Danqi Chen です。

筆頭著者の高天宇氏は、清華大学で学士号を取得し、2019年に清華大学特別奨学金を受賞しました。現在、プリンストン大学で博士課程5年目に在籍しており、今年卒業予定です。高氏は今後も学術界で研究を続け、自然言語処理と機械学習の交差点に焦点を当て、特に大規模言語モデル(LLM)に関心を持ち、アプリケーションの構築やLLMの機能と効率性の向上に取り組んでいきます。

ルクシーは現在、プリンストン大学でコンピュータサイエンスの博士課程2年目に在籍しており、言語モデルの理解と一貫性およびセキュリティの向上に焦点を当てた研究を行っています。ハーバード大学で修士号を取得しています。

YiHe Dongは現在、Googleで機械学習の研究とエンジニアリングに携わっており、構造化データの表現学習、自動特徴量エンジニアリング、マルチモーダル表現学習に重点を置いています。プリンストン大学で学士号を取得しています。