618ZXW

Tencent YouTu と上海交通大学の新しい手法では、公開知識を活用して大規模モデルを対象にして改善することで、最先端 (SOTA) のパフォーマンスを実現します。

従来の命令の微調整とはお別れです。特定のタスクに対する大規模モデルのパフォーマンスを向上させる新しい方法があります。

新しいオープンソースの拡張知識フレームワークは、公開されているデータから関連する知識を自動的に抽出し、ターゲットを絞ってタスクのパフォーマンスを向上させることができます。

ベースラインおよび最先端の方法と比較して、提案された方法はすべてのタスクでより優れたパフォーマンスを実現します。

この手法は上海交通大学とTencent YouTu Labが共同で提案したものです。

研究の背景

近年、LLMは多くのタスクと領域において大きな進歩を遂げてきました。しかしながら、現実のビジネスシナリオにおいてモデルの能力を最大限に活用するには、領域固有またはタスク固有のデータに基づく命令の微調整がしばしば必要となります。従来の命令の微調整には通常、大量のラベル付きデータと計算リソースが必要であり、現実のビジネスシナリオではこれらを入手することは困難です。

一方、オープンソースコミュニティは、豊富なファインチューニングモデルと指示データセットを提供しています。こうしたオープンソースの知識の存在により、LLMを特定のタスクやドメインに適応・適用することが可能になります。しかしながら、様々なオープンソースのSFTモデルやタスク関連データセットを利用する際には、以下の重要な問題に対処する必要があります。

  1. ラベル付きサンプル数が少ないシナリオでは、モデルを直接微調整したり、コンテキスト内学習を行ったりするだけでは、要件を満たせないことがよくあります。これらの少数のサンプルと豊富な外部知識(オープンソースの世界からのモデルとデータ)を活用して、既存の知識を補完し、モデルのタスク能力と汎化性能を向上させるにはどうすればよいでしょうか?
  2. オープンソースコミュニティには、細かく調整され、整合されたモデルと命令のデータセットが多数存在しており、これらはLLMの特定タスクへの特化を向上させるための良い出発点となります。知識の衝突が発生する可能性がある場合、これらの外部知識をどのように合理的に統合できるでしょうか?既存の研究は、既存のモデルを組み合わせる手法の設計に焦点を当てていることが多く、複数のモデルの知識を最大限に活用することができません。
  3. オープンソースモデルの評価において、既存の研究では、潜在的なバイアスを無視し、単一の視点(例えば、テストセットにおける厳密な回答マッチングの精度など)からのみパフォーマンスを評価しています。同様に、オープンソースデータの評価においても、既存のソリューションは、データ選択を実現するためのタスク指向のアプローチを組み込んでおらず、一般的なデータの品質と複雑さに焦点を当てているのが一般的です。

これらの重要な問題に対処するため、研究チームは、現実世界のビジネスシナリオに合わせた新たな実験設定を提案しました。それは、Kショットでラベル付けされた現実世界のビジネスデータを用いたオープンソースの知識拡張フレームワークです。このフレームワークでは、Kショットサンプルを最大限に活用し、LLM(ローカルレベルマネジメント)のターゲットタスク拡張を実現します。

具体的には、チームは容易に拡張可能なLLM知識強化パイプラインを設計し、オープンソースモデルとデータの選択において、少数のKショットサンプルのガイド役を最大限に活用しました。ソリューション設計における主な課題は次のとおりです。

課題 1:特定の対象タスクにおいて、限られた K ショット データを最大限に活用して、最も可能性の高いモデルを効率的に識別する方法。

課題 2:過剰適合を回避しながら、不足しているドメイン知識を LLM に注入して補完するために、オープンソース データセットから K ショット タスクに最も関連性の高い指示データのバッチを識別する方法。

課題 3:複数の LLM がタスクに対して有効性を示した場合、これらのモデル間の補完的な知識をより有効に活用し、K ショット タスクでの相乗的なパフォーマンスを向上させ、単一のモデルよりも優れた結果を示す適応型モデル融合システムをどのように構築できるか。

この記事は

本研究では、公開されているモデルとデータセットを組み合わせることで、特定のタスクにおける大規模言語モデルの性能を向上させる包括的なアプローチを提案する。主な貢献は以下の通りである。

  1. 推論の複雑さモデルの性能、そしてモデル間の知識の豊富さを統合し、最も高い潜在能力を持つモデルを効率的に選択する手法を提案する。この手法は、Kショットデータが限られた条件下でも、既存モデルの性能を最大限に発揮することができる。
  2. オープンソースデータセットから、関心のあるタスクまたはドメインに関連する知識を抽出する手法を設計しました。類似性多様性データフィルタリング戦略を用いることで、LLMに補足情報が提供され、過剰適合のリスクが軽減されます。
  3. ハイブリッド エキスパート モデル アーキテクチャを使用して適応型モデル融合システムが構築されました。これにより、複数の潜在的に効果的な LLM 間で知識の補完性と協調的な最適化が実現され、対象のタスクでより優れたパフォーマンスを実現できます。

前提条件の準備金:

LoRAバンクの構築: Huggingfaceから代表的かつ広く使用されている38個の指示データセットを選択し、各データセットを前処理し、LoRAを微調整してLoRAバンクを構築しました。LoRAバンクの導入により、特定のタスク向けに選択可能な事前学習済みモデルセットが提供され、実験の再現性と比較の公平性が確保されます。

コア方法論:

1. K ショットガイドによるエキスパートモデル選択:この論文では、モデルの推論の複雑さK ショットデータでのパフォーマンスモデルの多様性を総合的に考慮して、最も有望なモデルグループを選択するエキスパートモデル選択方法を提案します。

研究チームは、推論結果(通常は後処理と完全一致を用いて計算される)のみに基づくパフォーマンス評価では、特定のタスクにおけるモデルのパフォーマンスを正確に予測できないことを発見しました。これは、モデルの出力が後処理によって完全に解析されない可能性があり、モデルの能力を過小評価してしまう可能性があるためです。

研究チームは、回答の推論の難しさがモデルの特定領域の理解度を示す可能性があることを発見し、両方の方法を組み合わせて検討しました。

下の図に示すように、直接推論メトリックが高いモデルの中には、微調整後に推論メトリックが低い元のモデルよりもパフォーマンスが低下するものもありますが、推論の複雑度が低いモデルのパフォーマンスは、微調整後に複雑度が高い元のモデルよりも向上します。

さらに、モデル グループの多様性が評価されました。これは、異なるモデル間の知識の差が可能な限り大きくなることを意味し、ハイブリッド エキスパート システムのトレーニング効果が大幅に向上します。

2. 専門家混合型初期化: LoRAバンクを合理的に活用するために、専門家混合型モデル構造を採用しています。モデルスクリーニングステップで得られたモデルを用いてMoEモデルを初期化し、ルータを学習させることで、モデルが適切な専門家に異なるトークンを自動的に割り当てることができるようにすることで、異なる専門家間の連携を促進します。

3. K-shotガイド付きSim-Divデータ選択:本論文では、類似性優先かつ多様性を考慮したデータ選択戦略を提案する。元の指示テキストに対して埋め込み計算を行うことで、オープンソースデータとK-shotデータ間の類似度を計算する。K-shotデータに最も類似するデータのサブセットを選択し、過剰な重複を含むデータは意味的類似性に基づく重複排除によって除去することで、データの多様性を確保する。

データの類似性と多様性のバランスをとることは、スクリーニングプロセスにおける重要な考慮事項です。類似データは現在のタスクとの強い関連性を確保し、多様性を導入することでデータ全体の豊富さと十分性を維持し、モデルの過剰適合を防ぎます。

4. 専門家の混合による微調整:拡張データセットと K ショット データセットを組み合わせて、MoE システムのルーター重みと専門家重みを最適化し、クロスエントロピー損失を使用して言語モデルの出力を監視します。

実験セットアップ

データセット:評価セットとして、6つのオープンソースデータセット(ARC-Challenge、ARC-Easy、PiQA、BoolQ、MBPP、GSM8K)を使用しました。各データセットの公式トレーニングセットから、K個のラベル付き指示応答ペアをランダムにサンプリングし、Kショットデータとして使用しました。

ベースライン: 5 つのベースライン メソッド (ベース モデル、ランダムに選択されたモデル、トレーニング セット全体に基づいて微調整されたモデル、テスト セットで最もパフォーマンスが優れているエキスパート モデル、最高のエキスパートに基づいて微調整されたモデル) とその他の最先端のメソッドとの比較。

実験結果と分析

1. ベースラインおよび最先端の方法と比較して、提案された方法はすべてのタスクでより優れたパフォーマンスを実現します。

2. 専門家の活性化モードを可視化することで、MoEシステムは単一のモデルに崩壊しておらず、各専門家が全体に貢献していることがわかった。

3. モデル選択に関するアブレーション研究では、評価性能、推論パープレキシティ、モデルの多様性を考慮した包括的なアプローチが、Kショット性能や推論パープレキシティのみに依存する手法よりも有望なモデルを選択する上で優れている。さらに、モデル選択においては、推論パープレキシティは通常のパープレキシティよりも効果的である。

4. データ選択に関するアブレーション研究では、類似性優先と多様性認識に基づくデータ選択戦略がMoEシステムの性能をさらに向上させました。また、データ量が増加すると、性能は最初は向上し、その後低下することも明らかになりました。多様性は、分布のバランスを取り、過学習を軽減する上で重要な役割を果たします。また、類似性サンプリング手法の違いも性能に影響を与えます。

5. K、N、k のアブレーション研究では、K を増やすと、良好な結果を得るためには K=5、つまり対象のタスクで 5 つのラベル付きサンプルのみが必要であることがわかりました。

専門家候補間の差異は、タスク指向のMoEシステムを維持するために非常に重要です。さらに、MoEシステムの学習に必要なデータ量は、タスクに応じて最適化する必要があります。より困難なタスクには、より高品質な学習データが必要です。学習データの総量は、あまり大きくしすぎないようにしてください。kが増加すると、モデルのパフォーマンスは最初は上昇し、その後低下する傾向を示します。これは、タスクデータと高い類似性を持つ外部データを導入することで、モデルのパフォーマンスを向上できることを示しています。

LoRA バンクから選択される専門家の数 N は大きくする必要はありません。モデルのタスク機能を強化するには、モデルとの関連性が高いことを示すアダプターの導入が必要です。

6. MoE法による組み合わせの有効性分析:データは、「全正解」、「全不正解」、「混合」の3つのカテゴリーに分類されます。混合データは、少なくとも1人の専門家が正しく、少なくとも1人の専門家が誤っている(異なる専門家間で意見の相違がある)サンプルを表します。MoE法では、異なる専門家の融合が最高の専門家よりも優れた結果をもたらす可能性があり、MoE法による組み合わせスキームの有効性が証明されています。

話し合う

この手法はデータセットとモデルのメタデータに依存しないため、大きな利点となります。現実のシナリオでは、データとモデルのソース情報が十分に記述されていなかったり、関連するデータポイントを特定するのが困難な場合があります。さらに、オープンソースモデルのトレーニングデータや詳細情報を入手するのは困難な場合が多くあります。

この手法は複数のタスクに適用可能で、使いやすいです。オープンソースのLLMの多くはLLaMAおよびMistralファミリーの派生であり、Huggingfaceを通じて多数のモデルを入手できます。ただし、異なるPEFT手法では、モデルの類似性を計算する際に互換性がない場合があります。

結論は

提案手法は、Kショットデータを用いたモデル選択とデータ拡張において重要な役割を果たし、既存の手法よりも優れた性能を発揮します。この選択手法の有効性はアブレーション研究によって検証されており、オープンナレッジをマイニングしてカスタマイズされたスキルを統合するための効率的なプロセスを示しています。