大規模モデル指示チューニングデータセットの10,000語の評価！テンセントと上海交通大学の共同制作。

大規模モデルの急速な発展に伴い、モデルのパフォーマンスと一般化能力の向上には命令のチューニングが重要な役割を果たします。

しかし、命令チューニングデータセットのデータ評価および選択方法については統一されたシステムがなく、包括的かつ詳細なレビューが不足しています。

このギャップを埋めるために、Tencent YouTu Lab は包括的な概要を公開しました。

長さは 10,000 語を超え、400 以上の文書が含まれています。

この研究では、品質、多様性、重要性という3つの主要な側面からデータの評価と選択の方法を取り上げ、各側面の詳細な分類と説明を提供します。

さらに、著者らは、データのスコアリングに GPT などの強力な言語モデルを使用したり、2 層最適化に基づく Coreset サンプリングを行うなど、いくつかの新しいテクノロジーと手法を含む、この分野の最新の開発とトレンドにも焦点を当てました。

命令チューニングデータセットの包括的評価

LLMの目標は、自然言語処理（NLP）タスクの汎化能力を解き放つことです。このプロセスにおいて命令チューニングは重要な役割を果たし、命令チューニングの有効性にはデータ品質が不可欠です。

著者らは、さまざまな命令チューニングデータセットのデータ評価および選択方法について詳細な調査を実施し、品質、多様性、重要性の 3 つの側面から分類して詳しく説明しました。

品質評価と選択

「品質」とは、主に指導回答データポイントの完全性、正確性、合理性を指します。既存の方法では通常、これらの側面を包括的に考慮するための統一されたスコアリングメカニズムが確立されています。

データセットの品質に関して、著者は主に次の 4 つのテスト方法をまとめました。

一つのアプローチは、語彙、構文、意味的類似性などを用いてデータ品質を評価する指標を手動で設計することです。この方法の利点は、指標が明確に計算されることですが、不一致な指示と応答のペアを検出することはできません。
2つ目のアプローチは、モデルベースのメトリクスを用いるものです。この手法では、学習可能なモデル（パープレキシティ、多次元評価評価器など）を活用し、学習を考慮した様々なメトリクス（不確実性、報酬スコアなど）を組み合わせます。このアプローチは、偏りのない高品質なサンプルを選択できる可能性があります。
3つ目のアプローチは、GPTに直接渡し、OpenAI APIを呼び出して命令チューニングデータセットを自動的にスコアリングすることです。この方法は人間の好みに非常に合致しています。少数のGPTスコアリングサンプルを収集した後、オープンソースLLMを微調整して品質測定を行うことで、コスト効率を向上させることができます。
最後に、人間による評価があります。これは嗜好アライメントデータセットの構築に不可欠であり、モデルの学習に高品質なデータを提供することができます。しかし、ラベル付けに一貫性がないという問題があり、詳細なガイドラインやGPTスコアリングなどの他の手段で補完する必要があります。

多様性の評価と選定

ここでの多様性とは、学習データセットの個々の多様性（語彙や意味の豊かさなど）と全体的な多様性（データの分布など）を指します。多様性のあるデータセットを選択することで、モデルの汎化能力を高めることができます。

著者らは、データセットの多様性をテストする 4 つの方法もまとめました。

手作業で設計されたメトリックには、語彙の多様性 (例: タイプトークン比、vocd-D、MTLD、HD-D) や意味の多様性 (例: k-NN グラフによる距離の計算、BERT 埋め込みを使用した分散の計算) などのさまざまなメトリックが含まれます。
モデルベースのメトリクス: 多様性は、エントロピー関連の方法 (バニラエントロピー、Rényi エントロピー、Simpson のインデックス、Vendi スコアなど)、Task2Vec 埋め込み、オープンラベル多様性ラベリングなどを通じて評価されます。
幾何学的特徴に基づくコアセットサンプリング：k中心貪欲法やハーディング法などの手法を用いて、データセット全体を代表する最も情報量が多く多様なサブセットを選択することで、サブセットにおけるモデルの学習性能がデータセット全体における学習性能に近づくようにします。クラスタリング技術は、データ構造の解釈において重要な役割を果たします。
二値コアセットサンプリング：コアセットサンプリングは二値最適化問題として扱われます。ハードマスクまたはソフトウェイトを最適化することでサブセットを選択します。内部モデルパラメータの最適化と外部データ選択ループが含まれます。検証セット、勾配マッチング、最適化手法を導入することで、堅牢性と効率性を向上させる手法もあります。

重要性の評価と選択

重要度とは、モデルの学習におけるサンプルの必要性を指します。これはモデルのタスクとパフォーマンスに関連します。簡単なサンプルは追加の調整を必要としない可能性がありますが、難しいサンプルはモデルの学習に不可欠です。

重要性の評価には、主に以下の指標と方法が用いられます。

手作業で設計されたメトリクス：テキストの難しさは、文法、語彙、推論の依存関係といった読みやすさのメトリクスによって評価されます。モデルの堅牢性を評価し、識別的なNLPベンチマークを構築するために、難易度の高いサンプルが選択されます。
モデルベースのメトリックには、不確実性 (プロンプトの不確実性など)、報酬スコア (報酬モデルを使用してモデルの動作に対するサンプルの必要性を決定する)、およびデータモデル (データモデルを使用してデータポイントがモデルの動作に与える影響を予測する、分布の類似性に基づいて重要度スコアを推定する DSIR、最も効果的なサブセットを継続的に選択する MATES、重要度の再サンプリングを通じて類似したターゲット分布を持つサンプルを選択する Xie らなど) が含まれます。
損失と誤差に基づくコアセットサンプリング：学習中のサンプルの誤差（忘却スコア、記憶、影響など）を記録することで重要度を推定し、損失に大きく寄与する、またはパフォーマンスの低下につながるサンプルを選択します。一部の研究では、反復近似法や小規模な代替モデルを用いることで、周辺効果の計算を高速化しています。
勾配ベースのCoresetサンプリング：この手法は、勾配が言語モデルの最適化に直接及ぼす影響を活用します。データは、勾配マッチング（例：データセット全体の勾配を近似する）と勾配の影響（例：重み付き勾配乗算によるサンプルのモデルパラメータへの影響の測定）によって選択されます。計算を高速化し効率を向上させるために、いくつかの手法（例：低ランク勾配類似度検索、移動サンプル近似など）が用いられますが、近似の精度と効率性を考慮する必要があります。

現在の課題と将来の方向性

著者らは、評価損失とベンチマークパフォーマンスの相関が弱いことや、テストセットの汚染などの理由により、データ選択の有効性とベンチマークにおけるモデルのパフォーマンスレポートとの間に矛盾があることを発見しました。

将来的には、命令チューニングモデルと選択されたデータポイントを評価するための専用のベンチマークを構築し、データ汚染の影響を排除するためにデータ選択とモデル評価を切り離す必要があります。

現在、「良い」指示と「悪い」指示を区別する統一基準は存在しません。既存の品質測定方法はタスク指向であり、解釈可能性に欠けています。将来的には、下流の様々なタスクのニーズに適応するために、パイプライン選択に関するより統一された普遍的な定義と解釈可能性の向上が必要です。

データセットが拡大するにつれて、ノイズの増加、過学習、忘却といった要因により、最適な選択比率を決定することがより困難になります。品質測定スキームの採用、多様性の重視、事前学習済みデータとの類似性を考慮し、データ評価と選択のためのスケーラビリティパイプラインを最適化することで、最適な選択比率を決定することが推奨されます。

データセットのサイズが増大するとともに、データの評価と選択の費用対効果が低下しており、効率的なプロキシモデルの開発と、最適化スキルや次元削減法などの従来の機械学習手法の再考が必要になっています。

プロジェクトのホームページ: https://github.com/yuleiqin/f... 論文リンク: https://arxiv.org/abs/2408.02085

618ZXW

大規模モデル指示チューニングデータセットの10,000語の評価！テンセントと上海交通大学の共同制作。

命令チューニングデータセットの包括的評価

品質評価と選択

多様性の評価と選定

重要性の評価と選択

現在の課題と将来の方向性

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ