|
大規模モデルの急速な発展に伴い、モデルのパフォーマンスと一般化能力の向上には命令のチューニングが重要な役割を果たします。 しかし、命令チューニングデータセットのデータ評価および選択方法については統一されたシステムがなく、包括的かつ詳細なレビューが不足しています。 このギャップを埋めるために、Tencent YouTu Lab は包括的な概要を公開しました。 長さは 10,000 語を超え、400 以上の文書が含まれています。 この研究では、品質、多様性、重要性という3つの主要な側面からデータの評価と選択の方法を取り上げ、各側面の詳細な分類と説明を提供します。 さらに、著者らは、データのスコアリングに GPT などの強力な言語モデルを使用したり、2 層最適化に基づく Coreset サンプリングを行うなど、いくつかの新しいテクノロジーと手法を含む、この分野の最新の開発とトレンドにも焦点を当てました。 命令チューニングデータセットの包括的評価LLMの目標は、自然言語処理(NLP)タスクの汎化能力を解き放つことです。このプロセスにおいて命令チューニングは重要な役割を果たし、命令チューニングの有効性にはデータ品質が不可欠です。 著者らは、さまざまな命令チューニング データセットのデータ評価および選択方法について詳細な調査を実施し、品質、多様性、重要性の 3 つの側面から分類して詳しく説明しました。 品質評価と選択「品質」とは、主に指導回答データポイントの完全性、正確性、合理性を指します。既存の方法では通常、これらの側面を包括的に考慮するための統一されたスコアリングメカニズムが確立されています。 データセットの品質に関して、著者は主に次の 4 つのテスト方法をまとめました。
多様性の評価と選定ここでの多様性とは、学習データセットの個々の多様性(語彙や意味の豊かさなど)と全体的な多様性(データの分布など)を指します。多様性のあるデータセットを選択することで、モデルの汎化能力を高めることができます。 著者らは、データセットの多様性をテストする 4 つの方法もまとめました。
重要性の評価と選択重要度とは、モデルの学習におけるサンプルの必要性を指します。これはモデルのタスクとパフォーマンスに関連します。簡単なサンプルは追加の調整を必要としない可能性がありますが、難しいサンプルはモデルの学習に不可欠です。 重要性の評価には、主に以下の指標と方法が用いられます。
現在の課題と将来の方向性著者らは、評価損失とベンチマーク パフォーマンスの相関が弱いことや、テスト セットの汚染などの理由により、データ選択の有効性とベンチマークにおけるモデルのパフォーマンス レポートとの間に矛盾があることを発見しました。 将来的には、命令チューニングモデルと選択されたデータポイントを評価するための専用のベンチマークを構築し、データ汚染の影響を排除するためにデータ選択とモデル評価を切り離す必要があります。 現在、「良い」指示と「悪い」指示を区別する統一基準は存在しません。既存の品質測定方法はタスク指向であり、解釈可能性に欠けています。将来的には、下流の様々なタスクのニーズに適応するために、パイプライン選択に関するより統一された普遍的な定義と解釈可能性の向上が必要です。 データセットが拡大するにつれて、ノイズの増加、過学習、忘却といった要因により、最適な選択比率を決定することがより困難になります。品質測定スキームの採用、多様性の重視、事前学習済みデータとの類似性を考慮し、データ評価と選択のためのスケーラビリティパイプラインを最適化することで、最適な選択比率を決定することが推奨されます。 データセットのサイズが増大するとともに、データの評価と選択の費用対効果が低下しており、効率的なプロキシモデルの開発と、最適化スキルや次元削減法などの従来の機械学習手法の再考が必要になっています。 プロジェクトのホームページ: https://github.com/yuleiqin/f... 論文リンク: https://arxiv.org/abs/2408.02085 |
大規模モデル指示チューニングデータセットの10,000語の評価!テンセントと上海交通大学の共同制作。
関連するおすすめ記事
-
アメリカ最大の自動車メーカーは1日当たり2億5000万ドルの利益を上げているが、さらに1000人の人員削減を計画している。
-
Llama 3.1 中国語微調整データセットが利用可能になり、超大規模モデルをワンクリックで展開できるようになりました。
-
グラフィックカード1枚で映画1本分を理解できる、超長時間動画理解モデルが新たに開発されました!干し草の山から針を見つけるような95%近くの精度を実現し、コードがオープンソース化されました。
-
Hillhouse CapitalとBlueRun Venturesが主導してLingchu Intelligenceへの投資を行い、同社は業界をリードする汎用の器用な操作インテリジェントエージェントの開発に取り組んでいます。
-
Tongyi アプリがロールプレイング機能を開始し、ユーザーはワンクリックで動画内のキャラクターを置き換えることができるようになりました。
-
AMD は AI に注力するため主力のゲーミング グラフィック カードを放棄。新しい統合アーキテクチャが NVIDIA の CUDA エコシステムに挑戦。