618ZXW

2万個の合成データポイントは、大規模モデルの機能を劇的に向上させます。さらに、モデルの自己反復も可能にします。これは、上海AIラボによるデータ合成の新たなパラダイムです。

わずか 20K の合成データを使用するだけで、Qwen のモデル機能を大幅に向上させることができます。

モデルの主観的な対話機能が大幅に改善され、自己反復も実現できるようになりました。

合成データは素晴らしいです!

最近、上海AIラボの研究チームは合成データ技術の研究を進め、SFTデータ合成エンジン「Condor」を提案しました。Condorは、世界知識ツリーと自己反映メカニズムを通じて、大量の高品質SFTデータを合成するためのソリューションを模索しています。

その結果、合成データの量が増えるにつれてモデルのパフォーマンスが向上し続けることも予想外に発見されました。

5K のデータ ポイントから始まり、データ量の増加とともにモデルの主観的な対話パフォーマンスは向上しますが、20K のデータ ポイントに達するとパフォーマンスの向上は鈍化します。

LLMデータ統合のための新しいパラダイム:世界知識ツリーに基づく高品質対話データの作成

大規模モデル能力の急速な発展に伴い、モデル学習のための高品質SFTデータに対する需要はますます高まっています。データ合成技術は、斬新かつ効率的なデータ生成戦略として、徐々に研究のホットスポットとなり、モデルの反復プロセスにおいて重要な役割を果たしています。

上海 AI ラボの研究チームによるコンドル データの統合は、主にコンドル ボイドとコンドル リファインという 2 つの段階で構成されます。

プロセス全体を通じて、研究チームは 1 つの LLM のみを運用モデルとして使用し、問題の統合、対応の統合、対応の評価、対応の改善などの複数の役割を同時に実行しました。

世界知識ツリーを使用して、多様な指示を合成します

具体的には、Condorはまずモデルを用いて一連の世界知識ツリーを生成します。いくつかのキーワードが与えられると、モデルは再帰的にサブキーワードを生成し、完全な知識ツリーを形成します。各ノードは、後続のデータ生成におけるタグとして機能します。

たとえば、「人工知能」というキーワードが与えられた場合、粗い知識から細かい知識までの知識チェーンを生成します。

人工知能 – ディープラーニング – コンピュータービジョン – 自動運転 – 単眼物体検出

Condorはこの知識連鎖を背景知識として利用し、モデルが関連する質問を生成することを要求します。合成指示の多様性をさらに高めるために、研究チームはタスクの多様性と問題の難易度の多様性に関する拡張要件を導入しました。

研究者たちは、日常会話、ロールプレイング、創作など、様々な種類の主観的タスクに対して、モデルが対応するタスクの質問を生成するための異なる質問テンプレートを慎重に設計しました。Condorは、質問を生成する際に、モデルが1回の生成で3つの異なる難易度レベルを同時に生成することを要求しました。

回答の質を向上させるための自己反省

Condorは、各知識リンクについて、タスクの種類や難易度が異なる複数の質問を収集できます。研究者はこれらの質問をモデルに入力して初期回答を生成し、SFT合成データの予備バージョンを作成します。

Condor Refine Pipeline は自己反映戦略を導入し、モデルを使用して初期応答を評価し、修正提案を生成し、モデルが応答をさらに改善するように誘導して、最終的な高品質の SFT データを取得します。

合成データを使用してモデルの一般的な対話機能を向上させる

研究者らはオープンソースモデルQwen2.5-72B-Instructを用いてデータ合成を行い、Condor VoidとCondor Refineという2つのバージョンの合成データを取得しました。その後、Qwen2.5-7Bに基づくSFTトレーニングを実施し、主観的対話能力と客観的合成能力を検証しました。

実験結果によると、Condor 合成データを使用してトレーニングされたモデルは、主観的な対話機能の点で Qwen2.5-7B-Instruct と競合できることがわかりました。

一方、Condor合成データで学習したモデルは、主流の客観的ベンチマークにおいて優れたパフォーマンスを維持しました。Condorは、他のベースライン手法と比較して、大幅なパフォーマンス優位性を示しています。

データ規模はモデルの自己反復に影響を与える

研究チームはさらに、合成データの量が増えるにつれてモデルのパフォーマンスが向上し続けるかどうかについても調査しました。

5K のデータ ポイントから始めて、データセットを徐々に 200K まで増やし、さまざまなデータ量でのトレーニング済みモデルのパフォーマンスを観察しました。

結果は、データ量の増加とともにモデルの主観的対話パフォーマンスが向上しますが、データ量が 20K に達するとパフォーマンスの向上が鈍化することを示しています。

合成データを使用してモデルの自己反復を実現できますか?

研究チームは、Qwen2.5-7B-Instruct モデルと Qwen2.5-72B-Instruct モデルを使用して、Condor Pipeline を通じて 2 つのバージョンのデータを生成し、それぞれ 7B と 72B ベース モデルをトレーニングして自己反復効果を観察しました。

結果は、Condor 合成データでトレーニングした後、モデルが 7B と 72B の両方で自己反復を達成し、ベースラインと比較してパフォーマンスがさらに向上したことを示しています。

合成データが効果的なのはなぜですか?

Condorの合成データは、モデルの性能向上にどのように貢献しているのでしょうか?研究チームは一連の分析を実施しました。主観評価セットを様々な能力次元に分解し、各次元における性能向上を統計的に分析した結果、すべての次元で性能向上が見られ、特に作成、品質保証、チャットにおいて顕著な性能向上が見られました。

さらに、研究者らはCondorパイプラインを用いて合成された問題指示を分析した。T-SNE投影法を用いて合成された問題とMagpie法を用いて合成された問題を比較したところ、Condorで合成されたデータとMagpie法の両方が広範な知識カバレッジを達成していることがわかった。

対話応答におけるモデルのパフォーマンスを見てみましょう。オリジナルモデルと比較すると、Condorの合成データで学習したモデルは、応答スタイル(ユーモアや創造性など)の主観的な認識において公式モデルよりも優れており、応答内容の改善を考慮した上で、より人間らしい応答を実現していることがわかります。

合成データは大規模モデルの反復学習における重要なアプローチであり、高品質な推論データやマルチターン対話データを効果的に合成するための戦略、実データと合成データの協調マッチングメカニズム、合成データのスケーリング則を克服する方法など、多くの研究課題が残されています。現在、Condorの合成データと学習済みモデルはどちらもオープンソースであり、コミュニティの皆様はぜひそれらを体験し、探求していただけます。

GitHub: https://github.com/InternLM/C... データセット: https://hf.co/datasets/intern... 論文: https://arxiv.org/abs/2501.12273