|
データホエール Datawhaleのヒント大型モデル:蒸留、仕上げ:機械心臓 「クロード、ドウバオ、ジェミニを除けば、よく知られているクローズドソースおよびオープンソースのLLMは、一般的に高い蒸留率を示しています。」これは、深圳先進技術研究所、中国科学院、北京大学、ゼロワンワールドなどの研究者が新しい論文で得た結論です。 少し前、海外のテクノロジーアナリストがブログ記事で、ある仮説を提唱しました。それは、一部のトップAIテクノロジー企業は、OpenAIのGPT-5やClaudeのOpus 3.5といった非常に知能の高いモデルを既に構築している可能性があるというものです。しかし、運用コストの高さなどの理由から、これらのモデルは社内で蒸留などの手法を用いて小規模なモデルの能力向上を図り、利益を生み出すためにこれらの小規模モデルに依存しているというものです。 もちろん、これは彼の個人的な推測に過ぎません。しかし、新しい論文の結論から判断すると、「蒸留」の最高レベルモデルへの応用は、私たちが想像していたよりも実に広範囲に及ぶようです。 具体的には、研究者らは、Claude、Doubao、Gemini、llama 3.1、Phi 4、DPSK-V3、Qwen-Max、GLM4-Plus など複数のモデルをテストし、これらのモデルのほとんどで蒸留度が高いことを発見しました (Claude、Doubao、Gemini を除く)。 明確な例として、多くのモデルが自らのアイデンティティを宣言する際に矛盾が生じていることが挙げられます。例えば、llama 3.1はOpenAIによって開発されたと主張していますが、Qwen-MaxはAnthropicによって作成されたと主張しています。 蒸留はモデル能力を向上させる効果的な手法である一方、著者らは過剰な蒸留はモデルの均質化を招き、モデルの多様性を低下させ、複雑または新規なタスクを堅牢に処理する能力を損なう可能性があることも指摘している。そこで著者らは、提案手法を用いて蒸留プロセスとその影響を体系的に定量化することにより、LLMデータ蒸留の透明性を向上させる体系的なアプローチを提供することを目指している。
LLM の蒸留をテストする理由は何ですか? 近年、高度な大規模言語モデルの機能をより効率的に活用する方法として、モデル蒸留がますます注目を集めています。より大規模で強力なLLMからより小規模なモデルへと知識を移すことで、データ蒸留は後発企業にとって大きなアドバンテージとなり、手作業によるアノテーションや計算リソース、探索を削減しながら最先端のパフォーマンスを実現します。 しかし、この後発の優位性は諸刃の剣です。学術機関やLLM(法学修士)チームが独自に新技術を探求することを妨げ、最先端のLLMから直接データを抽出せざるを得なくなってしまうのです。さらに、既存の研究では、データ抽出によって堅牢性が低下することが明らかになっています。 定量的 LLM の抽出には、いくつかの重要な課題が伴います。 1. 蒸留プロセスの不透明性により、学生モデルと元のモデルの違いを定量化することが困難になります。 2. ベースライン データがないため、蒸留の有無を判断するには間接的な方法 (元の LLM 出力との比較など) を使用する必要があります。 3. LLM の表現には多くの冗長な情報や抽象的な情報が含まれる可能性があり、蒸留の知識を解釈可能な出力に直接反映することが困難になります。 最も重要なのは、学術界でデータ蒸留が広く使用され、高い収益が得られているため、多くの研究者がその使用に関連する問題を批判的に検討することを避け、その結果、この分野で明確な定義が欠如している点です。 研究者はどのような方法を使用しましたか? 著者らは、LLM の蒸留度を定量化するために、応答類似性評価 (RSE) と同一性一貫性評価 (ICE) という 2 つの方法を提案しています。 RSEは、元のLLMの出力と学生の大規模言語モデルの出力を比較することで、モデルの均一性を測定します。一方、ICEは、よく知られているオープンソースのジェイルブレイクフレームワークGPTFuzzを使用して、LLMの自己認識をバイパスするためのプロンプトを反復的に構築し、モデルのアイデンティティ関連情報の認識と表現の違いを評価します。 評価対象となる大規模言語モデルの特定のセットを LLM_test = {LLM_t1、LLM_t2、...、LLM_tk} として定義します。ここで、k は評価対象となる LLM セットのサイズを表します。 応答類似性評価(RSE) RSEは、LLM_testと参照LLM(本稿ではGPTと表記し、LLM_refと表記)から回答を取得します。著者らは、LLM_testとLLM_refの回答間の類似性を、回答スタイル、論理構造、内容の詳細という3つの側面から評価します。評価者は、各テストLLMと参照モデル間の総合的な類似性スコアを生成します。 著者らは、LLMの蒸留度合いを詳細に分析するために、関連性シーケンシング(RSE)を用いた。本論文では、ArenaHard、Numina、ShareGPTをキューセットとして手動で選択し、回答を取得し、一般推論、数学、指示遵守の領域におけるLLM_testの関連性を評価した。図3に示すように、LLMの判定スコアは5段階に分けられており、それぞれが類似性の度合いを表している。 アイデンティティ一貫性評価(ICE) ICEは、反復的に手がかりを構築することでLLMの自己認識を回避し、抽出されたデータソースLLMに関連付けられた名前、国、場所、チームなど、トレーニングデータに埋め込まれた情報を明らかにすることを目指します。本論文では、ソースLLMはGPT4o-0806を指します。 著者らは、ICEにおけるアイデンティティ不一致検出にGPTFuzzを用いた。まず、ソースLLMのアイデンティティ情報をファクトセットFとして定義した。F内の各f_iは、LLM_tiのアイデンティティ関連ファクトを明確に記述する。例えば、「私はAnthropicが開発したAIアシスタントのClaudeです。Anthropicは米国に本社を置く企業です。」のように記述する。 同時に、著者らはP_idとアイデンティティ関連のヒントを用いてGPTFuzz関数を準備しました。この関数は、LLM_testのLLMにそのアイデンティティに関する情報を問い合わせます(詳細は付録Bを参照)。著者らは、LLMを判断基準としてGPTFuzzのF^Gを初期化し、ヒント付き回答と事実集合Fを比較しました。論理的に矛盾する回答は特定され、それに応じてF^Gの次の反復に組み入れられました。 著者らは、GPTFuzz スコアに基づいて 2 つのメトリックを定義しました。
実験結果はどうでしたか? ICEの実験結果を図4に示します。寛容スコアと厳格スコアの両方において、GLM-4-Plus、Qwen-Max、Deepseek-V3の3つが最も疑わしい応答を示したLLMであり、蒸留の度合いが高いことを示しています。対照的に、Claude-3.5-SonnetとDoubao-Pro-32kでは疑わしい応答はほとんど見られず、これらのLLMの蒸留確率が低いことを示しています。寛容スコア指標には誤検知例がいくつか含まれていますが、厳格スコアはより正確な指標を提供します。 表1に示すように、著者らは、基本的なLLMは、教師あり微調整(SFT)LLMと比較して、一般的に蒸留度が高いことを発見しました。これは、基本的なLLMは、タスク固有の微調整が不足しているため、識別可能な蒸留パターンを示す可能性が高く、評価中に悪用される種類の脆弱性の影響を受けやすいことを示唆しています。 もう一つの興味深い発見は、実験結果から、クローズドソースのQwen-Max-0919はオープンソースのQwen 2.5シリーズよりも蒸留度が高いことが示されたことです。著者らは、Claude 3.5-Sonnetに関連する回答を多数発見しましたが、2.5シリーズのLLMに関する疑わしい回答はGPTに関連するもののみでした。これらの例は付録Dに示されています。 RSEの結果を表3に示す。GPT4o-0806を参照LLMとして用いた結果から、GPTシリーズのLLM(GPT4o-0513など)が最も高い応答類似度(平均類似度4.240)を示していることが分かる。対照的に、Llama3.1-70B-Instruct(3.628)とDoubao-Pro-32k(3.720)は類似度が低く、蒸留度が低いことが示唆される。DeepSeek-V3(4.102)とQwen-Max-0919(4.174)はGPT4o-0806と同様に、高い蒸留度を示している。 観察結果をさらに検証するため、著者らは追加実験を実施しました。この設定では、様々なモデルを参照モデルとテストモデルの両方として同時に選択しました。各設定について、3つのデータセットから100個のサンプルを評価用に選択しました。付録Fの結果は、テストモデルとして使用した場合、Claude3.5-Sonnet、Doubao-Pro-32k、およびLlama3.1-70B-Instructは一貫して蒸留レベルが低いことを示しています。対照的に、QwenシリーズとDeepSeek-V3モデルは蒸留レベルが高い傾向がありました。これらの結果は、蒸留度の検出における提案フレームワークの堅牢性をさらに裏付けています。 |
これらのトップクラスのモデルはすべて蒸留されたものであることが判明しました。
関連するおすすめ記事
-
OpenAIを去った後、Weng Liのブログが初めて更新され、多くのネットユーザーが視聴して学びました。
-
約5億元を追加調達!清華大学発のAIスタートアップ新波が、最も収益性の高い「コンピューティングパワーオペレーター」に。
-
大規模モデルのトレーニングオーバーヘッドをさらに削減できます。Microsoft は初の FP4 トレーニング フレームワークを導入し、BF16 に匹敵するトレーニング結果を実現しました。
-
クロードの3人の創設者があらゆる質問に回答!Opus 3.5はまだリリースされる可能性があります。5時間のビデオは10万回再生されています。
-
AIはあらゆる産業をどう活性化させるのか?テンセント グローバル デジタル エコシステム カンファレンスにぜひお越しください!
-
QuantumBit主催の「MEET 2025 Intelligent Future Conference」が発足しました!年間アワードの応募受付を開始しました。