618ZXW

小さな模型が立ち上がり、ブラウザにSOTA(State of Data)の結果が表示されました。(顔面を手で覆う)逃げろ!合成データに未来はない!

ブラウザで直接実行できる SOTA ミニモデルがここにあります。Hugface によって作成され、それぞれ 2 億、5 億、20 億レベルで勝利しました。

秘密は2つだけです。

  • データを徹底的にフィルタリングする
  • 高度にフィルタリングされたデータセットで徹底的にトレーニングする

ハグフェイスの主任科学者トーマス・ウルフ氏は、小型モデルの開発におけるチームの経験を要約し、新たな視点を提示して業界から注目を集めた。

合成データは現時点では特定の領域でのみ有用であり、ネットワークが非常に大規模かつ多様であるため、実際のデータの潜在能力はまだ十分に実現されていません。

360Mモデル版はデモ版として公開されており、オンラインでプレイ可能です(データ使用量にご注意ください)。

モデルの重みと Web ページのフロントエンド UI を含め、ブラウザ内のローカル GPU でプログラムを実行すると、わずか 400 MB しかかかりません。

ネットワーク データを厳密にフィルタリングすると、パフォーマンスが大幅に向上します。

小型モデル「Microsoft Phi」シリーズについては、合成データの半分を使用して良好な結果を得たと主張したが、そのデータは公開しなかった。

オープンソース コミュニティのリーダーである Hugface は、これ以上我慢できなくなった。

比較のために大規模な合成データセットを作成し、オープンソース化します。

さらに、チームは、この動きは、マイクロソフトがテストセットのチャートを操作しているという噂が真実かどうかをテストすることも目的としていることを微妙に示唆した。

Hugface は、当時最高のオープンソース モデルである Mixtral-8-7B を使用して、 25 バイトの合成データを構築しました。

トレーニングされたモデルのパフォーマンスはまずまずでしたが、それでも Phi-1 および Phi-1.5 のレベルよりは若干劣っていました。

彼らは、高校レベルのさまざまなトピックを説明する大規模モデルを作成しようとしましたが、博士レベルの問題である MMLU テストでは低い成績しか出ませんでした。

実際のところ、パフォーマンスの飛躍的向上は、副次的なタスクから生まれました。

大規模なモデルを使用して最初から合成データを生成するだけでなく、大規模なモデルを使用してネットワーク データをフィルター処理およびスクリーニングしてみてください。

具体的には、Llama3-70B-Struct によって生成された注釈を使用して分類器が開発され、 FineWeb データセットから最も教育的な Web ページのみが保持されました

厳密にフィルタリングされたネットワーク データを使用した結果、パフォーマンスが劇的に向上し、Phi-1.5 を含むほとんどのベンチマークで同様のサイズの他のすべてのモデルを上回りました。

Hugface チームは、この実験の結果を「ほろ苦い」ものと表現しました。モデルのパフォーマンスは前例のないほど高かったものの、合成データはまだ実際のデータには及ばないことも示されました。

その後、彼らは同じアプローチを自然言語からコードに拡張し、フィルタリングされたコード データセットが非常に強力であることが証明されました。

HumanEval ベンチマークスコアは約 13% から 20% 以上に増加しました。

最終的に、彼らが構築したハイブリッド データセットでは、重複が排除されたフィルタリングされたデータセットが大部分を占め、純粋な合成データである Cosmopedia v2 はわずか 15% を占めるに過ぎませんでした。

では、一般的に、合成データはまだ役に立つのでしょうか?

研究チームは、これは推論や数学など現実世界のデータが本当に不足している分野でのみ、より意味を持つ可能性があると考えています。

小さなモデルであっても、数兆個のトークンをトレーニングする必要があります。

彼らが新たな発見と成果に興奮し始めたちょうどその時、新しいインターンのエリー・バクーチが加わりました。

当時はまだインターン生だったにもかかわらず、彼はさまざまなトレーニング技術の専門家でした。

Elie の協力により、チームはモデルのサイズを 17 億から 3 億 6000 万、さらには 1 億 7000 万にまで削減しました。これは、従来のモデル GPT-1、GPT-2、BERT に匹敵するサイズです。

このプロセス中に 2 つ目の重要な発見がありました。過去のコンセンサスとは異なり、小さなモデルであっても数兆個のトークンでトレーニングする必要があり、長ければ長いほど良いということです。

さらに、トレーニングの最終段階で特定の高品質データセットを保存するデータアニーリングも効果的であることが証明されています。

最終シリーズのモデルは、スマートフォンからノートパソコンまで、さまざまなデバイスに展開するのに適しており、最大の 1.7B モデルである BF16 では、必要なメモリは 3GB のみです。

参考までに、エントリーレベルの iPhone 15 でも 6GB の RAM が搭載されており、Android スマートフォンではさらに多くの RAM が搭載されています。

今回トレーニングしたベースモデルは十分に優れていたものの、チームは依然として問題を発見しました。

SFT、DPO、PPO などの従来の調整および微調整手法は、大規模なモデルには非常に効果的ですが、小規模なモデルにはそれほど効果的ではありません。

チームの分析により、調整されたデータセットには、小規模なモデルには複雑すぎる概念が多く含まれており、適切に設計された単純なタスクが欠けていることが明らかになりました。

次の新しいピットが掘削され、興味のあるチームは作業を開始できます。もしかしたら、小型モデルにとって救世主となるかもしれません。

オンラインでプレイ:
https://huggingface.co/spaces...

参考リンク:
[1]https://huggingface.co/blog/s... [2]https://x.com/Thom\_Wolf/status/1825094850686906857