10 行のコードにより、大規模モデルの数学的パフォーマンスが 20% 向上しました。Google もこの型破りな研究方法をテストしました。

10 行未満のコードで、大規模モデル (GSM8k) の数学的機能を 20% 向上できます。

何人かの独立した学者が、大規模モデルサンプリングのための改良されたスキームを提案し、オープンソースコミュニティの注目を集めています。

この方法はすでにミストラル-7Bで有効であることが証明されており、ラマ3-70Bでのテストが進行中です。

この方法は min-p サンプリングと呼ばれ、生成されたテキストの一貫性と多様性のバランスをとることを目的としています。

簡単に言えば、事実に関する質問に対しては安定したパフォーマンスを維持しながら、文章作成などのシナリオでは創造性を可能にするなど、さまざまな状況でモデルが異なる特性を発揮できるようにすることです。

この方法はすでにミストラル-7B で有効であることが証明されており、ラマ-70B でのテストもまもなく開始されます。

著者らは論文の中で、この手法がオープンソースコミュニティで広く採用されていると述べています。

著者はまた、AnthropicやGoogleなどのクローズドソースモデルベンダーがすでにmin-pをテストしているか、現在テスト中であることも明らかにした。

このニュースはGoogleからも確認されています。OpenAIからGoogleに移籍した開発者コミュニティの責任者、ローガン・キルパトリック氏は「賛成です」と回答しました。

Microsoft Copilot の研究者であるAbram Jackson氏は、これをレビューした後、これが推論プロセスにおけるトークンのサンプリングに関する初めての改善点であり、今後も改善の余地が大いにあると述べました。

広く報道されたこの研究の主著者であるミン・ナット・グエン氏は、正式なコンピュータサイエンスの訓練を受けておらず、独学であったことは特筆に値します。

ミン氏と彼のチームは、Apart ResearchというAIセキュリティ研究機関の協力を得て、プロジェクトを完了した。

サンプリングしきい値を動的に調整する

min-pは動的切り捨てサンプリング法です。その核となるのは、各ステップにおけるトークン分布の最大確率に基づいて、最小確率閾値をスケーリングすることです。

その主な目的は、特に高温条件下で、生成されたテキストの一貫性と多様性のバランスをとることです。

具体的には、min-p は、サンプリングプールに入るための最小確率要件を表す基本確率しきい値p_base を導入します。

トークン生成の各ステップで、min-p は p_base に現在の確率分布の最大トークン確率 p_max を乗算して、スケーリングされた絶対しきい値p_scaled を取得します。

p_scaled 以上の確率を持つトークンのみがサンプリングプールに入ることができます。

モデルが特定のトークンの確率を非常に高く予測した場合（つまり、p_maxが非常に大きい場合）、p_scaledの値も非常に高くなり、サンプリングプールが大幅に縮小されます。低確率のトークンの大部分は除外され、信頼性の高い選択肢が少数残るため、出力の一貫性が確保されます。

すべてのトークンに対するモデルの予測確率が比較的近い場合（p_max が低い）、p_scaled の値もそれに応じて減少し、サンプリングプールの要件が緩和され、中程度の確率を持つトークンがさらに多く組み込まれ、モデルの操作余地が広がり、より多様なコンテンツが生成されます。

サンプリングプールを決定した後、min-p は温度に応じてトークンの確率分布をスケーリングします。

トークンの対数確率を温度パラメータ τ で割り、それを正規化して温度スケールの確率分布を取得します。

τ 値が 1 より大きい場合、確率分布はより滑らかになり、低確率のトークンが選択される可能性が高くなります。

τが1未満の場合は分布が鋭くなり、高確率トークンの利点が強化されます。

最後に、min-p は調整された確率分布に従って、スケーリングされたサンプリングプールから次のトークンをランダムに選択します。

min-p法はどれほど効果的でしょうか？著者らはMistral-7Bをベースモデルとしてテストを行い、様々なシナリオでの結果を見てみましょう。

推論タスクでは、著者らはGPQAデータセットを使用しました。温度が1のとき、min-pが以前のtop-pよりもわずかに優れていることがわかります。

温度が上昇すると、GPQA スコアは一般的に下降傾向を示しますが、min-p の減少は top-p の減少よりも大幅に遅いことがわかります。

min-p の下降傾向は、温度が 3 に達したときにのみ明らかになりました。その時点で、top-p のスコアは 0 に近くなりました。

言い換えれば、top-p と比較して、min-p は推論タスクにおいて必要な安定性をよりよく維持します。

数学的なタスクにも安定したパフォーマンスが必要であり、著者らはテストに GSM8K データセットを使用しました。

結果は、min-p に対応するスコアが GPQA よりも速く温度とともに減少したが、top-p 方式よりもまだ遅いことを示しました。

3 番目のタイプのタスクは創造的なライティングです。安定性に対する要件はそれほど高くありませんが、モデルはより多くの創造性を発揮する必要があります。

このテストは AlpacaEval データセットを使用して実施され、実験データはオープンソースコミュニティの独立した評価者から取得されました。

実験結果によると、temperature=1.5、min-p=0.1 の場合、min-p のパフォーマンスが特に優れており、top-p 方式では生成が難しい創造的なライティングコンテンツを生成できます。

これらのパラメータの下で、min-p 法は人間による判断による選択率 58.12% を達成しました。これは、同様の設定の下での他の方法のパフォーマンスよりもはるかに高い値です。

論文の宛先:
https://arxiv.org/abs/2407.01082 GitHub:
参考リンク: https://github.com/menhguin/minp_paper/
https://x.com/menhguin/status...