ドラフトチェーンは思考チェーンに取って代わり、推論トークンを 80% 削減し、コンピューティング能力のコストとレイテンシを大幅に削減します。

推論トークンは 80% ～ 90% 削減されますが、精度はあまり変わらず、一部のタスクでは精度が上がることさえあります。

Zoom チームは、MindChain の代替として、レイテンシとコンピューティングコストを大幅に削減する「Draft Chain」を提案しました。

原理は単純です。モデルは推論ステップごとに簡潔で情報密度の高いトークンを生成する必要があります。

このアプローチは、人間の問題解決プロセスにヒントを得たもので、人間は通常、すべての詳細を詳しく説明するのではなく、思考を助けるためにいくつかの重要な中間結果を下書きとして書き留めます。

さらに、ドラフトチェーン法はシンプルで実装が容易であり、モデルの変更、微調整、強化学習を必要とせず、プロンプト語の例文を更新するだけで済みます。関連するコードとデータはGitHubでオープンソース化されています。

研究チームは、レイテンシと計算コストを削減する別の方法である「連続潜在空間での推論」と比較して、ドラフトチェーンは解釈可能性を保持し、クローズドソースのブラックボックスモデルに適用できると考えています。

サードパーティの分析によると、毎月 100 万件の推論リクエストを処理する企業の場合、コストを 3,800 ドルから 760 ドルに削減でき、毎月 3,000 ドル以上を節約できると推定されています。

実験結果では、精度は変わらないもののコストは大幅に削減されることが示されています。

この実験は、オリジナルの思考連鎖論文に沿って、算術推論、常識推論、記号推論の 3 種類のタスクを評価します。

算術推論タスクでは、GSM8kデータセットが選択されました。精度に関しては、標準ヒントを用いたGPT-4oとClaude 3.5 Sonnetの精度はそれぞれ53.3%と64.6%にとどまりました。Mind Chainでは両者とも95%を超え、Draft Chainでも約91%に達しました。

トークン使用量に関して言えば、MindChain は約 200 トークン/レスポンスを生成するのに対し、DraftChain は約 40 トークンしか生成せず、約 80% の削減となります。

レイテンシの点では、ドラフトチェーンにより GPT-4o と Claude 3.5 Sonnet の平均レイテンシがそれぞれ 76.2% と 48.4% 削減されました。

BIG-bench 常識推論選択の日付理解および動作理解タスクでも同様の結果が得られ、特に Claude 3.5 Sonnet はドラフトチェーン下で精度が向上したことが注目されます。

記号推論ではコイントス課題が用いられます。元のデータセットは公開されていないため、著者らは250個の例からなるテストセットを合成しました。ドラフトチェーンは、100%の精度を維持しながら、推論トークンとレイテンシを大幅に削減します。

ただし、ドラフトチェーンメソッドにも一定の制限があり、ゼロサンプル設定ではその有効性が大幅に低下します。

さらに、30 億未満のパラメータを持つ小規模モデルでは、Draft Chain は各回答に必要なトークンの数を効果的に削減し、精度を向上させることができますが、Mind Chain と比較するとパフォーマンスの差は大きくなります。

研究チームは、トレーニングデータにドラフトチェーン形式の推論パターンが欠けているため、少数のショットのサンプルによるガイドなしでは簡潔で役立つ「ドラフト」を生成することが難しいと推測しています。

論文リンク: https://arxiv.org/abs/2502.18...

参考リンク：[1]https://ajithp.com/2025/03/02...