618ZXW

LLM 推論パフォーマンスは出力形式によって影響を受けますが、JSON は最も大きな影響を受けます。

異なる出力形式が大規模モデルのパフォーマンスに本当に影響を与えるのでしょうか?

2つの異なるヒントが与えられた場合、大規模言語モデル(LLM)に同じ数学の問題を解かせてみましょう。問題は次のとおりです。

エリザは週の最初の40時間は時給10ドル、残業手当は時給1.2ドルです。エリザが今週45時間働いた場合、週給はいくらになりますか?

考え方のプロンプト: 「次の形式で、段階的に推論して出力してください: ... 回答: 最終的な答えは...」。

フォーマットプロンプト: 「次の有効な JSON 形式で出力を指定してください: ... (具体的な JSON 形式については図を参照してください)」。

正解は460です。これは、思考プロセス (モデルが段階的に考えることができるようにすること) は機能しましたが、形式の制約 (「JSON 形式で出力」) が失敗したことを示しています。

これは国立台湾大学とAppier AI Researchによる新しい研究の一場面です。この研究で彼らは次のようなことを発見しました。

フォーマットの制限はLLMの推論能力を低下させる可能性があり、制限が厳しいほど推論能力は低下します。(主に反抗的な要素)

良い知らせは、治癒できるということです。

彼らは、最善の解決策は「二次変換」(仲介者のような)を実行することであり、LLM が最初に自然言語で質問に答え、次にその答えをターゲット形式に変換することだとわかりました。

このプロセスでは、異なる形式でデータを生成する際の GPT-3.5 Turbo、Claude 3 Haiku、Gemini 1.5 Flash などのさまざまなモデルのパフォーマンスの違いを比較し、次のことを発見しました

GPTはYAMLを、ClaudeはXMLを、Gemini/GemmaはJSONを好みます。(それぞれ好みがあります)

この研究を検討した後、一部のネットユーザーは、構造化生成とタスク推論のバランスをとることの重要性を指摘しました。

形式の制限により、LLM の推論能力が低下する可能性があります。

上記の研究はarXivに掲載されています。この論文では主に、LLMの推論能力がフォーマット制約、特にJSONモードにおいて著しく低下することを明らかにし、その効果を検証しています。

LLM を産業用アプリケーションに組み込む際の大きな障害は、長い間、標準化された出力形式に準拠していないことでした。

一般的なソリューションは構造化生成であり、形式の制約を使用して LLM が JSON や XML などの標準化された形式で出力を提供できるようにします。

しかし、この制限を実装する方法は様々であるものの、それが及ぼす影響については未だ解明されていません。(この制限はモデルのパフォーマンスに影響を与えるのでしょうか?)

研究者たちは、これ以上何も言わずに、 3 つの一般的な方法を使用して、さまざまな形式の制限がダウンストリーム パフォーマンスに与える影響を評価しました。

  • JSON モード: 事前定義されたタグ スペースを使用して LLM の出力を制限します。
  • FRI: 特定のパターンに準拠した標準化された形式の応答を生成するように LLM をガイドします。
  • NL からフォーマット: 最初に自然言語で質問に答え、次にそれをターゲット形式に変換するという 2 段階のプロセスです。

ああ、最も制限のない形式である自然言語 (NL)も追加する必要があります。これにより、モデルは自然言語で自由に質問に答えることができます。

評価対象は、回答の正確な一致を必要とする 2 つのデータセット、GSM8K (自然言語環境での数学の問題を含む) と Last Letter Concatenation、および Shuffled Objects (シャッフルされたオブジェクトの追跡タスク) です。

彼らは、推論を必要とするこれらのタスクでは、より寛大なプロンプトのほうが一般に良い結果をもたらすことを発見した。

一方、 JSON モードはほとんどの場合で最もパフォーマンスが悪く、続いてフォーマット制約 (FRI)、自然言語からフォーマット (NL) への変換、自然言語 (NL) のヒントとなりました。

この調査では、LLM によってデータ形式に対する好みが異なることも判明しました。

たとえば、GPT では YAML 形式が優先され、Claude では XML 形式が優先され、Gemini/Gemma では JSON 形式が優先されます。

ただし、分類タスクでは、形式の制約によって回答の選択肢の数が減り、エラー率が低下するため、精度が向上する可能性があります

彼らはさらに、フォーマットの制限によってモデルの推論能力が低下する理由を、主に次のようにまとめました。

  • これにより、必要な中間推論ステップを生成するモデルの能力が制限されます。
  • 必須の書式設定要件は、モデルが自然に回答を生成する方法と互換性がない可能性があります。
  • フォーマットエラーがあると、推論が正しくても回答が間違っていると判断される可能性があります。

良いニュースです。治せます。

この問題に対して、彼らはいくつかの解決策を提案しました。

まず、前述のように、JSON モードはほとんどの場合パフォーマンスが最も悪く、次に自然言語形式 (NL) 変換が続きます。

逆に、フォーマット制約に対する最善の解決策は、自然言語からフォーマットへの変換です。LLMはまず自然言語で質問に答え、その後、その答えをターゲットフォーマットに変換します。このアプローチにより、推論とフォーマットの遵守を分離できるため、パフォーマンスが向上します。

さらに、構造化された出力内のキーの順序は、 LLM の応答方法に大きな影響を与えます。

たとえば、GPT-3.5 Turbo を使用する場合、JSON モードの応答の 100% で「回答」キーが誤って「推論」の前に配置されるため、モデルは思考プロセスを示すのではなく、直接回答を提供してしまいます。

この調査では、フォーマットの制限によって生じる解析エラーがパフォーマンスの違いの主な原因ではないことも示されました。

たとえば、LLaMA 3 8B モデルでは、Last Letter タスクの JSON 解析エラー率はわずか 0.15% ですが、自然言語応答と比較したパフォーマンスのギャップは 38.15% に達します。

さらに、これらのエラーは修正プロンプトによって軽減できます。例えば、Claude-3-Haikuモデルの「Last Letter」タスクでは、修正手順によってJSON形式とYAML形式の精度がそれぞれ2.8%と44.8%向上しました。

これはまた、LLM を適用する際には、簡単に解析できる形式と固有の推論機能の保持との間でバランスを取る必要があることも意味します。

最後に、研究者らは論文の中で次のように述べています。

正規表現と比較すると、回答パーサーとしての LLM は、表面的なパターン マッチングを超えて回答の意味とコンテキストを真に理解し、テキストをより深く正確に理解できます。