618ZXW

コストが 90% 削減されました! Claude は、Gemini に似た新しいプロンプト ワード キャッシュを導入し、コードベース全体を一度に記憶します。

クロード氏は深夜に、API ロングテキスト キャッシュという主要な新機能をリリースしました。

新しい API は、ブック全体またはコードベースを「記憶」できるため、繰り返し入力する必要がなくなります。

これにより、長いテキストの処理の遅延が短縮されるだけでなく、コストも最大 90% 削減されます

このコスト削減の効果を見てみましょう〜

繰り返し部分が10,000トークンで構成されると仮定し、モデルは3.5 Sonnetとし、入力のみを計算します。

今年 5 月に、Google は Gemini アップデートでこの機能を導入し、その後国内チームの Kimi と DeepSeek が続き、今度は Claude の番です。

Anthropic のツイートには、キューワード キャッシュ機能により、ユーザーはより長く、より指導的なキューワードを使用してモデルを「微調整」できると書かれていたことも言及する価値があります。

一部のネットユーザーは、すでに指示と微調整を区別することが難しいのに、今回の変更でさらに区別が難しくなるとコメントしている。

もちろん、このような状況では、名前を挙げるかどうかにかかわらず、誰かが隣で OpenAI について言及するのは避けられません。

最大90%のコスト削減

プロンプト キャッシュの目的は、モデルに大量のプロンプトを一度に送信し、モデルがこれらの内容を記憶して後続のリクエストで直接再利用し、繰り返し入力を回避することです。

これに対して、ブロガーのダン・シッパー氏は次のような例え話をした。

コーヒーショップにいるところを想像してみてください。初めて注文するときは、バリスタに注文内容を伝える必要がありますが、次回からは「いつもと同じ」と言えば済みます。

ただし、キャッシュの有効期間は5分間ですが、読み込まれるたびにタイマーがリセットされるため、連続して質問する場合でも心配する必要はありません。

Claude の公式ドキュメントでは、いくつかの典型的なアプリケーション シナリオも紹介されており、コードや長いドキュメントの処理に非常に適しています。

  • ダイアログ: 特に長いコマンドや付随するドキュメントを含む拡張セッションのコストと遅延を削減します。
  • コード アシスタント: プロンプトにコードベースを要約することで、コードの自動補完と Q&A 機能が向上します。
  • 大規模ドキュメントの処理: 応答の遅延を増やすことなく、完全な長形式の資料 (画像を含む) をプロンプトに組み込みます。
  • 詳細な指示セット: (複数の会話にわたって) 指示、手順、例の詳細なリストを共有して、クロードさんの応答を微調整します。
  • 検索とツールの呼び出し: 複数回のツール呼び出しと反復的な変更を伴うシナリオでのパフォーマンスを向上します。
  • 長いテキストダイアログ: ドキュメント全体 (書籍、論文、ポッドキャストのスクリプトなど) をプロンプトに埋め込み、ユーザーが質問できるようにすることで、ナレッジ ベースを強化します。

同じスクリプトを繰り返し入力する必要がなくなるため、プロンプト ワード キャッシュには、速度の高速化とコストの削減という2 つの大きな利点があります。

例えば、10万トークンの本に基づいて対話を行う場合、以前のモデルでは最初の出力トークンを生成するのに11.5秒かかっていましたが、プロンプトワードのキャッシュを使用すると、2.4秒しかかからず、 79%の短縮となり、コストは90%削減されます

その他のシナリオでは、レイテンシとコストもさまざまな程度に削減されます。

価格設定に関しては、元の入力トークンと出力トークンの価格は変更されませんが、プロンプトワードキャッシュの価格は書き込みと読み取りの 2 つの部分に分かれています。

最小の Haiku トークンの書き込み価格は 30 セント、読み取り価格は 100 万トークンあたり 3 セントです。

3.5 Sonnet の価格は書き込みが 3.75 ドル、読み取りが 0.30 ドルで、最大の Opus は書き込みが 18.75 ドル、読み取りが 1.50 ドルです。

最初の書き込み価格は入力価格よりも高いが、読み取り価格は繰り返し入力の価格の 10 分の 1 しかないことがわかります。

つまり、キャッシュの読み取り回数が増えるほど、データの再入力に比べてコストが節約されます

例えば、10,000件のリクエストを送信し、各リクエストに10,000トークンが含まれているとします。キャッシュを使用しない場合、入力の合計は1億トークンとなり、Sonnetを使用すると300ドルのコストがかかります。

ただし、キャッシュを有効にすると、コストは 1÷100×3.75 + 1×10000÷100×0.3 = 30.03 USD となり、約 90% 節約できます。

繰り返し部分に 10,000 トークンが含まれていると仮定すると、次の図は、呼び出し回数が増えるにつれてコストの利点がますます明らかになることを示しています。

これは間違いなく開発者にとって大きなメリットです。

AIライティングツールHyperWriteAIの創設者兼CEOであるマット・シューマー氏は、今回のアップデートは非常に意義深いものだと語った。

つまり、コードベース全体を低コストでモデルにフィードして新しい機能を要求したり、一度に RAG 5 しかできないという制限を打ち破って大量のドキュメントを直接入力したり、何百もの例を直接提供して「微調整よりも良い結果」を得たりできるということです。

この機能は現在、Haiku 3とSonnet 3.5をサポートしていますが、Opusは後で更新される予定です。

トッププレーヤーたちもそれに倣った。

この機能は Claude が発明したものではありません。Google の Gemini は今年 5 月にすでにコンテキスト キャッシュをサポートしています。

その後、国内の「Dark Side of the Moon」チームのKimiさんや、 DeepSeekチームのDeepSeekさんも追随しました。

特筆すべきは、DeepSeek チームがこのテクノロジーのストレージ メディアをハード ドライブに置き換えたことで、これによってもストレージ コストが削減されたことです。

トリガー方法も異なります。例えば、DeepSeekはシステムによってキャッシュする必要があるコンテンツを自動的に判断しますが、Claudeは呼び出される際に手動でマーカーを追加する必要があります。

各社、細部への取り組みはそれぞれ異なるものの、この新モデルはすでに国内外のトッププレーヤーの間で好評を博しており、今後、主要モデルメーカーの新たなスタンダードとなる可能性もある。

参考リンク: [1] https://twitter.com/anthropic... [2] https://www.anthropic.com/new... [3] https://twitter.com/danshippe...