|
クロード氏は深夜に、API ロングテキスト キャッシュという主要な新機能をリリースしました。 新しい API は、ブック全体またはコードベースを「記憶」できるため、繰り返し入力する必要がなくなります。 これにより、長いテキストの処理の遅延が短縮されるだけでなく、コストも最大 90% 削減されます。 このコスト削減の効果を見てみましょう〜 △繰り返し部分が10,000トークンで構成されると仮定し、モデルは3.5 Sonnetとし、入力のみを計算します。今年 5 月に、Google は Gemini アップデートでこの機能を導入し、その後国内チームの Kimi と DeepSeek が続き、今度は Claude の番です。 Anthropic のツイートには、キューワード キャッシュ機能により、ユーザーはより長く、より指導的なキューワードを使用してモデルを「微調整」できると書かれていたことも言及する価値があります。 一部のネットユーザーは、すでに指示と微調整を区別することが難しいのに、今回の変更でさらに区別が難しくなるとコメントしている。 もちろん、このような状況では、名前を挙げるかどうかにかかわらず、誰かが隣で OpenAI について言及するのは避けられません。 最大90%のコスト削減プロンプト キャッシュの目的は、モデルに大量のプロンプトを一度に送信し、モデルがこれらの内容を記憶して後続のリクエストで直接再利用し、繰り返し入力を回避することです。 これに対して、ブロガーのダン・シッパー氏は次のような例え話をした。 コーヒーショップにいるところを想像してみてください。初めて注文するときは、バリスタに注文内容を伝える必要がありますが、次回からは「いつもと同じ」と言えば済みます。 ただし、キャッシュの有効期間は5分間ですが、読み込まれるたびにタイマーがリセットされるため、連続して質問する場合でも心配する必要はありません。 Claude の公式ドキュメントでは、いくつかの典型的なアプリケーション シナリオも紹介されており、コードや長いドキュメントの処理に非常に適しています。
同じスクリプトを繰り返し入力する必要がなくなるため、プロンプト ワード キャッシュには、速度の高速化とコストの削減という2 つの大きな利点があります。 例えば、10万トークンの本に基づいて対話を行う場合、以前のモデルでは最初の出力トークンを生成するのに11.5秒かかっていましたが、プロンプトワードのキャッシュを使用すると、2.4秒しかかからず、 79%の短縮となり、コストは90%削減されます。 その他のシナリオでは、レイテンシとコストもさまざまな程度に削減されます。 価格設定に関しては、元の入力トークンと出力トークンの価格は変更されませんが、プロンプトワードキャッシュの価格は書き込みと読み取りの 2 つの部分に分かれています。 最小の Haiku トークンの書き込み価格は 30 セント、読み取り価格は 100 万トークンあたり 3 セントです。 3.5 Sonnet の価格は書き込みが 3.75 ドル、読み取りが 0.30 ドルで、最大の Opus は書き込みが 18.75 ドル、読み取りが 1.50 ドルです。 最初の書き込み価格は入力価格よりも高いが、読み取り価格は繰り返し入力の価格の 10 分の 1 しかないことがわかります。 つまり、キャッシュの読み取り回数が増えるほど、データの再入力に比べてコストが節約されます。 例えば、10,000件のリクエストを送信し、各リクエストに10,000トークンが含まれているとします。キャッシュを使用しない場合、入力の合計は1億トークンとなり、Sonnetを使用すると300ドルのコストがかかります。 ただし、キャッシュを有効にすると、コストは 1÷100×3.75 + 1×10000÷100×0.3 = 30.03 USD となり、約 90% 節約できます。 繰り返し部分に 10,000 トークンが含まれていると仮定すると、次の図は、呼び出し回数が増えるにつれてコストの利点がますます明らかになることを示しています。 これは間違いなく開発者にとって大きなメリットです。 AIライティングツールHyperWriteAIの創設者兼CEOであるマット・シューマー氏は、今回のアップデートは非常に意義深いものだと語った。 つまり、コードベース全体を低コストでモデルにフィードして新しい機能を要求したり、一度に RAG 5 しかできないという制限を打ち破って大量のドキュメントを直接入力したり、何百もの例を直接提供して「微調整よりも良い結果」を得たりできるということです。 この機能は現在、Haiku 3とSonnet 3.5をサポートしていますが、Opusは後で更新される予定です。 トッププレーヤーたちもそれに倣った。この機能は Claude が発明したものではありません。Google の Gemini は今年 5 月にすでにコンテキスト キャッシュをサポートしています。 その後、国内の「Dark Side of the Moon」チームのKimiさんや、 DeepSeekチームのDeepSeekさんも追随しました。 特筆すべきは、DeepSeek チームがこのテクノロジーのストレージ メディアをハード ドライブに置き換えたことで、これによってもストレージ コストが削減されたことです。 トリガー方法も異なります。例えば、DeepSeekはシステムによってキャッシュする必要があるコンテンツを自動的に判断しますが、Claudeは呼び出される際に手動でマーカーを追加する必要があります。 各社、細部への取り組みはそれぞれ異なるものの、この新モデルはすでに国内外のトッププレーヤーの間で好評を博しており、今後、主要モデルメーカーの新たなスタンダードとなる可能性もある。 参考リンク: [1] https://twitter.com/anthropic... [2] https://www.anthropic.com/new... [3] https://twitter.com/danshippe... |
コストが 90% 削減されました! Claude は、Gemini に似た新しいプロンプト ワード キャッシュを導入し、コードベース全体を一度に記憶します。
関連するおすすめ記事
-
ハンヴォンFF690高精度電子血圧計、コロトコフ音再生機能搭載発売:Tレベルコンピューティングパワーチップ+AI高精度聴診
-
大根も海へ出ます!
-
SynthIDの目に見えない透かし機能をぜひお試しください!AI生成コンテンツをより細かく制御できます。600万件の音声ファイルを含む大規模な音声キャプションデータセットが利用可能になりました。
-
自動車業界最大の AI「ダークホース」である Geely 社が独自に開発した大規模音声モデルは、最先端 (SOTA) システムを 10% 上回り、トップに立っています。
-
o1 の中心著者は次のように述べています。「AI にあらゆるタスクを教えようとするよりも、AI が自ら学習するように促すことが重要です。」
-
ジェンセン・フアンが孫正義氏と対談:日本の新たな AI ビジョン、Arm の AI への野望、東アジアにおける Nvidia の新たなチャンス。