618ZXW

GPT-4o は、追加料金を支払うことでさらに高速化できます。新機能では、以前の 23 秒に比べて 7 秒でタスクを完了します。

OpenAI はChatGPT の出力速度を瞬時に向上させる新機能をリリースしました。

この機能は「予測出力」と呼ばれ、この機能により、GPT-4o は以前よりも最大 5 倍高速になります。

このことを理解するために、プログラミングを例に挙げてみましょう。

なぜそんなに急ぐのか?一言でまとめると:

既知のコンテンツをスキップし、最初から再生成することを回避します。

したがって、「出力の予測」は次のようなタスクに特に適しています。

  • ドキュメント内のブログ投稿を更新する
  • 以前の応答を繰り返す
  • 既存のファイルのコードを書き換える

さらに、OpenAIと協力してこの機能を開発したFactoryAIも、プログラミングタスクに関するデータを公開しました。

実験結果によると、「予測出力」を備えた GPT-4o は、高い精度を維持しながら、応答時間が以前より 2 ~ 4 倍高速化しています。

さらに、公式声明では次のようにも述べられている。

かつては 70 秒かかっていたプログラミング作業が、わずか 20 秒で完了できるようになりました。

「Predict Output」機能は現在、GPT-4o および GPT-4o mini モデルのみをサポートしており、API 経由で実装されていることに注意してください。

これは開発者にとって朗報です。

ネットユーザーによるオンラインテスト

ニュースが流れるとすぐに、多くのネットユーザーはじっとしていられなくなり、すぐに試し始めました。

たとえば、 Firecrawl の創設者Eric Ciarla 氏は、「予測出力」を使用してブログ投稿を SEO (検索エンジン最適化) コンテンツに変換することを体験し、次のように述べています。

信じられないほど速いです。

API 呼び出しに予測パラメータを追加するだけです。

別のネットユーザーは、既存のコードに「プロンプト」を追加しました。

詳細をランダムなテキストに変更します。
詳細をランダムなテキストフラグメントに変更します。

スピードを体感してください:

一部のネットユーザーも独自のテストデータを共有しました。

一言で言えば、速いです。本当に速いです。

どうやってそれをやったんですか?

OpenAI は公式ドキュメントで「予測出力」に関する技術的な詳細も提供しています。

OpenAI は、場合によっては、LLM の出力のほとんどが事前にわかっていると考えています。

モデルで特定のテキストまたはコードにわずかな変更のみを加えることが必要な場合は、「出力を予測する」ことで既存のコンテンツを予測入力として使用することができ、これによりレイテンシを大幅に短縮できます。

たとえば、 C# コードの一部をリファクタリングしてUsernameプロパティをEmailに変更するとします。

 ///
/// 名、姓、ユーザー名を持つユーザーを表します。
///
パブリッククラス User
{
    ///
    /// ユーザーの名を取得または設定します。
    ///
    パブリック文字列 FirstName { 取得; 設定; }


    ///
    /// ユーザーの姓を取得または設定します。
    ///
    パブリック文字列 LastName { 取得; 設定; }


    ///
    /// ユーザーのユーザー名を取得または設定します。
    ///
    パブリック文字列ユーザー名 { 取得; 設定; }
}

ファイルの内容の大部分は変更されないと想定できます (クラスの docstring、既存のプロパティなど)。

既存のクラス ファイルを予測テキストとして渡すことで、ファイル全体をより速く再生成できます。

 import OpenAI from "openai"; const code = ` ///
/// 名、姓、ユーザー名を持つユーザーを表します。
///
パブリッククラス User
{
    ///
    /// ユーザーの名を取得または設定します。
    ///
    パブリック文字列 FirstName { 取得; 設定; }


    ///
    /// ユーザーの姓を取得または設定します。
    ///
    パブリック文字列 LastName { 取得; 設定; }


    ///
    /// ユーザーのユーザー名を取得または設定します。
    ///
    パブリック文字列ユーザー名 { 取得; 設定; }
}
`;


const openai = 新しい OpenAI();


const 完了 = openai.chat.completions.create({
  モデル: "gpt-4o",
  メッセージ: [
    {
      役割: "ユーザー"、
      内容: 「Username プロパティを Email プロパティに置き換えます。コードのみで応答し、マークダウン形式は使用しないでください。」
    },
    {
      役割: "ユーザー",
      コンテンツ: コード
    }
  ],
  予測: {
    タイプ: "コンテンツ",
    コンテンツ: コード
  }
});


// 返されたデータを検査する
console.log(完了);

「予測出力」を使用してトークンを生成すると、これらのタイプのリクエストの待ち時間を大幅に短縮できます。

しかし、OpenAI は「予測出力」の使用に関して注意すべき点もいくつか示しています。

まず、先ほど述べたように、GPT-4o および GPT-4o-mini シリーズ モデルのみをサポートします。

次に、予測出力を使用する場合、次の API パラメータはサポートされません。

  • n値が1より大きい
  • 対数問題
  • presence\_penaltyが0より大きい
  • 頻度\_ペナルティが0より大きい
  • オーディオオプション
  • テキスト以外のモダリティ
  • 最大完了トークン
  • ツール– 関数呼び出しはサポートされていません

さらに、このドキュメントでは、「出力の予測」以外にも、いくつかのレイテンシ最適化方法についてまとめています。

これには、「トークン処理の高速化」、「トークン生成数の削減」、「入力トークンの使用数の削減」、「リクエストの削減」、「並列化」などが含まれます。

ドキュメントのリンクは記事の最後にありますので、ご興味のある方はぜひご覧ください。

もう一つ

出力速度は向上しましたが、OpenAI にはネットユーザーの間で議論を巻き起こした重要な点が 1 つあります。

予測を提供する場合、最終的な完了の一部ではない提供されたトークンには、完了トークンのレートで課金されます。
予測を提供する場合、最終完了部分以外のトークンは、完了トークン レートで課金されます。

一部のネットユーザーもテスト結果を共有しました。

  • 「予測出力」未使用: 5.2秒、0.1555セント
  • 「予測出力」が使用されました: 3.3 秒、0.2675 セント。

はい、もうすぐですが、費用もかかります。

OpenAI公式ドキュメント:
https://platform.openai.com/d...

参考リンク:
[1]https://x.com/OpenAIDevs/stat... [2]https://x.com/romainhuet/stat... [3]https://x.com/GregKamradt/sta...