|
事態は本当に深刻になってきました。DeepSeekがついに発言しました。 さらに、超低遅延、リアルタイムの即時応答を提供し、いつでも中断できます。 DeepSeek やその他の大規模モデルは、わずか 2 行のコードでこの高品質の対話エンジンに接続できます。 音声対話型 AI アプリケーション開発の参入障壁は本当に低いのでしょうか? それだけではありません。価格面でも驚きがあります。1分あたり 0.098 元、1 セント未満で、購入ごとに 1000 分が無料になります。 これは、Agora の会話型 AI エンジンです。 3月6日に開催されたAgoraのAI RTE製品ライン発表イベントで、会話型AIエンジンの責任者である姚光華氏は、「顧客との改良と実際の使用シナリオの調査を経て、ユーザーとAIの間の会話1回あたり、平均約3回の質疑応答があり、平均会話時間は約21.1秒、1回のコストはわずか3セントであることがわかりました。月に15回の会話があれば、月額コストは50セント未満、年間コストはわずか5元です。」と述べました。 Agora は究極の価格設定を実現し、従量課金モデルには上限がないため、マルチモーダル AI インタラクティブ アプリケーションで数百万のユーザーにサービスを提供できます。 Agora はどのようにして、これほど手頃な価格で使いやすい製品を作ることができたのでしょうか? スムーズなAI対話体験の鍵を明かすスムーズな AI 会話エクスペリエンスを実現するには、低遅延が不可欠です。 ここで重要な指標は、レイテンシが 1.7 秒未満であるかどうかです。 遅延がこの値を下回ると、人々は AI とのコミュニケーションが自然だと感じます。遅延が 2 ~ 3 秒に達すると、ユーザー エクスペリエンスがやや途切れ途切れになり、応答がわずかに遅くなります。 Agoraの会話型AIエンジンは、中国、米国、ヨーロッパ、東南アジアの主要都市での実環境テストを経て、平均応答遅延650ミリ秒を達成しました。このレベルの応答性により、人間のような会話体験が提供され、ユーザーの待ち時間に対する不安が解消されます。 応答遅延は、スムーズな会話体験を保証するための基礎に過ぎません。実際のアプリケーションには、さらに多くの重要なテクノロジが関係しています。 実際の人間の会話の重要な特徴の一つは、自然な会話への割り込み能力です。これは、ほとんどのAI対話システムが苦手とする特性です。Agoraの会話型AIエンジンは、ユーザーがいつでもAIの応答に割り込むことができ、応答時間は最短340ミリ秒で、人間同士の会話の自然なリズムを真にシミュレートします。 騒音環境では、一般的な音声認識ではユーザーの意図を正確に捉えるのが難しいことがよくあります。Agoraの会話型AIエンジンは、周囲の人の声やノイズ干渉を95%除去し、会話中の音声を正確に認識し、騒がしい公共の場でも対話の質を維持します。 以下のビデオは アゴラ 地下鉄や地下駐車場など、ネットワーク信号が弱い環境では、通常の音声対話アプリケーションで遅延や切断が発生することがよくあります。 Agora がこの問題を解決できるのは、同社のソフトウェア定義リアルタイム ネットワーク (SD-RTN) が世界中に 200 を超えるデータ センターを構築し、接続を確立する際に選択される場所がすべてエンド ユーザーに最も近い場所であるためです。 独自のインテリジェントルーティングとアンチウィックネットワークアルゴリズムを組み合わせることで、様々な複雑なネットワーク環境において、スムーズな地域間インタラクションを実現します。80%のパケットロスが発生しても、人とエージェントは安定した通信を維持し、ネットワークが3~5秒間切断されても、会話はスムーズに行われます。 最後に、このエンジンは特定の大規模モデルに限定されず、DeepSeekやChatGPTなどのモデルへの完全な適応を実現できます。同時に、オーディオおよびビデオSDKは30,000以上の端末モデルをサポートしているため、マルチデバイス互換性に関する懸念は完全に解消されます。 15分であらゆるアプリケーションにAI音声インタラクションを追加開発者にとって、Agora の会話型 AI エンジンの最大の魅力は、その非常にシンプルな開発および統合プロセスと強力な柔軟性にあります。 非常にシンプルなアクセス: Agora Console バックエンドを通じて、開発者はサービスを有効化し、Playground でパラメータをテストし、コードを生成できます。わずか 2 行のコアコードで、大規模モデルベースの会話型 AI エージェントをゼロからデプロイするプロセス全体を 15 分で完了できます。 この「絶対確実な」アクセス方法により、技術的なハードルが大幅に下がり、より多くの開発者が AI 音声インタラクションの分野に迅速に参入できるようになります。 柔軟な切り替え: 開発者は、フロントエンドのインタラクションロジックを変更することなく、アプリケーションシナリオの要件に応じて、基盤となる大規模モデルを自由に選択・切り替えることができます。ほぼすべての主要モデルベンダーをサポートしており、モデルベンダーがOpenAIインターフェースプロトコルと互換性がある限り、3月6日からすべてネイティブサポートされます。 また、主要なグローバル音声合成プロバイダー間の切り替えもサポートしており、開発者は音声合成プロバイダーによってカスタマイズされたカスタム音声を統合できます。 例えば、アプリケーション内の異なる機能が異なるモデルに接続される場合、簡単な設定で切り替えが完了するため、一度の開発ですべてのモデルへの適応が実現します。 幅広い互換性: 一方では、サードパーティのクラウドベースの大規模モデル サービス、エンタープライズ プライベート モデル、ローカルに展開されたオープン ソース モデルとのシームレスな統合をサポートします。 一方、ハードウェアの互換性も重要です。実際の使用状況では、デバイスの違いが音声処理のパフォーマンスに影響を与える可能性があります。比較的パフォーマンスの低いデバイスでは遅延が大きくなる可能性があるため、オーディオ/ビデオSDKは膨大な数のデバイス間で互換性を確保し、一貫した低遅延伝送を提供する必要があります。AgoraのRTC SDKは、30を超えるプラットフォーム開発フレームワークをサポートし、ミドルレンジからローエンドのデバイスを含む3万機種以上の端末モデルと互換性があります。 音声インタラクションサービスモデルの出現Agora の会話型 AI エンジンは、開発者に高品質のオプションを提供するだけでなく、サービスとしての音声インタラクションという新しいモデルの誕生を意味します。 RTC(リアルタイムオーディオ/ビデオ)技術を大規模モデル技術から分離することで、各部分を専門チームが処理できるようになり、大規模モデルメーカーが独自の音声インタラクションシステムの構築に時間と労力を費やす必要がなくなります。 このような流れの中で、Agora は統一された API インターフェースを通じて幅広いモデルとの互換性を実現し、「AI 音声インタラクション ミドルウェア」として新たなエコロジカルな地位を確保しました。 生成AI業界の新たなインフラプロバイダーとして、 Agoraの最高執行責任者であるLiu Bin氏も、昨年末にQuantumBitが主催したMEET2025 Intelligent Future Conferenceに参加しました。 劉斌氏は演説の中で次のように強調した。 音声やビデオなど、大規模なマルチモーダルリアルタイムインタラクションを伴うアプリケーションでは、RTC テクノロジのサポートを実装する必要があります。 数か月後、Agora の会話型 AI エンジンは「すべての AI が話せるように」なり、 RTC テクノロジをさまざまな AI アプリケーションに適用して、生成 AI 業界全体の変革をさらに促進しています。 |
たった 2 行のコードで、DeepSeek との音声対話が可能になり、1 分あたり 1 セント未満のコストで、あらゆる大規模モデルが話せるようになります。
関連するおすすめ記事
-
362 種類の一般的な病気の診断を支援します。ケンブリッジ大学、オックスフォード大学、ウォーリック大学などが、医療知識グラフを自動的に構築するためのマルチエージェント大規模言語モデル フレームワークを提案しています。
-
アンドリュー・ン教授が新しいコースを始めました!しかも、自ら教えています。
-
もうDeepSeekの公式サイトにわざわざアクセスする必要はありません!この素晴らしいツールを使えば、参入障壁ゼロであなただけのパーソナルアシスタントを手に入れることができます。
-
Tencent の 3D 大規模モデルは完全にオープンソースであり、モデルの重みと推論コードが完全にオープンになっており、テキストと画像を 10 秒で 3D アセットに変換できます。
-
大規模モデル応用の新たな戦場:端末側におけるAI競争の鍵を解き明かす | 端末の知能
-
大型モデルの最初のバッチがすでにキッチンに到着!Fotile Healthy Cooking GPTの実地テスト。