618ZXW

Doubao版のHerがバージョンアップしてリニューアルしました!いつでも割り込みOK、自然なコミュニケーションで、箱から出してすぐに使えます。

大型あんまんモデルの応用が新たな進歩を遂げました。

8月21日、Volcano EngineはAIイノベーションロードショーでDoubao Big Modelの一連の製品アップグレードを発表しました。

イベントで明らかにされた情報によると、Doubaoの大規模言語モデルの最新バージョンは、3か月前の最初のリリースと比較して全体的な機能が20.3%向上しました。

6つの主要な能力評価において、ロールプレイング能力は38.3%向上し、文脈認識力が向上し、より一貫性のある対話とより人間らしいキャラクター表現が実現しました。言語理解能力は33.3%向上し、情報の分類・抽出、要約、読解、質問応答能力が向上しました。さらに、このモデルは長文タスク、数学、専門知識、コーディングスキルにおいても、様々な程度の向上を示しました。

特筆すべき点として、このイベントではDoubao Big Modelの音声機能に関する一連のアップグレードも発表されました。Doubao Big ModelチームのSeed-ASRおよびSeed-TTSの研究成果(本記事末尾の論文参照)は、Doubaoの音声認識および音声合成モデルに効果的に適用されています。この基盤の上に、Volcano EngineはRTC(リアルタイムコミュニケーション)技術を統合し、全く新しい会話型AIリアルタイムインタラクションソリューションをリリースしました。

このソリューションにより、ユーザーは音声を使ってAIと会話するだけでなく、通常の会話と同様に、必要に応じて会話中に割り込んだり、発言したりすることができ、対話全体の質に影響を与えることはありません。アップグレードされたAI音声は、以前よりも表現力と感情に富み、対話はより自然でリアル、そして流暢になり、大規模なモデルとのインタラクティブ体験が向上します。

イベントでは、Volcano EngineはDMALLと提携し、小売ビッグモデルエコシステムアライアンスを設立し、豆宝ビッグモデルを基盤とした小売AIソリューションを開発しました。初期アライアンスメンバーには、五芒集団、抖音電子商取引、抖音人命サービス、Yum! Brands、マクドナルド、飛和、海底撈、易宅、セブンイレブン(南方)、重慶百貨、パゴダ、波司登、彩虹百貨、サントリー、聚薇、美創新社、ニールセンIQ、電通などが含まれます。

すべてを 1 か所で処理する、自然で流暢な AI リアルタイム音声アプリケーションです。

Volcano Ark大規模モデルサービスプラットフォームを搭載し、Volcano Engine RTCを通じて音声データの効率的な取得、処理、伝送を実現するとともに、Doubao音声認識モデルとDoubao音声合成モデルを深く統合することで、音声からテキスト、テキストから音声への変換プロセスを簡素化します。Volcano Engine会話型AIリアルタイムインタラクションソリューションは、優れたインテリジェント対話機能と自然言語処理機能を提供し、アプリケーションがユーザーとクラウドベースの大規模モデル間のリアルタイム音声通話を迅速に実現するのに役立ちます。

  • Doubao 音声認識モデル: 精度と感度が高く、音声認識の遅延が少なく、複数の言語を正しく認識できます。
  • Doubao音声合成モデル:「Doubao」と同じ音声をロック解除し、自然で鮮明な音声合成機能を提供し、さまざまな感情を表現し、さまざまなシナリオを描写するのに優れています。
  • Volcano Ark :モデルの微調整、推論、評価などの包括的な機能とサービスを提供しており、豊富なプラグインエコシステムと AI ネイティブアプリケーション開発サービスも提供し、エンタープライズレベルの AI アプリケーションの実装を包括的に保証します。

△会話型AIリアルタイムインタラクティブサービスソリューションアーキテクチャ

Volcano Engine AIGC RTCサーバーは、標準のOpenAPIインターフェースを使用して、必要な音声認識(ASR)、大規模言語モデル(LLM)、音声合成(TTS)の種類とパラメータを設定するだけで、すぐに使い始められるため、迅速かつ簡単にセットアップできます。Volcano Engine AIGC RTCサーバーは、エッジユーザーアクセス、クラウドリソースのスケジューリング、音声合成処理、データのサブスクリプションと転送を処理します。これにより、開発プロセス全体が簡素化され、エンタープライズアプリケーションは大規模モデルのコア機能のトレーニングとデバッグに集中できるようになり、リアルタイムAI音声シナリオにおけるイノベーションを加速します。

いつでも割り込んで会話が自然に流れます。

AI とのコミュニケーションを友人と話すのと同じくらい自然にし、いつでも割り込んだり直接発言したりできるようにするには、ユーザーと AI が同時に話しているときに相互干渉を引き起こす音声の「ダブルトーキング」現象をいかに解決するかが鍵となります。

Volcano Engine RTCは、成熟したオーディオ3A処理技術を基盤としています。「デュアルトーク」オーディオでは、従来のエコーキャンセルアルゴリズムとディープラーニングアルゴリズムを組み合わせることで、エコーを効果的に除去するだけでなく、ユーザーの音声が過剰に処理されることを防ぎ、クラウドベースの音声認識(ASR)がユーザーの音声情報を正確に捉え、認識できるようにします。

さらに、Volcano Engine RTC はアルゴリズムを簡素化することで処理速度を向上させ、アルゴリズムの複雑さによって生じる追加の遅延を回避します。

リアルタイム返信、世界中どこでもチャット

Volcano Engine RTCはWebRTCトランスポートネットワーク(WTN)を活用し、世界中から膨大な数の高品質ノードを選択することで、世界中のユーザーへのインテリジェントなアクセスと、音声・動画データの超低遅延伝送を実現します。複雑なネットワーク環境下におけるネットワークの不安定さにも強い耐性を備え、パケットロス率が80%に達するような状況でも、安定した高品質の音声伝送を保証します。

一方、Volcano EngineのRTCは、クラウドベースの音声認識ストリーミング処理と組み合わせることでリンク遅延を最適化し、エンドツーエンドの応答遅延を最短1秒に抑えます。さらに、Volcano Engineのリアルタイムシグナリング(RTS)は、安定性、信頼性、低遅延、高並列性を備えたシグナリング送受信機能を提供し、テキストシグナリングの効率的な伝送を実現します。

AIサービスの展開エリアを問わず、ユーザーはどこにいても、音声でもテキストでも、極めて低遅延でスムーズなAIインタラクション体験を楽しむことができます。

製品統合、効率的なアーキテクチャ

このソリューションでは、クライアントがオーディオフレームレベルの音声アクティビティ検出(VAD)を提供します。これにより、音声信号における発話中と無音部分を正確に検出できます。これにより、音声システム全体の音声入力処理効率が向上し、ユーザーのコマンドや発話内容の認識・理解が向上し、誤認識も低減します。同時に、無意味な背景ノイズの処理を回避することで、コンピューティングリソースを節約し、システム全体の効率性を向上させます。

人工知能(AI)分野におけるイノベーションとブレークスルーはかつてない速さで進み、ほぼ毎週新たな開発が行われています。AIGCインタラクションの形態と規模も、テキストから音声、ビデオ、その他のマルチモーダル形式、そして1対1から複数人、マルチエージェントインタラクションへと急速に進化しています。Volcano Engineの会話型AIリアルタイムインタラクションサービスは、リアルタイム音声をサポートするだけでなく、マルチモーダルビデオ対話や複数人グループチャットへの展開も模索・拡大しており、開発者が迅速に反復・革新を行い、新しいアプリケーションシナリオや機能を継続的にリリースできるよう支援しています。

柔軟で多様なアクセスソリューション

AIリアルタイム音声機能を迅速に導入したい企業にとって、Volcano Engineはワンストップソリューションを提供します。これにより、基盤技術の詳細に煩わされることなく、コア機能の構築とイノベーションに集中できます。さらに、Volcano Engineは、アプリケーション開発における様々な企業の固有のニーズに対応する多様なアクセスソリューションを提供しています。以下に、さらに2つのアクセスソリューションをご紹介します。

  • 自己統合型ソリューション: 企業は、Volcano Engine RTC のオーディオおよびビデオの取得と処理機能、クラウド メディア サービス、オーディオおよびビデオのデータ転送テクノロジーを、ASR、LLM、TTS などのテクノロジーと組み合わせて活用し、完全な大規模音声処理ワークフローを構築して、より自律的で柔軟なアーキテクチャ設計を実現できます。
  • WebRTCトランスポートネットワーク(WTN)ソリューション:クライアント側で独自開発のオーディオ・ビデオ技術を持つ企業向けに、Volcano EngineはWebRTC標準プロトコルを基盤としたトランスポートネットワーク(WTN)を提供します。WTNにアクセスすることで、企業は超低遅延で安定性と信頼性の高いリアルタイムのオーディオ・ビデオ伝送サービスを世界中で容易に利用でき、エンドツーエンドのマルチモーダル大規模モデルの応答効率を向上させます。

これらのソリューションにより、企業は自社のテクノロジースタックとビジネスシナリオに基づいて最適なアクセス方法を選択し、高品質なリアルタイムAI音声シナリオを実現できます。現在、Volcano Engineが提供するAIリアルタイム音声機能は、中国のトップクラスのAIバーチャルキャラクターチャット製品に実装されており、多くのユーザーに全く新しいインタラクティブ体験を提供しています。

Seed-TTS および Seed-ASR テクノロジーの詳細:

Seed-TTS: 高品質で多用途な音声生成モデルファミリー
論文リンク: https://arxiv.org/pdf/2406.02430 デモ: https://bytedancespeech.githu...\_tech\_report/

Seed-ASR: LLMベースの音声認識による多様な音声とコンテキストの理解
論文リンク: https://team.doubao.com/zh/pu..._from=research デモ: https://bytedancespeech.githu..._tech_report/

*この記事はQuantumBitからの許可を得て公開されており、表現されている見解は著者の見解のみです。

- 以上-