618ZXW

AIによるストーリーテリングは、まるで人間の話術に匹敵します!Doubaoの音声モデルは、コンテキスト理解能力が強化され、さらに進化しました。

市場に出回っている多くの音声モデルは、既に十分に自然な合成性能を保証していますが、音質、リズム、感情表現、そして複数のキャラクターの描写といった点では、まだ探求の余地があります。特に小説のナレーションにおいては、トップクラスのナレーターに匹敵する繊細な表現力を実現するには、ナレーションとキャラクター描写を区別し、登場人物の感情を正確に表現し、それぞれのキャラクターの個性を際立たせることが不可欠です。

小説の音声合成(TTS)を生成する従来の方法では、会話、ナレーション、感情、登場人物などを事前にラベル付けする必要がありました。しかし、 Doubao音声モデルは、追加のラベル付けを必要とせずに、エンドツーエンドの合成を実現します。

△ 従来の音声モデルと豆型音声モデルの合成チェーンの違い

改良された Seed-TTS テクノロジーにより、合成音声の品質は実際の人間の音声に匹敵します。

オリジナルのSeed-TTS (技術レポート: https://arxiv.org/pdf/2406.02430) は、主に Speech Tokenizer、Autoregressive Transformer、Diffusion Model、Acoustic Vocoder の 4 つのモジュールに分かれた自己回帰テキスト音声変換モデルです。

Speech Tokenizer は参照オーディオ情報を解析し、合成オーディオの音色とグローバル スタイルを決定します。Autoregressive Transformer は入力ターゲット テキストと Speech Tokenizer の出力を受け取り、セマンティック情報を含むセマンティック トークンを生成します。Diffusion Model はセマンティック トークンに基づいて音声情報を含む Acoustic Token をモデル化します。Acoustic Vocoder は Acoustic Token から最終的なオーディオを再構築します。

△オリジナルSeed-TTSアーキテクチャ

小説のナレーション中の音声パフォーマンスと長いテキストの理解をさらに向上させるために、 Doubao テクノロジーチームは Seed-TTS を改良しました

  • データに関しては、小説の音声は章レベルで処理され、長いテキストでの音声の一貫性と整合性が確保されます。
  • 機能面では、 TTS フロントエンドから抽出した音素、トーン、韻律情報を元のテキストと統合し、小説の意味を維持しながら発音とリズムを改善します。
  • 構造的には、音声トークナイザーは話者埋め込みに置き換えられ、これにより参照オーディオのスピーチスタイルに対する制限がなくなり、同じ話者がさまざまな役割でより適切なパフォーマンスを行えるようになります。
  • 最後に、対象となる合成テキストに加えてコンテキスト情報を追加することで、モデルがより広範囲の意味情報を認識できるようになり、ナレーションとキャラクターの声の演技がより正確で適切なものになりました。

専門家による評価の結果、最適化された Doubao 音声モデルは、CMOS (比較平均オピニオン スコア、実際の人のスコアと比較する主観的な採点方法) によると、斬新なナレーション シナリオにおいてトップクラスの放送局のパフォーマンスの 90% 以上を達成しました。

△最適化された豆语音声モデル構造

この技術は Tomato Novels に実装されており、オーディオブックのユーザーにメリットをもたらします。

Doubao音声モデルチームは、著名なアナウンサーである王明軍氏と李曼超氏の声をベースに、最新技術を駆使して数千冊ものオーディオブックを制作してきました。これらのオーディオブックは現在、Tomato Novelsで配信されており、歴史小説、サスペンス、超自然小説、都市小説、空想小説、SF小説といった人気ジャンルを網羅しています。

今後もDoubaoの音声モデルは最先端技術とビジネスシナリオの組み合わせを模索し続け、より究極の「リスニング」体験を追求していくとみられる。