|
市場に出回っている多くの音声モデルは、既に十分に自然な合成性能を保証していますが、音質、リズム、感情表現、そして複数のキャラクターの描写といった点では、まだ探求の余地があります。特に小説のナレーションにおいては、トップクラスのナレーターに匹敵する繊細な表現力を実現するには、ナレーションとキャラクター描写を区別し、登場人物の感情を正確に表現し、それぞれのキャラクターの個性を際立たせることが不可欠です。 小説の音声合成(TTS)を生成する従来の方法では、会話、ナレーション、感情、登場人物などを事前にラベル付けする必要がありました。しかし、 Doubao音声モデルは、追加のラベル付けを必要とせずに、エンドツーエンドの合成を実現します。 △ 従来の音声モデルと豆型音声モデルの合成チェーンの違い 改良された Seed-TTS テクノロジーにより、合成音声の品質は実際の人間の音声に匹敵します。オリジナルのSeed-TTS (技術レポート: https://arxiv.org/pdf/2406.02430) は、主に Speech Tokenizer、Autoregressive Transformer、Diffusion Model、Acoustic Vocoder の 4 つのモジュールに分かれた自己回帰テキスト音声変換モデルです。 Speech Tokenizer は参照オーディオ情報を解析し、合成オーディオの音色とグローバル スタイルを決定します。Autoregressive Transformer は入力ターゲット テキストと Speech Tokenizer の出力を受け取り、セマンティック情報を含むセマンティック トークンを生成します。Diffusion Model はセマンティック トークンに基づいて音声情報を含む Acoustic Token をモデル化します。Acoustic Vocoder は Acoustic Token から最終的なオーディオを再構築します。 △オリジナルSeed-TTSアーキテクチャ 小説のナレーション中の音声パフォーマンスと長いテキストの理解をさらに向上させるために、 Doubao テクノロジーチームは Seed-TTS を改良しました。
専門家による評価の結果、最適化された Doubao 音声モデルは、CMOS (比較平均オピニオン スコア、実際の人のスコアと比較する主観的な採点方法) によると、斬新なナレーション シナリオにおいてトップクラスの放送局のパフォーマンスの 90% 以上を達成しました。 △最適化された豆语音声モデル構造 この技術は Tomato Novels に実装されており、オーディオブックのユーザーにメリットをもたらします。Doubao音声モデルチームは、著名なアナウンサーである王明軍氏と李曼超氏の声をベースに、最新技術を駆使して数千冊ものオーディオブックを制作してきました。これらのオーディオブックは現在、Tomato Novelsで配信されており、歴史小説、サスペンス、超自然小説、都市小説、空想小説、SF小説といった人気ジャンルを網羅しています。 今後もDoubaoの音声モデルは最先端技術とビジネスシナリオの組み合わせを模索し続け、より究極の「リスニング」体験を追求していくとみられる。 |
AIによるストーリーテリングは、まるで人間の話術に匹敵します!Doubaoの音声モデルは、コンテキスト理解能力が強化され、さらに進化しました。
関連するおすすめ記事
-
張朝陽氏の大晦日の演説では、3時間で27の重要なポイントが語られ、日常生活における量子力学の徹底的な分析が行われた。
-
SenseTime のリアルタイム オーディオおよびビデオ インタラクション モデルの実際のテスト 5o: 偽の Qi Baishi のエビ画がすぐに発見されました。
-
Horizon Robotics が目論見書を更新: 半期の売上高は 9 億元、粗利益率は 79%、発売モデルは 285 種。香港での IPO まであと一歩。
-
周期表をほぼ網羅!MetaがオープンソースのOMat24データセットをリリース。1億1000万件のDFT計算結果が含まれています。
-
DeepSeek を家庭教師として雇うために 1699 ドルを支払う価値はあるでしょうか?
-
ファーウェイは江淮汽車の自動車販売を100万元で支援、初めて「コックピット・アンチウイルス」を採用。