618ZXW

オンラインチュートリアル | 3つの音声クローンモデルの実世界レビュー:GPT-SoVITSは「十一娘娘」の特徴を正確に捉える

春節映画『哪吒2』は興行収入が120億人民元を突破し、中国映画として初めてこの記録を達成しました。また、世界興行収入ランキングでもトップ10入りを果たしました。本作では、哪吒のハスキーボイスから、太一真人の四川訛り、師娘娘の生き生きとした語り口まで、声優陣が生き生きとした声で登場人物に命を吹き込み、大きな話題を巻き起こし、声優芸術を最前線に押し上げました。

声優の魅力を語る上で、『Honor of Kings』のミーユエの白静静スキンはまさに好例です。公式チームは、映画『チャイニーズ・オデッセイ』で白静静を演じた声優の王慧俊氏を特別に招き、再び声を担当してもらいました。「手放すことも運命の一種だと、皆信じなければならない」というおなじみのセリフが響き渡り、多くの人々の青春時代の未練を一気に呼び覚まし、プレイヤーたちは惜しみない寄付でこの思いを支えました。

現在、音声クローン技術は急速に発展しています。高度な音声クローンモデルのおかげで、一般の人々は時空を超え、ワンクリックで好きなキャラクターの個性的な声を再現し、「声優中毒」を手軽に満たすことができます。現在、 GPT-SoVITS、Fish Speech v1.4、F5-E2 TTSの3つが、オープンソースモデルとして注目を集めています。それぞれの独自の利点を活かし、様々な応用シーンで重要な役割を果たしています。映画やテレビ番組の制作、音声コンテンツの制作、日常の楽しい吹き替えなど、様々な場面で活用されています。

HyperAI ウェブサイトの「チュートリアル」セクションが公開されました。

* GPT-SoVITSオンラインオーディオ合成デモ:

https://hyper.ai/cn/tutorials/29812

* Fish Speech v1.4 音声クローニング - テキスト読み上げツールのデモ:

https://hyper.ai/cn/tutorials/34680

* F5-E2 TTS は、わずか 3 秒であらゆるトーンを複製できます。

https://hyper.ai/cn/tutorials/35468

今日は、これら 3 つのオープンソース サウンド クローニング モデルを詳しく紹介し、同じオリジナル オーディオとプロンプトを使用して実際のパフォーマンスを評価します。

GPT-SoVITSオーディオ合成

* 発売日: 2022年

* 公開元:ビリビリアップマスター「花は泣かない」

ワンクリック展開:

https://hyper.ai/cn/tutorials/29812

このモデルはSoVITS+Transformer音声符号化技術を採用しており、リリースと同時にAI音声合成コミュニティで大きな話題を呼びました。その高忠実度の音声合成効果は比類がなく、わずか5秒の音声サンプルからでもゼロサンプルのテキスト音声(TTS)変換を実現できます。

映画「哪吒」の師父夫人の声を例にとると、GPT – SoVITS を使用すると、映画の中で師父夫人が歌う典型的なセリフをサンプルとして収集するだけで、彼女の可愛らしく、生き生きとした、力強い声を正確に再現できます。

Fish Speech v1.4 サウンドクローニング

* 発売日: 2024年

* 発行者: Fish Audio Team

ワンクリック展開:

https://hyper.ai/cn/tutorials/34680

このモデルは約15万時間のデータ学習を経ており、中国語、日本語、英語に堪能です。言語処理能力は人間レベルに近く、音声表現は豊かで多彩です。ユーザーは音色、ピッチ、発話速度を自由に調整することで、個性的な音声を簡単に作成でき、様々なクリエイティブシーンにおけるキャラクターボイスへのニーズに応えます。

F5-E2 TTS は、わずか 3 秒であらゆるトーンを複製できます。

* 発売日: 2024年

* 発行機関:上海交通大学、ケンブリッジ大学、吉利汽車研究所(寧波)有限公司

ワンクリック展開:

https://hyper.ai/cn/tutorials/35468

F5 TTSは、ストリームマッチングを用いた非自己回帰生成手法に基づき、拡散トランスフォーマー(DiT)技術を組み込んでおり、追加の監督なしにゼロショット学習を通じて自然で流暢、かつ忠実な音声を迅速に生成できます。一方、E2 TTSは基本的に非自己回帰であり、段階的な生成を必要とせず、音声シーケンス全体を一度に生成できるため、高品質の音声出力を維持しながら生成速度を大幅に向上させ、わずか3秒でマルチボイスミキシングクローンを実現します。

このモデルは次の 3 つの機能をサポートします。

* 単一人物音声生成 (バッチ TTS):アップロードされた音声からテキストを生成します。

* ポッドキャスト生成: 2 人の音声に基づいて 2 人での会話をシミュレートします。

* 複数の音声タイプの生成:同じ話者の異なる感情状態の音声に基づいて、異なる感情の音声を生成します。

サウンドクローニングモデルのレビューはこれで終了です。ご興味のある方はぜひご自身でお試しください!