|
DeepSeek のオープンソースリリースをめぐる世界的な話題は依然として強く、最近では Step-Audio-TTS-3B が Geely Automobile Group と連携して、Step-Audio-TTS-3B モデルをオープンソース化するという行動を再び起こし、業界内で幅広い議論を巻き起こしています。 かつては、方言データの多様性と複雑性、そしてモデルの高い一般化要件により、音声複製モデルは方言でのパフォーマンスが低かった。しかし、Step-Audio-TTS-3Bは、地域言語の特徴を鮮明に読み取ることができる。LLM-Chatパラダイムを用いた大規模合成データセットで学習することで、言語構造を深く理解し、行間の微妙な変化も捉えることができる。情熱的な四川語でも、ニュアンス豊かな広東語でも、リズムとイントネーションを正確に捉え、豊かな地域色を表現できる。 さらに、ラップとハミングの両方を生成できる初のTTSモデルであり、音楽関連の音声合成におけるギャップを埋めています。これまで、リズミカルなラップコンテンツの制作にはプロの歌手が必要でした。Step-Audio-TTS-3Bを使用すれば、ユーザーはリズミカルで正確かつ滑らかに流れるラップボーカルを素早く生成でき、無限の可能性を解き放ちます。 HyperAIウェブサイトの「チュートリアル」セクションで、「Step-Audio-TTS-3B 製品グレード方言音声生成モデル」が公開されました。このチュートリアルには、音声合成、音楽合成、音声複製の3つの機能が含まれています。ぜひご自身でお試しください! チュートリアルアドレス: https://go.hyper.ai/QrTmW デモ実行中
HyperAI 限定招待リンク (コピーしてブラウザに貼り付けると開きます): https://openbayes.com/console/signup?r=Ada0322_QZy7
効果のデモンストレーションこのチュートリアルには、一般的な音声合成、音楽合成、音声複製の 3 つの機能が含まれています。 1. 標準的な音声合成 この機能には、公式のデフォルトの音声キャラクターであるティンティンと新しく追加された哪吒の音声が含まれており、多言語生成、感情、方言などの設定をサポートしています。 音声合成音声触覚説明
デモページで「通常の音声合成」を選択し、テキストを入力し、話者(デフォルトは「ティンティン」)、感情(喜び、怒り、悲しみ、コケティッシュ)、言語/方言(中国語、英語、日本語、北京語、四川語、広東語、広東語)、音声速度(速いまたは遅い)を選択します。「音声を生成」をクリックします。 2. 音楽合成 この機能には、公式サイトのデフォルトの音声キャラクター Tingting と、新たに追加された Nezha の音声が含まれており、ラップやハミングをサポートします。 RAPトーンの説明
ハミング音の説明
デモページで「音楽合成」を選択し、テキストを入力し、スピーカー(デフォルトでは「Tingting」)を選択し、モード(RAPまたはハミング)を選択します。「RAP/ハミングを生成」をクリックします。 3. 音声クローン この機能により、ユーザーはカスタムトーンのオーディオをアップロードして、パーソナライズされた音声メッセージを生成できます。 デモページで「音声複製」を選択し、テキストを入力し、参照音声(.wav形式)をアップロードします。複製した音声に名前を付け、感情(喜び、怒り、悲しみ、またはコケティッシュ)を選択し、言語/方言(中国語、英語、日本語、北京語、四川語、広東語、広東語)を選択し、発声速度(速いまたは遅い)を選択します。「複製音声を生成」をクリックします。 |