オンラインチュートリアル | 史記夫人は一瞬で「四川・重慶の少女」に変身できるか？Step-Audio-TTSは音声複製・音楽合成・音声合成をワンストップで実現

DeepSeek のオープンソースリリースをめぐる世界的な話題は依然として強く、最近では Step-Audio-TTS-3B が Geely Automobile Group と連携して、Step-Audio-TTS-3B モデルをオープンソース化するという行動を再び起こし、業界内で幅広い議論を巻き起こしています。

かつては、方言データの多様性と複雑性、そしてモデルの高い一般化要件により、音声複製モデルは方言でのパフォーマンスが低かった。しかし、Step-Audio-TTS-3Bは、地域言語の特徴を鮮明に読み取ることができる。LLM-Chatパラダイムを用いた大規模合成データセットで学習することで、言語構造を深く理解し、行間の微妙な変化も捉えることができる。情熱的な四川語でも、ニュアンス豊かな広東語でも、リズムとイントネーションを正確に捉え、豊かな地域色を表現できる。

さらに、ラップとハミングの両方を生成できる初のTTSモデルであり、音楽関連の音声合成におけるギャップを埋めています。これまで、リズミカルなラップコンテンツの制作にはプロの歌手が必要でした。Step-Audio-TTS-3Bを使用すれば、ユーザーはリズミカルで正確かつ滑らかに流れるラップボーカルを素早く生成でき、無限の可能性を解き放ちます。

HyperAIウェブサイトの「チュートリアル」セクションで、「Step-Audio-TTS-3B 製品グレード方言音声生成モデル」が公開されました。このチュートリアルには、音声合成、音楽合成、音声複製の3つの機能が含まれています。ぜひご自身でお試しください！

チュートリアルアドレス:

https://go.hyper.ai/QrTmW

デモ実行中

hyper.ai にログインし、「チュートリアル」ページで「Step-Audio-TTS-3B 製品レベル方言音声生成モデル」を選択し、「このチュートリアルをオンラインで実行」をクリックします。

ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。

「NVIDIA RTX A6000」と「PyTorch」のイメージを選択してください。OpenBayesは新しい課金方法を導入しました。ニーズに合わせて「従量課金制」または「日次/週次/月次」のサブスクリプションを選択し、「続行」をクリックしてください。下記の招待リンクから新規登録された方には、RTX 4090を4時間分、CPUを5時間分無料でご利用いただけます。

HyperAI 限定招待リンク (コピーしてブラウザに貼り付けると開きます):

https://openbayes.com/console/signup?r=Ada0322_QZy7

リソース割り当てを待機しています。最初のクローン作成には約2分かかります。ステータスが「実行中」に変わったら、「APIアドレス」の横にあるジャンプ矢印をクリックしてデモページに移動してください。APIアドレスアクセス機能をご利用になる前に、実名認証を完了する必要がありますのでご注意ください。

効果のデモンストレーション

このチュートリアルには、一般的な音声合成、音楽合成、音声複製の 3 つの機能が含まれています。

1. 標準的な音声合成

この機能には、公式のデフォルトの音声キャラクターであるティンティンと新しく追加された哪吒の音声が含まれており、多言語生成、感情、方言などの設定をサポートしています。

音声合成音声触覚説明

音色「ティンティン」は、公式の 4 秒間の音声プロンプトファイルから生成されます。
哪哪の音声は、「私は第三王子哪哪、奔放で詩を好み、ポケットに手を入れて堂々と歩き、曲がりくねった道さえもまっすぐにすることができる」というタイトルの14秒の音声プロンプトファイルから生成された。

デモページで「通常の音声合成」を選択し、テキストを入力し、話者（デフォルトは「ティンティン」）、感情（喜び、怒り、悲しみ、コケティッシュ）、言語／方言（中国語、英語、日本語、北京語、四川語、広東語、広東語）、音声速度（速いまたは遅い）を選択します。「音声を生成」をクリックします。

2. 音楽合成

この機能には、公式サイトのデフォルトの音声キャラクター Tingting と、新たに追加された Nezha の音声が含まれており、ラップやハミングをサポートします。

RAPトーンの説明

音色「ティンティン」は、公式ソースから提供された 11 秒のオーディオプロンプトファイルから生成されます。
哪吒の声は、14秒の音声プロンプトファイルから生成された。「雷が鳴り響き、私はとても怖い、雷が私を襲い、私は埃まみれになる、私はトランペットを吹いて運命に逆らう、私は天の試練を乗り越えて心から笑う、チクタクチクタクチクタク。」

ハミング音の説明

「ティンティン」という音色は、12 秒の音声プロンプトファイルから生成されます。
Nezha の音声は、「私は恐れ知らずで生まれました。それが誰であろうと構いません。たとえ私の主人が支配者を排除したとしても、彼は私に命令することはできないでしょう」という歌詞を含む 14 秒の音声プロンプトファイルから生成されました。

デモページで「音楽合成」を選択し、テキストを入力し、スピーカー（デフォルトでは「Tingting」）を選択し、モード（RAPまたはハミング）を選択します。「RAP/ハミングを生成」をクリックします。

3. 音声クローン

この機能により、ユーザーはカスタムトーンのオーディオをアップロードして、パーソナライズされた音声メッセージを生成できます。

デモページで「音声複製」を選択し、テキストを入力し、参照音声（.wav形式）をアップロードします。複製した音声に名前を付け、感情（喜び、怒り、悲しみ、またはコケティッシュ）を選択し、言語／方言（中国語、英語、日本語、北京語、四川語、広東語、広東語）を選択し、発声速度（速いまたは遅い）を選択します。「複製音声を生成」をクリックします。

618ZXW

オンラインチュートリアル | 史記夫人は一瞬で「四川・重慶の少女」に変身できるか？Step-Audio-TTSは音声複製・音楽合成・音声合成をワンストップで実現

デモ実行中

効果のデモンストレーション

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ