|
DeepSeek のオープンソースリリースをめぐる世界的な話題は依然として強く、最近では Step-Audio-TTS-3B が Geely Automobile Group と連携して、Step-Audio-TTS-3B モデルをオープンソース化するという行動を再び起こし、業界内で幅広い議論を巻き起こしています。 かつては、方言データの多様性と複雑性、そしてモデルの高い一般化要件により、音声複製モデルは方言でのパフォーマンスが低かった。しかし、Step-Audio-TTS-3Bは、地域言語の特徴を鮮明に読み取ることができる。LLM-Chatパラダイムを用いた大規模合成データセットで学習することで、言語構造を深く理解し、行間の微妙な変化も捉えることができる。情熱的な四川語でも、ニュアンス豊かな広東語でも、リズムとイントネーションを正確に捉え、豊かな地域色を表現できる。 さらに、ラップとハミングの両方を生成できる初のTTSモデルであり、音楽関連の音声合成におけるギャップを埋めています。これまで、リズミカルなラップコンテンツの制作にはプロの歌手が必要でした。Step-Audio-TTS-3Bを使用すれば、ユーザーはリズミカルで正確かつ滑らかに流れるラップボーカルを素早く生成でき、無限の可能性を解き放ちます。 HyperAIウェブサイトの「チュートリアル」セクションで、「Step-Audio-TTS-3B 製品グレード方言音声生成モデル」が公開されました。このチュートリアルには、音声合成、音楽合成、音声複製の3つの機能が含まれています。ぜひご自身でお試しください! チュートリアルアドレス: https://go.hyper.ai/QrTmW デモ実行中1. hyper.ai にログインし、「チュートリアル」ページで「Step-Audio-TTS-3B 製品レベル方言音声生成モデル」を選択し、「このチュートリアルをオンラインで実行」をクリックします。 2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。 3. 「NVIDIA RTX A6000」と「PyTorch」のイメージを選択してください。OpenBayesは新しい課金方法を導入しました。ニーズに合わせて「従量課金制」または「日次/週次/月次サブスクリプション」をお選びいただけます。「続行」をクリックしてください。下記の招待リンクから新規登録された方には、RTX 4090を4時間分、CPUを5時間分無料でご利用いただけます。 HyperAI 限定招待リンク (コピーしてブラウザに貼り付けると開きます): https://openbayes.com/console/signup?r=Ada0322_QZy7 4. リソースの割り当てをお待ちください。最初のクローン作成には約2分かかります。ステータスが「実行中」に変わったら、「APIアドレス」の横にあるジャンプ矢印をクリックしてデモページに移動します。APIアドレスアクセス機能を使用する前に、実名認証を完了する必要がありますのでご注意ください。 効果のデモンストレーションこのチュートリアルには、一般的な音声合成、音楽合成、音声複製の 3 つの機能が含まれています。 1. 標準的な音声合成 この機能には、公式のデフォルトの音声キャラクターであるティンティンと新しく追加された哪吒の音声が含まれており、多言語生成、感情、方言などの設定をサポートしています。 音声合成音声触覚説明 * 音色「ティンティン」は、公式の 4 秒間の音声プロンプト ファイルから生成されます。 * 哪哪の音声は、14 秒の音声プロンプト ファイルから生成されました。「私は第三王子哪哪です。気ままで詩が好きで、ポケットに手を入れて、堂々と歩きます。曲がりくねった道でもまっすぐにすることができます。」 デモページで「通常の音声合成」を選択し、テキストを入力し、話者(デフォルトは「ティンティン」)、感情(喜び、怒り、悲しみ、コケティッシュ)、言語/方言(中国語、英語、日本語、北京語、四川語、広東語、広東語)、音声速度(速いまたは遅い)を選択します。「音声を生成」をクリックします。 2. 音楽合成 この機能には、公式サイトのデフォルトの音声キャラクター Tingting と、新たに追加された Nezha の音声が含まれており、ラップやハミングをサポートします。 RAPトーンの説明 ※音色(ティンティン)は、公式ソースから提供された 11 秒間の音声プロンプト ファイルから生成されます。 * 哪吒の音声は、14 秒のオーディオ プロンプト ファイルから生成されました。「雷が鳴り響き、とても怖い。雷が私を襲い、ほこりまみれにする。トランペットを吹いて運命に逆らう。天の試練を乗り越えて心から笑う。チクタク チクタク チクタク。」 ハミング音の説明 * 音色「ティンティン」は、12 秒の音声プロンプト ファイルから生成されます。 * 哪吒の声は、14 秒の音声プロンプト ファイルから生成されました。「私は恐れ知らずで生まれました。それが誰であろうと構いません。マスターが支配者を排除したとしても、彼は私に命令することはできないでしょう。」 デモページで「音楽合成」を選択し、テキストを入力し、スピーカー(デフォルトでは「Tingting」)を選択し、モード(RAPまたはハミング)を選択します。「RAP/ハミングを生成」をクリックします。 3. 音声クローン この機能により、ユーザーはカスタムトーンのオーディオをアップロードして、パーソナライズされた音声メッセージを生成できます。 デモページで「音声複製」を選択し、テキストを入力し、参照音声(.wav形式)をアップロードします。複製した音声に名前を付け、感情(喜び、怒り、悲しみ、またはコケティッシュ)を選択し、言語/方言(中国語、英語、日本語、北京語、四川語、広東語、広東語)を選択し、発声速度(速いまたは遅い)を選択します。「複製音声を生成」をクリックします。 |
オンラインチュートリアル | 史記夫人は一瞬で「四川・重慶の少女」に変身できるか?Step-Audio-TTSは音声複製・音楽合成・音声合成をワンストップで実現
関連するおすすめ記事
-
ロボットは物流仕分け作業員を8時間で訓練できます!図02は、大規模導入にわずか30日しかかからなかったことを示しています。
-
高性能、低電力の NPU と組み合わせた異種コンピューティング: Qualcomm はエッジでの生成 AI の開発を推進しています。
-
大規模モデルがナレッジグラフから知識を認識できるようにするにはどうすればよいでしょうか。Ant Financial の共同ラボ: 多語彙並列予測を使用して「教える」。
-
謎の「レッサーパンダ」モデルが一夜にして話題に:ランキングでFluxとMidjourneyを上回る
-
数千億個のCPUを搭載した大規模なモデルを実行したいですか?コンピューティングパワーベンダーは全力を尽くしています!汎用CPUサーバーが新たな選択肢になりつつあります。
-
アリババの有名なオープンソース プロジェクトが正式に廃止を発表した。これは痛手だ。