|
大規模音声合成モデルコンペティションで、一夜にして優勝者が入れ替わった。 最新のHAM-TTS大規模モデルでは、以前の最先端 (SOTA) モデルである VALL-E と比較して、発音の正確さ、自然さ、話者の類似性が大幅に向上しています。 その背後にある主な研究チームは、実は今年の LLM 分野で最も予想外の「ダークホース」です。 吉利汽車。 そう、AIネイティブの企業でもなければ、伝統的なテクノロジー大手でもありません。自動車で知られながらも、ハードテクノロジーの強さを常に発揮しているGeely社です。 Geely の Starwise AI Big Model の用途は何ですか?Geelyが自社開発した大規模音声モデルHAM-TTSの正式名称は以下のとおりです。 トークンベースのゼロショット音声合成のための階層的音響モデリングは、Starwise AIの大規模モデルシステムの主要コンポーネントです。その名前が示すように、この技術はスマートコックピットのエクスペリエンスにおいて最も重要なインタラクション要素である「発音」において重要な役割を果たします。 音声アシスタントの音声品質は、通常、次の指標を使用して評価されます。 発音の正確さは、文字エラー率 (CER) によって判断され、具体的には、よく知られているエンドツーエンドの音声モデル プラットフォーム ESPNet によってスコア付けされます。 話し方の一貫性(NMOS)、口調の一貫性(SMOS)、総合スコア (MOS) は、研究チームが募集した 60 人のチームによって主観的に判断され、採点されました。 全体的に、約 4 億のパラメータの同じスケールで、HAM-TTS モデルは最先端の VALL-E モデルと比較して文字エラー率を約 1.5% 削減します。 8 億のパラメータを備えた本格的な HAM-TTS モデルは、VALL-E と比較して文字エラー率を 2.3% 直接削減します。 HAM-TTS モデルは、スタイルの一貫性、ピッチの一貫性、および全体的なスコアが約 10% 向上することを示しています。 インタラクティブな仮想アバター、カスタマイズされたペルソナ、音声ナビゲーション、ニュース放送、絵本の読み聞かせ、ストーリーテリング、ライブストリーミングなど、スマートコックピット内のインタラクティブなシナリオはすべて、Starwise Voice Big Model が提供する強力な技術サポートに依存しています。 Starwise 音声ビッグモデルは認識機能が向上し、話者の声色の安定性と一貫性をより適切に維持し、音色の突然の変化を回避する方法を認識します。 落ち着いたトーンで伝えるプロフェッショナルなニュース番組でも、絵本を読み聞かせる心温まるひとときでも、システムは、具体的なシナリオのニーズに合わせて、トーン、イントネーション、間、感情といった様々なパラメータをインテリジェントに調整します。ユーザーは、より没入感があり、自然で、生き生きとしたパーソナライズされた音声インタラクション体験をお楽しみいただけます。 第二に、シームレスな言語切り替えを可能にします。ユーザーが入力する言語や方言に関わらず、一貫した音色を維持しながら、中国語または英語の音声合成をスムーズに行うことができます。 方言を入力すると、システムが直接中国語(北京語)やその他の方言に変換して出力します。四川語、広東語、東北中国語など複数の方言の音声合成に加え、日本語、韓国語、東南アジア言語間の音声合成にも対応しています。 最も重要なのは、Starwise 音声モデルではサウンドの再生に 3 秒のサンプル入力しか必要としないことです。これは、業界で一般的に要求される 10 秒よりも大幅に改善されています。 これは実は、ユーザー エクスペリエンスの観点から見た Starwise の大規模音声モデルの最大の学術的価値であり、革新的な音声合成テクノロジーとデータ拡張戦略を通じて TTS モデルのパフォーマンスとトレーニング コストを向上させるものです。 吉利はどうやってそれを実現したのでしょうか?TTSモデルは、テキストを音声に変換する様々なインタラクティブアプリケーションで広く利用されています。従来のモデルは、「テキスト処理 - 音響特徴の抽出 - 音声合成」という3つのステップで構成されています。 最初の2つのステップでは標準的なルールベースのアルゴリズムが使用され、ニューラルネットワークは通常、比較的小規模なモデルで構成される最後の音声合成ステップで適用されます。例えば、音声合成の先駆者であるVALL-Eは、16基のV100 GPUと約4億個のパラメータで構成される学習構成であり、大規模とは考えられていません。 しかし、入力テキストと音声トークンを大規模モデルへの入力として直接連結すると、モデルを制約するのに十分な意味情報が不足し、言い換えれば、テキストと音声が適切に「整合」されません。その結果、従来のTTSモデルでは、発音精度の低下や、話し方や音色の不一致といった問題が発生します。 この問題は、大量かつ多様なトレーニング データがあれば解決できますが、開発サイクルとコストが増加します。 Geely の解決策は、従来の TTS モデル構造に階層化された音響モデリング手法を導入することです。 具体的には、テキストからLVSへの予測器が導入され、テキストから重要な音響情報と意味情報を含む潜在変数を補足情報として予測します。推論フェーズでは、この潜在変数情報とテキストプロンプト情報が、より大きなモデルへの入力として使用されます。 これにより、合成音声における発音エラーやスタイルの急激な変化が大幅に改善されます。さらに、学習中にデータセグメントを置換・複製することで、音色の均一性が向上します。 学習フェーズでは、アライナー*(Text-HuBERT Aligner)もモデルに導入され、教師ありLVSを生成します。これは、Text-to-LVS予測器の学習を支援します。テキスト(音素)シーケンスを音声のHuBERT特徴量とアラインメントし、音素シーケンスと同じ長さの教師ありLVSシーケンスを生成します。 音声特徴を抽出した後、K-means クラスタリングを導入して、元の音声特徴から話者固有の情報を削除し、モデルが音声の共通特徴に重点を置くようにすることで、モデルの一般化能力と合成音声の音色の一貫性が向上しました。 研究チームは音声合成の精度を向上させるとともに、UNetアーキテクチャに基づく事前学習済みの音声変換モデルを採用し、音色は異なるが同じ内容の合成音声データを大量に生成しました。これにより、学習データの多様性と量が増加し、TTSモデルの性能と一般化能力が向上しました。 まず、音声データからHuberT特徴量と基本周波数(F0)を抽出し、これらの特徴量をResNetモデルに入力して処理します。その後、データはエンコード時のダウンサンプリングとデコード時のアップサンプリングの処理を経て、最終的に音声信号を再構成します。デコーダーのアップサンプリングの各段階では、対象話者の埋め込み特徴量を導入することで、音声の内容を変えることなく音色を変化させます。 このアプローチは、3 つの目標を同時に達成します。第 1 に、実データが不十分であるという問題に対処します。第 2 に、著作権とプライバシーのリスクを回避します。第 3 に、データの希薄性 (まれな発音、特定のアクセント、イントネーションなど) の問題を効果的に解決します。 HAM-TTSモデルは、様々な組み合わせとサイズの実データと合成データを用いて学習されました。その結果、実データと合成データの組み合わせを用いた学習が、モデル性能の最も顕著な向上をもたらすことが示されました。 Geelyの音声認識システムは最先端(SOTA)基準に到達しました。これをどう解釈すべきでしょうか?Geely は、そのアルゴリズム機能を活用して、これまでさまざまなメーカーが見落としていたインテリジェント コックピットのコーナーケースに対するソリューションを提案し、インテリジェント車両の「ラスト マイル」エクスペリエンスを向上させています。 研究開発のこの部分は、最も時間と労力がかかり、最高レベルの技術的専門知識も必要とします。 最先端のモデルの利点を理解するだけでなく、その欠点を把握し、的を絞った改善を提案する必要があります。 ほとんどの自動車メーカーは、書籍『AIビッグモデル』の「序文」を読んだだけですでに圧倒されていたが、Geelyはそれを徹底的に理解しただけでなく、「注釈」も付けた。 さらに、彼は実際の論文の第一著者であり、チームメンバーのほとんどもGeelyの科学者であるため、Starwise Speech Big Modelの「所有権」をめぐる争いはない。 「自社開発」技術が絶えず再定義されている自動車業界において、Geely は斬新な例外として際立っています。 この考え方に沿って進むと、そのような例がさらにたくさんあることがわかりました。 例えば、GeelyのStarwise AIビッグモデルシステムには、言語ビッグモデル、マルチモーダルビッグモデル、デジタルツインビッグモデルという3つの基本モデルが含まれています。これらから、NLP言語ビッグモデル、NPDS R&Dビッグモデル、マルチモーダル知覚ビッグモデル、マルチモーダル生成ビッグモデル、AI DRIVEビッグモデル、デジタルライフビッグモデルなどが派生し、インテリジェントビークル全体のAI技術基盤を構築しています。 例えば、コンピューティング能力の面では、瑞志コンピューティングセンターのクラウドコンピューティング能力全体は、昨年の毎秒81京回の計算から毎秒102京回の計算に拡大しました。 Starwise Voice ビッグモデルは、 Geely の「技術爆発」を反映しています。そのアルゴリズム機能、体系的なビッグモデル機能、データ機能は業界をリードしており、業界に新しいソリューション オプションも提供しています。 これは、電動化における最初の成功に続く、インテリジェントテクノロジーの分野におけるGeelyの目覚ましい成果です。 しかし、Geelyの事業拡大はそれだけに留まりません。近年、Geelyは自動車事業に関連するコア技術への投資に加え、より広範な基盤技術においても主導的な役割を発揮しています。衛星、チップ、オペレーティングシステムといった、最もコアとなる技術革新において、Geelyの強みはますます際立っています。 吉利を再評価すべき時が来た。 論文リンク: https://arxiv.org/abs/2403.05989 |
自動車業界最大の AI「ダークホース」である Geely 社が独自に開発した大規模音声モデルは、最先端 (SOTA) システムを 10% 上回り、トップに立っています。
関連するおすすめ記事
-
この国営企業は、国産のマルチカードクラスタを使用して、兆パラメータの大規模モデルの開発をリードしています!
-
Apple、14年ぶりの製品リーク!M4版MacBookはまだ発売もされていないのに、開封動画が溢れている。
-
Hillhouse CapitalとBlueRun Venturesが主導してLingchu Intelligenceへの投資を行い、同社は業界をリードする汎用の器用な操作インテリジェントエージェントの開発に取り組んでいます。
-
今日最も注目されている論文: スケーリングの法則は終わり、量子化さえも機能しない、AI リーダーたちは全員一致で同意している。
-
大学との協働学習活動「OPEN AI 基礎教育講座」受講登録受付開始!
-
北京市政府が主導するファンドがBose QuantumのシリーズA+資金調達ラウンドを主導。