618ZXW

*Her* のオープンソース版が登場し、技術レポートも公開されました。専門家の Karpathy 氏は次のように語っています。「非常にユニークです。」

Karpathyさんの強い推薦もあり、オープンソース版の「Her」 Moshiが再び注目を集めています!

(モシは)とても面白い性格をしていて、突然しゃべらなくなったり、理由もなく黙り込んでしまったりすることもあります...

Moshiは、フランスのスタートアップ企業Kyutaiが今年7月初旬にリリースしたエンドツーエンドのリアルタイムオーディオモデルです。

リリース後は誰でも無料でプレイできるだけでなく、Kyutai は現在、Moshi のコードと技術レポートを公開しています。

これは本当に驚きでした。Google DeepMindの研究者であり、ViTの著者で、最初に試用した人の一人であるルーカス・ベイヤー氏は、このニュースを聞いて急いで駆けつけました。

(偶然ですが)最近この質問の答えを知りたかったんです。

オープンソースエンジニアの Sebastian Rojo が、その場で学習モードを開始します。

学ぶ時間です!

もちろん、これまで遅々として進まなかったOpenAIは、またしても「公開処刑」された。(7月末に高水準言語モードがリリースされた後も、未だに少数の人にしか公開されていない。)

すごいですね!OpenAIの高度な音声モードを待っている間にも、Moshiを使って何かを作り始めることができます。

Moshiの技術詳細が明らかに

早速、Kyutai が今回リリースしたものを開封して見てみましょう。

  • 長文の技術レポート。Moshiモデルの詳細、重量、そしてコードの詳細を公開。
  • GitHub 公式リポジトリ;
  • HuggingFace モデルライブラリ;

まずはモデルを見てみましょう。Kyutaiが今回リリースしたのは、Moshiko、Moshika、そしてストリーミング音声コーデック「Mimi」の3モデルです

Moshiのパラメータは約7.69Bです。Moshiko/kaはMoshiの合成データを微調整した変種であり、男性と女性の2つの声を持っています。

次のように、互いに会話させることもできます。

ご覧のとおり、これらはすべて MacBook で実行でき、説明によると、これらのモデルは L4 GPU で約 200 ミリ秒のレイテンシを実現します。

バリアントのメモリ要件については、bf16、8 ビット、4 ビット精度はそれぞれ 16 GB、8 GB、4 GB の VRAM に対応します。

さらに、Moshi は Mimi と呼ばれるストリーミング ニューラル オーディオ コーデックを使用します。これは24 kHzオーディオを処理でき (24 kHz オーディオを 1.1 kbps の速度で 12.5 Hz に圧縮)、さまざまな事前トレーニング済みモデルをサポートします。

SpeechTokenizer にヒントを得た Mimi は、蒸留技術を使用して意味情報と音響情報を共同でモデル化し、大規模な言語モデルと連携するように特別に設計された敵対的トレーニングを通じてパフォーマンスを向上させます。

第二に、公式にリリースされた技術詳細に基づくと、Moshi プロジェクトは主に3 つのコンポーネントで構成されています。

  • Helium言語モデル(70億のパラメータを持ち、2.1兆トークンでトレーニング済み)
  • Mimi ニューラルオーディオコーデック(意味情報と音響情報をモデル化可能)
  • 新しいマルチストリーム アーキテクチャ(ユーザー オーディオと Moshi オーディオを個別のチャネルで個別にモデリング可能)。

詳しく言うと、Moshi チームは RQ-Transformer バリアント アーキテクチャを採用して Helium を強化し、これにより Helium はシーケンスの長さを増やすことなく、意味タグと音響タグの階層構造をモデル化できるようになりました。

公式には、彼らはオーディオ生成への主な貢献はマルチストリーム モデリングであると主張しています。

各タイムステップで Moshi トークンとユーザー トークンをスタックして、オーバーラップ、リバース チャネル、中断などの全二重会話のダイナミクスをシミュレートできます。

また、ストリーミング メディアとの互換性を維持しながら、時間的に整合されたテキストを予測することで Moshi のインテリジェンスを強化し、生成される音声の品質をさらに向上させる Inner Monologueテクノロジーも搭載されています。

さらに、「Inner Monologue」の拡張機能として、Moshi はオーディオとテキスト マーカーの遅延を調整することで、ストリーミング TTS および ASR 機能を実現できます。

公式チームは、大規模な音声事前トレーニングの後、独自のモデルを使用して20,000 時間の合成対話データを作成し、品質、音声言語モデリング、音声による質問応答の点で Moshi のパフォーマンスを評価し、セキュリティと定量分析を実施しました。

評価結果では、Moshi が以前にリリースされたモデルよりも優れていることが示されています。

OpenAI版の「Her」はまだ利用できません。

Moshi がこのような大きな発表をしたのを見て、多くのネットユーザーが OpenAI を思い出しました。

今年 7 月下旬、OpenAI の高度な音声モードが一部の Plus ユーザー向けにリリースされ、その後、いくつかの実践的な例が公開されました...

たとえば、ChatGPT に中国語を話すように頼んだとき、その強い「外国人」アクセントは何なのでしょうか?

例えば、早口言葉を暗唱するように頼むと、見物人は泣き出すほど笑った。

実際に使ってみると、ネットユーザーの期待は非常に高かった。

しかし、OpenAI の行動は少し遅すぎました。彼らは秋に高度な音声モードをすべての Plus ユーザーに提供することを計画していました。

しかし、今のところ続報はなく、関連トピックのライブページには不満の声が溢れている。

実際、Moshiが釈放された後、一部のネットユーザーは再び冗談を言った。

オープンソースは常に勝利します!

しかし、OpenAIが9月24日に高度な音声モードをリリースする可能性があるという報道もあります。

一週間後にわかるよ!