618ZXW

ByteDance 初の AI ハードウェア製品が登場、価格は 1199 元!

ByteDance初の AI ハードウェアが、活気に満ちたエキサイティングな形で登場しました。

大型モデルが満載のBluetoothヘッドセット!

このAIヘッドセットは「Ola Friend」と呼ばれています。「Olá」はポルトガル語で「こんにちは」を意味するので、中国語名は「 Hello, friend」となります。

まず第一に、Ola Friend の最大のハイライトは、ヘッドフォンのシナリオに初めて汎用的で大規模なモデルを実際に適用したことです。

ヘッドホンを装着していれば、 「Doubao Doubao」と言うだけで、いつでもどこでも AI を起動して好きなように対話することができます。

たとえば、外出前に天気道路状況を確認するには、次の手順が必要です。

ビデオの詳細:https://www.toutiao.com/artic...

もちろん、これらは単なる前菜です。それでは、より難しい話題、つまり英語を話す練習にすぐに移りましょう。

ビデオの詳細:https://www.toutiao.com/artic...

AIを使った英会話の練習が、ヘッドホンを付けるだけで簡単にできるようになったことがよくわかります。また、 Doubaoはいつでも中断できます(約1分29秒)。

もちろん、Bluetoothヘッドセットとしては、最も基本的な「リスニング」機能も非常に重要です。

Ola Friend は、耳の中に入らないように設計されたオープンバック (OWS) ヘッドホンで、各イヤホンの重さはわずか 6.6 グラムです (個人的にテストしましたが、装着時に重さを感じませんでした)。

音響効果に関しては、27.5度の角度設計により、サウンドユニットが耳穴に近づき、相対的に高い音圧レベルを実現しています。また、10mmダイナミックドライバー、ダイナミックEQ 1.0、ダイナミックベース補正、指向性音漏れ防止設計などを備え、ヘッドホンの音質を向上させています。

上の動画で豆豹が話している時の効果音は、実際に装着した時の感覚に非常に近いです。

しかし、Ola Friendを最初に手に入れたので、簡単に手放すわけにはいきません。

現実世界でのテストとは、あらゆる側面から徹底的に体験することを意味します。

騒がしい環境や方言でも大丈夫です。

まず、いくつかの基本的な機能と設定を紹介する必要があります。

Ola Friend を携帯電話とペアリングするときは、デバイスの両側を同時に押し続ける必要があります。その後、携帯電話の Bluetooth を介してデバイスを見つけて接続できます。

ただし、AI大型モデル機能を有効にするには、Doubaoアプリの「マイ→設定」に移動し、 「Ola Friend Headphones」オプションを見つけて、2回目のペアリングを実行する必要があります。その中で、 「Doubao Smart Agent」オプションのウェイクアップ機能はデフォルトで有効になっています。

次に、実際のシナリオでもう一度テストを実施してみましょう。

結局のところ、私たちは静かな環境だけでなく、大抵は非常に騒がしい環境でもヘッドホンを装着しています。では、Ola Friendを使ってDoubaoと話す場合、外部環境の影響を受けるのでしょうか?

私たちのテスト環境は、コンピューターで音楽を大声で再生し、中国語と英語を混ぜて Doubao と会話するように設定されました。

(会話テキストが長いため、以降のテスト動画は字幕付きで表示されます。)

ビデオの詳細:https://www.toutiao.com/artic...

バックグラウンドで英語の曲が大音量で流れているにもかかわらず、豆宝はユーザーの声を正確に識別することができました。 「今年のノーベル物理学賞はなぜジェフリー・ヒントンに授与されたのですか?」と尋ねると、豆宝は正確な答えを返すことができました。

これは、Ola Friend が騒がしい現実世界の環境でも対応できることを示しています。

これが可能な理由は、Ola Friend があなたの声を友達のように記憶できるため、意図せず中断される可能性が大幅に減少するからです。

同じ問題、同じ環境、もう一度方言を持ち出しましょう— 四川語です!

ビデオの詳細:https://www.toutiao.com/artic...

今回は特別に声質を「可愛い四川娘」に変えてみましたが、雰囲気は出ているでしょうか?

では、Ola Friend は複雑な数学の問題に直面したときにどのように機能するのでしょうか?

映画「クロー・マシーン」のあの有名な質問を例に挙げてみましょう(今回は音声を「ウォーム・タイガー」に変更しました)。

長さ2メートル、直径30センチの円筒形の木片があります。半径を6センチにした場合と8センチにした場合では、ボールの数はいくつ多く作れますか?

解決プロセスから簡単にわかるのは、Ola Friend に直接答えを尋ねても、解決プロセスの途中でいつでも中断しても (1 分 17 秒、1 分 59 秒、2 分 14 秒)、実際の人と話しているのと同じくらいシームレスに通信できることです。

Ola Friend を装着すると、大規模な AI モデルとリアルタイムで電話をしているような感じになり、質問に答えたり中断したり対話を何度も繰り返すような会話になることが容易にわかります。

そのため、料理などのシーンでは、このAI搭載の大型イヤホンを使えば、両手を自由に使えるだけでなく、質問にも答えてくれます。

便利ですよ、本当に便利ですよ。

それで次の質問は、Ola Friend はどうやってそれを実現したのかということです。

大型モデル + TTS + ASR鍛造

Ola Friend の中核となる重要な機能の 1 つは、ByteDance の業界をリードする大規模な自己回帰テキスト読み上げモデルであるSeed-TTSです。

数か月前、ByteDanceはSeed-TTS技術に関する論文を発表し、業界で大きな注目を集めました。

文脈に基づいてテキスト内の感情を理解し、人間の音声とほぼ区別がつかない高品質な音声を生成します。音声は自然で感情にあふれ、間、息切れ、呼吸音までもリアルに合成されます。

ビデオの詳細:https://www.toutiao.com/artic...

技術的な実装の観点から見ると、Seed-TTSは自己回帰Transformerに基づいています。モデルアーキテクチャには、音声からトークン情報を抽出する音声トークナイザー、テキストと音声トークンの関係をモデル化する言語モデル、音声トークンから連続的な音声表現を生成する拡散モデル、そして最終的な音声を生成するボコーダーが含まれています。

トレーニングは次の 3 つのフェーズで構成されます。

  • 事前トレーニング: 幅広いアプリケーションシナリオとスピーカーカバレッジを実現するために、大量のデータを使用してトレーニングします。
  • 微調整: 特定のスピーカーまたはタスクのパフォーマンスを向上させるためのスピーカーの微調整。
  • 事後トレーニング: 強化学習は事後トレーニングに使用され、モデルのパフォーマンスを総合的に向上させます。

Seed-TTS は、以前のモデルと比較して、自然さと安定性が大幅に向上しています。

実験により、Seed-TTS はゼロサンプルのコンテキスト学習機能を備え、短い音声プロンプトに基づいて類似した声で新しい音声を生成できるだけでなく、特定の話者に合わせて微調整して類似性をさらに向上させることもできることが示されました。

Seed-TTS は、感情などの側面をより細かく制御し、言語間の音声合成をサポートすることで、音声のトーン、リズム、テンポを正確に制御できます

Ola Friend のもう一つの重要な機能は、音声認識テクノロジーであるSeed-ASRです。

AIスマートスピーカーや車載音声システムと比較すると、ヘッドフォンは一般的に公共の場所で使用されます。こうした環境は騒音や混雑が激しく、音声認識や意図の判断がより困難になります。

ByteDance の Seed-ASR テクノロジーにより、Ola Friend はユーザーの発言を理解できるだけでなく、コンテキストを通じてさまざまな種類の情報を認識できるようになります。

Seed-ASR は、大規模な言語モデルに基づいて、連続した音声表現とコンテキスト情報を入力することで、さまざまなアプリケーション シナリオにおける多様な音声信号の認識精度を大幅に向上させます。

中国語やさまざまな方言を含む多言語認識をサポートし、豊富なトレーニング データに対して大規模な自己教師学習を実行し、教師あり微調整、コンテキスト認識トレーニング、強化学習などの段階的なトレーニング戦略を通じてパフォーマンスをさらに最適化します。

Seed-ASR は、公開テスト セットと内部の包括的評価セットの両方で、既存のエンドツーエンド モデルよりも低い単語/文字エラー率を示しています。

さらに、大きなあんぱんモデルのおかげで、Ola Friendにはバフボーナスもあります。

双方向のリアルタイム対話を可能にし、いつでも中断できます。文ごとにウェイクワードを要求したり、返答前に文全体を聞き取ったりするのではなく、複数回のコミュニケーションで別の話題を紹介することをサポートします。

主に特定のタスクを複数回実行すること(天気を尋ねるなど)を特徴とする従来のスマートスピーカーアシスタントとは異なり、大型モデルに接続した後は、恐れることなくコミュニケーション中に自由にトピックを切り替えることができ、一般的なシナリオで全二重の連続対話を実現できます。

さらに、Ola Friend はリンクのプリロードなど、エンドツーエンドのインタラクション時間を短縮し、ユーザーが話した後にフィードバックを受け取るまでの時間を短縮できる多くのエンジニアリングの最適化を行っています。

オープンバックヘッドホンのAI進化

ByteDanceのDoubaoチームによる初のAIハードウェア製品であるOla Friendは、公式ティーザーポスターが公開されてから数日後には、すでにネットユーザーの間でヘッドホンなのか、メガネなのか、それともヘッドフォンなのかなど、さまざまな憶測を呼んでいた。

ついにその謎が解き明かされました。では、ByteDanceはどのようにしてヘッドホンにAIインタラクションを導入できたのでしょうか?

この成功は、自社の大型豆型モデルのサポートによるだけでなく、ハードウェア チームの力と切り離せないものです。

9月にByteDanceがオープンウェアラブルオーディオ製品メーカーであるOladanceの買収に成功し、100%の経営権を獲得したと正式に発表したとみられる。

Ola Friend ハードウェア チームは、元祖 Oladance ヘッドフォン チームであり、OWS オープンバック ヘッドフォンを初めて開発したグループと同じで、豊富な技術的専門知識を持っています。

前述のように、チームの背景を考慮すると、Ola Friend は設計において AI ハードウェアのパフォーマンスだけでなく、従来のオープンバック ヘッドフォンの快適性と音質も考慮されています。

チームは、特許取得済みの最適化されたノイズ低減アルゴリズムも発表しました。このアルゴリズムは、ソフトな起動とインタラクションに特化して改良されており、ユーザーはより柔らかい声で豆宝を起こすことができます。

言い換えれば、私は人前で静かに起きることができ、母は私が社交的にぎこちなくなることを心配する必要がなくなったのです。

大規模モデリング技術の開発が急速に進み、様々なAIハードウェアが雨後の筍のように次々と登場しています。スマートホームからパーソナルアシスタントまで、AIは私たちのライフスタイルを大きく変えつつあります。

このような背景から、ByteDanceのOla Friendは間違いなくAIハードウェアヘッドフォン市場に新たな活力をもたらした。

Ola Friendは10月17日から販売開始されると報じられています。AI機能は今後もアップデートされ、将来的にはOla Friendが豆宝を起動するだけでなく、より高度なエージェントを起動できるようになるとのことです。

さて、この初のAI搭載大型モデルイヤホンに興味はおありでしょうか?