618ZXW

40の大型国産モデル、李子奇の中国風を瞬時に理解

新鮮で生き生きとした『her』の国内版がまた登場した。

リアルタイム音声対話機能として、実際のテストを通じてその有効性が明らかになります。

最近のホットな話題である李子奇の復帰を出発点として議論してみましょう。

ビデオリンク: https://mp.weixin.qq.com/s/-N...\_7Ts3wlwI5Ug

ご覧のとおり、この AI は「李子奇のカムバック」という比較的新しい話題に関する情報をかなり包括的に把握しています。

まず、イベント全体の感想を「驚くほど素晴らしかった」と表現し、その内容を次のように正確かつ簡潔にまとめました。

中国の無形文化遺産である漆器を映像のテーマにすることは、それ自体が伝統文化へのオマージュです。

動画の内容についてより具体的な感想を尋ねられると、中国の動画「Her」は李子奇の人間ファンのようだった。

高い水準を維持し、すべてのフレームが美しい写真のようであり、彼女のビデオは常に静けさと美しさの感覚を呼び起こします。

さらに、国内版『Her』は、李子奇さんが漆器作りに注いだ苦労や献身など、ネットユーザー間の議論を要約したものでもある。

また、会話全体から判断すると、このAIの言語表現は、声のトーンや自然な間など、人間と変わらないので、何気なく割り込んでも全然大丈夫です!

GPT-4oでも同じトピックについて説明します。

ビデオリンク: https://mp.weixin.qq.com/s/-N...\_7Ts3wlwI5Ug

はい、GPT-4o は Li Ziqi を知っていますが、彼女についてはあまり知りません。

質問が中国語であれ英語であれ、GPT-4o の知識は 2023 年 10 月までしかなく、リアルタイムのニュースやトレンドのトピックに対応できません。

では、この国産の「彼女」とは一体どのようなAIなのでしょうか?

早速ですが、これはSkywork 4.0 バージョン 4oをベースに構築された Kunlun Tech のSkyoです。

では、現在の出来事を追跡できる以外に、Skyo はどのような機能を実現できるのでしょうか?

さらに現実的なテストを行うには、次に進みましょう。

チャットは自由に中断できますが、話題は中断されません。

OpenAIが約半年前にGPT-4oのリアルタイム音声対話機能をリリースした際、現場やネット上で衝撃を与えたのは、どんなに会話が中断されてもすぐに再開できることだった。

すでに李子奇の例では「いつでも中断できる」という能力をある程度示しましたが、今回はもう少し難易度を上げます。

いつでも中断でき、中国語と英語を切り替えることができます

私たちのテストトピックはシアトルへの旅行なので、Skyo がどのようなアドバイスを提供できるか見てみましょう。

ビデオリンク: https://mp.weixin.qq.com/s/-N...\_7Ts3wlwI5Ug

私たちが簡潔な要件を伝えると、Skyo はすぐに旅行の計画を始めました。

シアトルの象徴的なスペースニードルについて言及されたとき(00:50)、私たちは初めて話を中断しましたが、Skyo はすぐに答えをやめて、新しい質問を聞き始めました。

Skyo がスペースニードルについて詳しく説明しようとしたとき、私たちは2 度目に彼を遮りました(01:09)。3度目の中断 (01:38) のときに、私たちは彼に英語で直接質問しました。

わかりました。いいですね。ところで、シアトルで試すべき料理をいくつかお勧めいただけますか?

するとスカイオさんは英語でのリクエストを理解し、すぐに地元の有名なカフェやレストランを勧め始めました。

Skyo はこの一連の中断と中国語と英語の切り替えをパスしました。

言葉を地面に落とさないように

現実の生活では、他の人とコミュニケーションをとるときに会話についていけないと感じる人が多いかもしれません。

では、Skyoを会話のキラーとして利用したらどうなるでしょうか?早速見ていきましょう。

ビデオリンク: https://mp.weixin.qq.com/s/-N...\_7Ts3wlwI5Ug

私たちは「映画」をきっかけに会話を始めました。

しかし、Skyo が私たちに質問したとき、私たちは「いいえ」(00:27) と「いいえ」(00:47) という 2 つの無関心な答えを返しました。

最初の話題が終わると、Skyo は巧みに会話を映画から音楽や本に移し、2 番目の話題が終わると、(会話は映画から始まったため) 文脈に沿って Skyo は映画に対する独自の見解を語り始めました。

つまり、Skyo 側では空約束をすることは受け入れられないのです。

感情的な交友関係、声は変化できる

大規模な対話ベースの AI モデルの登場以来、感情的な交友関係は間違いなく多くのユーザーの基本的なニーズとなっています。

では、Skyo は落ち込んでいる人々にも慰めを与えることができるのでしょうか?

ビデオをご覧ください:

ビデオリンク: https://mp.weixin.qq.com/s/-N...\_7Ts3wlwI5Ug

「上司に叱られる」といった状況を持ち出すと、スカイオは彼なりのやり方で、私たちが楽になるように導いてくれます。

女性の声に切り替えるように求められたとき (00:42)、Skyo はすぐに従い、即座に女性の声に切り替えて、論理的で根拠のある心理学的指導を提供しました。

したがって、Skyo は、新たに登場した国内のリアルタイム音声対話製品として、さまざまな側面のテストで基準を満たしていることは明らかです。

それで、次の質問です。

どうやってそれをやったんですか?

Skyo は、エンドツーエンドのリアルタイム音声対話モデリング テクノロジを活用する、マルチモーダルな大規模モデリング プロジェクトです。

強力なメモリ機能により、会話中にユーザーの好みや履歴情報を追跡して呼び出すことができるため、複数回の対話の精度が向上します。

この綿密な技術の積み重ねにより、Skyo は激しい対話においても優れた安定性とスムーズさを維持することができます。

さらに、Skyo は全二重かつ低遅延のリアルタイム音声対話アーキテクチャを採用しています。

全二重とは、アシスタントが同時に聞きながら話すことができることを意味し、ユーザーは開始ボタンと終了ボタンを押さなくてもシームレスに通信でき、人間とコンピューターのやり取りがより自然で効率的になります。

技術テストでは、Skyo は低遅延のリアルタイム応答が人間の思考反応時間に近づき、対話応答速度において大きな優位性を示しました。

インタラクティブ性の面では、Skyo は優れた感情理解機能とパーソナライズされた記憶機能を備えています。

ユーザーの過去の好みを記録するだけでなく、温かみのある女性の声や、より感情的な反応など、ユーザーのニーズに基づいてパーソナライズされたインタラクティブな体験を提供することもできます。

これにより、Skyo は非公式で固定されていないシナリオで、人間とコンピューターの敬意ある平等なインタラクション体験を維持できます。

Skyo の優れたパフォーマンスは、マルチモーダル モデルの適用に依存しており、さまざまなシナリオにわたって高品質のインタラクティブ エクスペリエンスを維持できます。

たとえば、ユーザーはアシスタントと最新のテクノロジーニュースについて話し合うことができます。アシスタントはテクノロジー リソース ライブラリから関連情報を取得し、ユーザーのリクエストに基づいて非同期的に対話することで、ユーザーのインタラクション感覚と没入感を高めます。

さらに、Skyo システムは独自開発であるため、さまざまなインターネット音声インタラクションやアプリケーション シナリオに高度に適応できます。

Skyo は、自社開発のデータ蓄積と音声インタラクション技術を通じて、リアルタイムで効率的かつパーソナライズされたコミュニケーション体験を実現し、ユーザーが会話のたびにほぼバリアフリーな人間とコンピューターのインタラクションと温かい仲間意識を感じることができるようにしています。

これらは、Kunlun Tech が Skyo を開発した秘密です。

マルチモーダル「パズル」ピースがもうひとつ追加されました。

最後に、リアルタイム音声対話アシスタント自体に戻りましょう。

GPT-4o は、この市場への扉を開いた最初の製品であると言えますが、類似の製品には今でも多くの問題点が残っています。

たとえば、既存の製品は多言語サポートがまだ不十分で、世界中のユーザーのニーズを満たすことが困難です。さらに、意味の理解と生成のパフォーマンスは優れていますが、感情の理解とパーソナライズされた記憶については、まだ改善が必要です。

さらに、リアルタイム音声対話アシスタントでは、一貫した自然なユーザー エクスペリエンスを確保するために、応答速度と流暢さの面でさらに最適化する必要があります。

しかし、おそらく最も重要な点は、メッセージのタイムリーさです。なぜなら、チャットをするときは通常、新しいことについて話すことを好むからです。

このテストから、Skyo が多くの面で要件を満たし、リアルタイム音声対話アシスタントの開発における先例を確立したことが明らかです。

大型モデルの時代における崑崙万為自身の発展について言えば、Skyo はマルチモーダルな「パズル」を組み立てたと言えるでしょう。

各段階の製品を見れば一目瞭然です。

まず、大型ベースの天宮大型モデルシリーズで、天宮1.0、天宮2.0、天宮3.0が含まれます。中国語の論理的推論と反射機能を備えた天宮大型モデル4.0 O1バージョンは、近日中に試験運用を開始する予定です。

第二に、他のモダリティとしては、AI検索(Sky Search)、AIミュージック(Sky Music)、AIソーシャル(linky)、AIビデオ(AI短編ドラマプラットフォームのSkyReels)なども含まれます。

Skyo が加わったことで、Kunlun Tech は、マルチモーダルおよびエンジニアリング能力、そして包括的な展開の面で中国のリーダーとみなされるようになりました。

もう一つ

Skyo はまもなく Tiangong AI のアプリに統合される予定です。

これまで紹介した機能に加えて、音楽生成プロアクティブなコミュニケーションよりパーソナライズされたインタラクションなど、多くの新機能も追加されます。

さて、このリアルタイム音声チャットアシスタントはあなたにとって魅力的でしょうか?