618ZXW

国産の3Dバーチャルヒューマン版『her』がドバイへ向かう。

久しく出てないけど、AI製品の世界はもうここまで進化してるの?

世界三大IT展示会の一つであるGITEX GLOBALでは、QuantumBitがブースにてチャットボットとのチャットやAIを活用した独自の3Dデジタルアバターの作成、言語やジェスチャーによる3Dアバターとのリアルタイムインタラクションなどを体験した。

つまり、 『Her』には3Dのバーチャル人間バージョンが存在するということになります

私の隣に座っていた出展者が近づいてきて、不思議そうにこう言いました。

3 つの別々の機能のように見えますが、将来的には、これら 3 つの機能が製品内で 1 つに統合される予定です。

QuantumBit が反応する前に、出展者は次のように付け加えた。

これらのデジタル アバターを作成する目的は、ユーザーがログオフした後でも、デジタル アバターがコミュニティ内で引き続きチャットできるようにして、不適切な友人とのチャットに費やす時間を節約することです。

あぁ…これ…私…そうそう、 AIって、人とチャットするための既成バージョンがあるんですね

この出展者が中国企業だと言ったら、おそらく多くの人がすぐにそれを推測するでしょう。

そうです、ソウルです。

QuantumBit は、このイベントで Soul のスタッフと長時間会話を交わしました。会話の内容には、Soul AI サブセクションの責任者やそのチームメンバーだけでなく、同社の CTO である Tao Ming 氏も含まれていました。

△ソウルCTO タオ・ミン

こんな素晴らしい機会、何を待っているのでしょう?インタラクティブな展示を体験した後は、ククとのおしゃべりタイムをご用意しています。

Gitex展示会で、ソウルは何を展示しましたか?

Soul のブースのメインインタラクティブエリアには、3 つの体験スクリーンが設置されていました。

ブースに向かって左から右に、以下の体験ができます。

  • 左の画面:作成した 3D デジタル ヒューマンとシームレスに対話します。
  • 中央スクリーン:音声とテキストの対話、多言語によるコミュニケーションが可能なリアルな 3D デジタル人物像を作成します。
  • 右側の画面:音声またはテキストでチャットボットとチャットします。

QuantumBit はこのブースの前に長時間立っていたのですが、ここに立ち止まった人々は左側と中央にある 2 つの機能を体験することを好むことがわかりました。

さらに、ソウルのブースを訪れた人には、まず中央のスクリーンでソウルのリアルタイム 3D モデリング機能を試すという暗黙のルールがあるようです。

簡単に言えば、参加者の写真を現場で撮影し、数秒以内に 90 を超える顔の形状パラメータと 6 つの属性パラメータを分析して仮想の顔の特徴を素早く再構築し、仮想の 3D アバターを生成します。

その後、ユーザーは 3D アバターと対話できるようになります。

しかし、言葉によるコミュニケーションだけでは十分ではありません。

この時点で、誰もが(無意識に)画面の左側に移動します。

画面には、ユーザーが作成した仮想3Dアバターも表示されます。リアルタイムの人間動作認識、デジタル再構成、マルチモーダル対話インタラクション機能に基づき、 3D仮想人間と実在の人間との没入型インタラクションを現場で実現します。

どれくらい没入感があるのでしょうか?リアルタイムモーショントラッキングにより、低遅延で画面の向こう側にいる人と話したり、体や手足を動かしたりしてやり取りできます。

注目すべきは、Soul 独自のマルチモーダル AI モデルのサポートにより、これら 2 つの画面に表示される AI エクスペリエンスでは、音声、テキスト、物理的なインタラクションの同時実行が可能になるということです。

AI を活用したソーシャル インタラクションでは、シナリオとモデルの理解と認識の両方が重要です。

同社はすでにソウルの海外版を発売しているが、今回のGitexへの参加がソウルにとって国際見本市への初出展となる。

「体験の観点から、海外向け製品はユーザーの定着率を高めることを目指しています」と、SoulのCTOであるタオ・ミン氏は説明する。「AIGC+ソーシャルインタラクションという当社のコンセプトを伝えるための主要プラットフォームとして、Soulを活用することに引き続き注力していきます。」

タオ・ミン氏は、国内市場であれ国際市場であれ、AI+ソーシャル トラックには 2 つの必須条件が必要であると述べました。

まず、私たちは前進し続けなければなりません。

第二に、検討されているシナリオとビジネス領域はまだ明確ではありません。

Soul が備えているのは、「人間とコンピュータの対話」の基本要素 (または原子能力) です。

Soul の哲学は、ユーザーとビジネスの間にはギャップがあるため、原子力の能力をユーザーに直接押し付けるのではなく、AI と人間が共存するコミュニティを構築することを目指しているというものです。

このコミュニティでは1対1のチャットが発生しますが、1対1のチャットだけではコミュニティを維持できません。「ビッグモデルシックスが製造するAIチャット製品の中には、1対1のチャットに対応できるものもありますが、継続的なチャットを維持するのは難しいです。これは、どんなAIも文脈の中に存在せず、人間と機械による1対1のチャットは実際には非常に高いハードルがあるからです。」

Soul は、さまざまなシナリオ (音声チャット ルームなど) を作成し、特定のルールと戦略を使用して人間と AI が交流できるようにすることで、実際の人間と AI を区別することを困難にしたいと考えています。

ここでのソーシャルインタラクションはチャットだけに限りません。AI NPCと実際のユーザーが一緒に同じことをして、簡単につながりを築くことができます。

タオ・ミン氏が述べたように、 SoulのAI+socialコンセプトの最も基本的な側面は、「人間とAIが同じ空間と時間に存在することを保証する」ことです。現実世界のシミュレーションと同様に、人間のシミュレーションはAIが人間とのつながりを確立するために不可欠です。

「ただチャットするだけでは不十分です。ユーザーにより良い体験を提供するためには、コンテキストを発見する必要があります。」

この点において、ソウルはどのような哲学に基づいて製品をデザインしているのでしょうか?

ここにいくつかの例を挙げます。

最初の例は、人と人、人と AI の間のインタラクションプロセスにおいて、より多くのシナリオを作成することです

例えば、ユーザーが AI とチャットをするときに、風邪をひいていることを AI に知らせるために写真を送信すれば、必要に迫られて話題を探す必要がなくなり、風邪の話題を中心に会話を続けることができます。

2つ目の例は、AIとの音声通話です。AIは周囲の音を聞き取り、カフェにいるのか音楽パーティーにいるのかを判断するので、自然な会話が始まります。

これは、Soul が大規模モデルに対してGPT-4o アプローチを主張する理由を説明しています。チームは、AI は統合された知覚と認知能力を持つべきだと考えているからです。

認知能力だけではユーザーに価値をもたらすことはできません。なぜなら、ユーザーは認識されることを望んでいるからです。

o1 の方向性も同様に重要です。o1 は大規模モデルの認知能力を高め、ユーザーに非常に優れたエクスペリエンスをもたらすことができるためです。

ソーシャル プラットフォームが AI を使って「Her」を作成したら、何が変わるでしょうか?

ソーシャルメディアプラットフォームの分野において、Soulは間違いなくトップクラスのプレイヤーです。しかし、多くの人が知らないのは、Soulが中国でソーシャルインタラクションにAIを統合した最も初期のプラットフォームの一つでもあるということです。

アプリが初めてリリースされたとき、Soul は 2 つの AI ベースのエンジンを含む AI 機能のための基本的なインフラストラクチャの構築を開始しました。

一つはLingxi Engineで、Soulユーザーのフルシーンプロファイルに基づくインテリジェントなレコメンデーションシステムです。AI技術を駆使し、効果的な機能を継続的に発掘し、アルゴリズムを通じてユーザーのコンテンツ消費とインタラクション体験を向上させ、ユーザー同士の関係構築の効率と質を向上させます。

もう1つは、AI、レンダリング、画像処理を統合したSDKであるNAWAエンジンです。ARビデオ技術、マルチモーダル知覚駆動型インタラクション技術、再構成型バーチャルアバター技術などを提供します。アバター表情駆動型レンダリング、ビューティーフィルター、カートゥーン化など、数十種類の画像処理と2D/3Dレンダリング機能を備えたエンジンを出力できます。これにより、パーソナライズされた3Dアバターは、より表現力豊かで、動きさえも表現できます。

2020年(ChatGPTが話題になる前)、SoulはAIGC関連のアルゴリズムの開発を開始し、インテリジェントな対話、画像生成、音声・音楽生成などの分野で能力を蓄積してきました。

Soulは長年にわたりマルチモーダル分野に取り組んできました。2023年には、プラットフォーム上の様々なソーシャルインタラクションシナリオに垂直的に適用される、自社開発の垂直言語モデル「Soul X」を発表しました。

例えば、インテリジェントチャットボット「AIゴウダン」やAIアシストチャット、バーチャルコンパニオンなど、さまざまなツールや機能があります。

ソウルは当時こう語った。

AIGCは、ソーシャルインタラクションの効率、品質、そして体験を向上させるだけではありません。同時に、インテリジェントエージェントやバーチャルヒューマンが表現するインタラクションオブジェクトも変化を遂げています。これは、ソーシャルインタラクションが世代交代を繰り返し、その範囲が再定義され、ソーシャルプロダクトの形態も変化していることを意味します。

ソウルは今年も「AIGC+ソーシャル」を展開していきます。

目標は明確です。

強固な技術基盤、真のユーザーニーズ、そして「モデルとアプリケーションの統合」アプローチへの明確なコミットメントにより、AIGC とソーシャル シナリオの緊密な統合を推進します。

Soul は、テキスト、音声、視覚的なインタラクションを統合し、超低遅延、リアルな音声、感情認識を特徴とする最新のエンドツーエンドのマルチモーダル AI モデルを発表しました。

エンドツーエンドの通信により、チャットの遅延が大幅に削減されます。

タオ・ミン氏は、Soulの現在の音声対話の遅延は200ミリ秒未満であると明らかにした。「以前のように、まずテキストと画像を生成し、それを音声に変換するという連続的なプロセスはもうありません。今では、音声と自然言語処理を統合したプロセスにすることで、遅延の問題を解消しています。」

一方、同時期に開発された「デジタルツイン」機能により、ユーザーは過去のやりとりやカスタム設定に基づいて自分専用のパーソナライズされた仮想バージョンを作成できるようになりました。

Gitex で話題を呼んだばかりの Soul が、最新の開発を発表しようとしています。

タオ・ミン氏は、プラットフォームが11月に全二重ビデオ通話機能を開始する予定であり、その時点でソウルのAI NPCは彼らを「見る」ことができるようになると述べた。

つまり、来月にはユーザーはSoul上でAIとリアルタイムのビデオチャットができるようになるのです。相手は画像、表情、記憶を持ち、数日前に軽く咳をしただけで「風邪は治った?」と聞いてくれるようになるのです。

まさに彼女らしい!

国内外の多くのチームがこれまで様々なバージョンの「Her」をリリースしてきましたが、今回の作品に対する期待は異なります。

期待されるのは、音声が最もリアルか、遅延が最も少ないか、リップシンクが最も優れているかといったことではありません。むしろ、 AIを組み込んだソーシャルプラットフォーム企業、そしてソーシャルネットワーキングに精通した企業が、この人間とコンピュータのインタラクションを実現する製品/機能に独自のデザインを持っているかどうかです。

でもまだその時は来ていないので、楽しみに待ちましょう!

Gitexについて

ソウルが参加した海外展示会、世界三大IT展示会の一つ、GITEX GLOBALが今週金曜日、アラブ首長国連邦のドバイで閉幕した。

今回は第44回となるGITEX GLOBALで、当然ながらこれまでで最大の規模となり、新たな記録を樹立しました。

6,500 社を超える出展者、1,800 社のスタートアップ企業、1,200 人の投資家、そして 180 か国以上から政府関係者が参加しました。

ドバイ王室も現地視察のために代表団を派遣した…

この光景により、すでに満員だった会場はさらに混雑した。

それでも、QuantumBit はショッピングへの熱意を示し、20 余りある展示ホールを一つずつ熱心に見学しました。

最後に、アリババ、ファーウェイ、テンセント、トゥヤスマート、パデューロボティクスなど、海外で展示している多くの中国企業のブースを訪問しただけでなく、

また、このイベントには、英国の AI ユニコーンである Builder.ai (そう、マイクロソフトが支援している企業だが、その創設者は絶えず訴訟に巻き込まれている) や中国の Zhipu Huazhang など、世界中から多くの AI 企業が参加していました。

もちろん、エレクトロニクスに興味がある方には、もっと楽しく閲覧できるでしょう。このサイトには、表情豊かなロボット「Amika」や、XPengの空飛ぶ車、そしてデザインがよくわからない航空機(中東の富豪ならきっと気に入るでしょうが)など、様々な製品が掲載されています。

それはまったく簡単なことではありません。