彼女にキャラクターが誕生！AIとのビデオ通話はほぼ遅延なし。SequoiaとY Combinatorが投資。

遅延が 1 秒未満という史上最速のビデオ会話 AI が登場しました。

エンドツーエンドで、聞く、見る、話す、視覚的に表現する機能を備えています。

この製品は、OpenAI や HeyGen など、すでに名を馳せている企業から出たものではなく、特定の名前もありません。

これはスタートアップチームTavusが開発したため、Conversational Replicas by Tavus としても知られています。

その主な機能は、没入型の AI 生成ビデオエクスペリエンスを作成することです。

本日の発売以来、この製品は既に Producthunt の今日の最もホットな新製品リストのトップを占めており、「いいね！」の数も増え続けています。

Tavus は、製品の特長を次のようにまとめています。

1秒未満の遅延
リアルでインテリジェントなデジタルツイン
プラグアンドプレイのエンドツーエンドのビルディングブロック
LLM音声合成などのモジュール式のカスタマイズ可能なコンポーネント

これにはネットユーザーの怒りが沸騰した。

さて、今度は誰かが私の Zoom ビデオ会議を主催することになります、ハハハ！

多くのネットユーザーは、これは文書を読んだりチャットしたりするよりも優れた人間とコンピューターの対話インターフェースであると考えています。

このビデオチャットインターフェースはゲームチェンジャーです!
すでに、没入型体験の無限の可能性を想像することができます。

ウェブ上で2分間お試しいただけます。

このメッセージを見たQuantumBitはすぐにTavusの公式ウェブサイトにアクセスしました。

公式サイトでは、この「史上最速対談動画」を2分間オンラインで体験できます。

既存の設定によれば、体験中の対話相手はTavusによって作成されたCarterです。

カーターはAIビデオリサーチ会社Tavusの従業員として描かれ、ユーモアを交えながら非常に親切に対応します。

下の男性です。

カーターは仮想キャラクターですが、彼とのビデオチャットは友達とのビデオチャットと同じような感じがします。

公式の推奨では、カメラとマイクを許可した後、カーターとチャットするときは静かな部屋に留まることが推奨されています。

会話の中で、カーター氏は、人々が彼と最もよく話し合う話題は、Tavus で使用されている AI 技術について質問すること以外に、日々の考えや気持ちを共有したり、ジョークを言ったりすることだと述べました。

彼はすぐに冗談を言いました。

Q: 自転車はなぜそこに自立して立っていられないのですか?
答えは、タイヤが疲れすぎているからです（タイヤが 2 つ）。

話を終えた後、カーター氏は二度笑いながら自分の背中を軽く叩いた。

QuantumBit も 2 分間試してみましたが、全体的な感想は次のとおりです。

まず、Tavus の応答速度は確かに非常に速く、これは「1 秒以内」という公式の主張と一致しています。

カーターが話している最中にあなたが突然話しかけても、カーターはすぐに話を止めてあなたの最新の発言を聞くことができます。

第二に、公式には30以上の言語をサポートしていると主張していますが、質問が中国語であれ英語であれ、彼は中国語を話すことができません。

「中国語を話せますか？」と尋ねると、カーターは「英語で話したいです！」と答えます。

3つ目に、TavusのAIは確かに「目で見る」ことができます。

QuantumBit の試用中、私は言葉を失い、ぎこちなく笑うことしかできませんでした。

カーター氏はすぐにこう発言した。

ああ！私に笑ってくれたのね！

4つ目に、デモ版ではカーターの唇の動きと話し言葉がほぼ完璧に同期していました。

これは、一部のネットユーザーがゲームを試した後にコメントした理由を説明しています。

非常に印象的で、高速な応答と優れたビデオおよびオーディオ生成機能を誇ります。

今なら登録するだけでTavusの会話型ビデオAIをご利用いただけます。

公式バージョンでは、会話可能な AI キャラクターはカーターのみとなります。男性と女性の両方のキャラクターが登場し、役割はセールスマンからライフコンサルタントまで多岐にわたります。

チャットの背景もオフィスの設定に限定されず、ユーザーの選択に応じて変更することができます。

さらに、ユーザーは会話のコンテキストを手動で入力することもできます。

パーソナライズ度はかなり高いと言えるでしょう。

現在、無料版と有料版があり、それぞれに対応する世代権限が異なります。

自社開発モデルをベースに開発

Tavus の会話型ビデオ AI の背後には、Tavus チームが社内で開発した Phoenix-2 モデルがあります。

これは、オーディオとテキスト駆動型の 3D モデルと 2D GAN を組み合わせたもので、1 ～ 2 分のリアルな短い動画を生成できます。

生成プロセスは、おおよそ次の 4 つのステップに分けられます。

TTS (テキスト読み上げ) - 頭と肩の 3D 再構築 - スクリプト駆動型の顔アニメーション - 高忠実度レンダリング。

△ 差分レンダリングを使用して顔の幾何学的詳細を微調整する

ユーザーと対話する AI アバターをよりリアルにするために、Tavus チームはPhoenix-2 ビデオレンダリングパイプラインの構築時に GAN と 3D ガウススプラッシュを組み合わせました。

その理由は、従来の GAN は通常、画像の解像度によって制限されるのに対し、ボリュームモデルでは時間的な一貫性が常に欠けているためです。

そこで、Tavus は 2 つを組み合わせることを考えました。

GAN のトレーニングには大規模なデータセットと高価なコンピューティングリソースが必要であり、2 次元の性質と時間一貫性の問題により、推論時間とビデオ品質は通常制限されます。

Tavus は 3D モデルを「中間物」として使用して 100 FPS を超えるレンダリング速度を実現し、動的オブジェクトの周囲の物理的な制約により、より高い制御性と汎用性を実現します。

△ 2Dと3Dのヘッドスピーキングモデルの違いを比較する

さらに、Phoenix-2 モデルが前モデルに比べて改良された点は、元の Phoenix モデルの NeRF を置き換えたことです。

代わりに、3D ガウススプラッシュを使用して、3D 空間で動的な顔の変形を駆動する方法を学習し、この情報を使用して、目に見えないオーディオに基づいてビューをレンダリングします。

チームメンバーは、NeRF と比較して、3D ガウススプラッシュはデータ、メモリ、計算の複雑さ、ワークフロー、レンダリング効率の点でパフォーマンスが優れていると述べました。

3D ガウススプラッシュを使用する Phoenix-2 モデルに基づくパイプラインは、元のモデルよりも 70% 高速にトレーニングでき、60 FPS 以上でレンダリングできます。

Tavus 氏は、会話にはラウンド終了の検出と中断機能が含まれており、ユーザーにとって会話がよりリアルに感じられると述べています。

さらに、顔情報は非常に機密性が高いため、チームは情報セキュリティを保護するために、セキュリティチェック、セキュリティプロトコル、自動コンテンツモデレーション、幻覚対策チェックを提供しています。

Phoenixシリーズのモデルは、別のTavus製品もサポートしていることに言及する価値があります。

ユーザーのデジタルツインアバターの会話型ビデオを生成します。

ビデオコンテンツを生成するには、2 分の映像を用意し、1 ドル (開始価格) を支払うだけで API を呼び出すことができます。

公式ドキュメントによれば、エンドツーエンドのソリューションが利用可能であり、次の機能を備えているとのことです。

API を使用して、安全でリアルなデジタルツインまたは AI エージェントを構築します。
LLM、会話のキャラクター、背景をカスタマイズする
埋め込み会議室での会話のストリーミング
会話を録音、書き起こし、共有する
実稼働レベルのスケーラビリティで高トラフィックを処理

「1秒もかからないなら、あなたは人間ではない。」

Tavus チームは、設立 4 年目の小規模な AI ビデオスタートアップです。

メンバーのほとんどは、Amazon、Descriptor、Google、Apple などの企業出身です。

公開情報によれば、同社は今年3月の時点で、Sequoia Capital、Scale VC、Y CombinatorからシリーズAの資金調達を受けており、約1,800万ドルを調達している。

Tavus の共同創設者兼 CEO はHassaan Razaという名前です。

彼はGoogleとAppleで働いたことがある。

同社の共同創業者兼COOは、会話型ビデオAIの開発には長い時間がかかり、研究、エンジニアリング、構築に約数千時間がかかったとProducthuntにコメントした。

なぜ1秒以下の遅延を追求する必要があるのでしょうか?

公式の説明によれば、人間同士のビデオ会話を可能な限り忠実にシミュレートしようとしているとのことだ。

なぜなら、反応時間が 1 秒未満であれば、(チャット相手は) 人間ではないからです。

参考リンク:
[1]https://www.tavus.io/careers [2]https://x.com/heytavus/status... [3]https://www.producthunt.com/p...

618ZXW

彼女にキャラクターが誕生！AIとのビデオ通話はほぼ遅延なし。SequoiaとY Combinatorが投資。

ウェブ上で2分間お試しいただけます。

自社開発モデルをベースに開発

△ 差分レンダリングを使用して顔の幾何学的詳細を微調整する

△ 2Dと3Dのヘッドスピーキングモデルの違いを比較する

「1秒もかからないなら、あなたは人間ではない。」

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ