|
遅延が 1 秒未満という史上最速のビデオ会話 AI が登場しました。 エンドツーエンドで、聞く、見る、話す、視覚的に表現する機能を備えています。 この製品は、OpenAI や HeyGen など、すでに名を馳せている企業から出たものではなく、特定の名前もありません。 これはスタートアップ チームTavusが開発したため、Conversational Replicas by Tavus としても知られています。 その主な機能は、没入型の AI 生成ビデオ エクスペリエンスを作成することです。 本日の発売以来、この製品は既に Producthunt の今日の最もホットな新製品リストのトップを占めており、「いいね!」の数も増え続けています。 Tavus は、製品の特長を次のようにまとめています。
これにはネットユーザーの怒りが沸騰した。 さて、今度は誰かが私の Zoom ビデオ会議を主催することになります、ハハハ! 多くのネットユーザーは、これは文書を読んだりチャットしたりするよりも優れた人間とコンピューターの対話インターフェースであると考えています。 このビデオチャットインターフェースはゲームチェンジャーです! ウェブ上で2分間お試しいただけます。このメッセージを見たQuantumBitはすぐにTavusの公式ウェブサイトにアクセスしました。 公式サイトでは、この「史上最速対談動画」を2分間オンラインで体験できます。 既存の設定によれば、体験中の対話相手はTavusによって作成されたCarterです。 カーターはAIビデオリサーチ会社Tavusの従業員として描かれ、ユーモアを交えながら非常に親切に対応します。 下の男性です。 カーターは仮想キャラクターですが、彼とのビデオチャットは友達とのビデオチャットと同じような感じがします。 公式の推奨では、カメラとマイクを許可した後、カーターとチャットするときは静かな部屋に留まることが推奨されています。 会話の中で、カーター氏は、人々が彼と最もよく話し合う話題は、Tavus で使用されている AI 技術について質問すること以外に、日々の考えや気持ちを共有したり、ジョークを言ったりすることだと述べました。 彼はすぐに冗談を言いました。 Q: 自転車はなぜそこに自立して立っていられないのですか? 話を終えた後、カーター氏は二度笑いながら自分の背中を軽く叩いた。 QuantumBit も 2 分間試してみましたが、全体的な感想は次のとおりです。 まず、Tavus の応答速度は確かに非常に速く、これは「1 秒以内」という公式の主張と一致しています。 カーターが話している最中にあなたが突然話しかけても、カーターはすぐに話を止めてあなたの最新の発言を聞くことができます。 第二に、公式には30以上の言語をサポートしていると主張していますが、質問が中国語であれ英語であれ、彼は中国語を話すことができません。 「中国語を話せますか?」と尋ねると、カーターは「英語で話したいです!」と答えます。 3つ目に、TavusのAIは確かに「目で見る」ことができます。 QuantumBit の試用中、私は言葉を失い、ぎこちなく笑うことしかできませんでした。 カーター氏はすぐにこう発言した。 ああ!私に笑ってくれたのね! 4つ目に、デモ版ではカーターの唇の動きと話し言葉がほぼ完璧に同期していました。 これは、一部のネットユーザーがゲームを試した後にコメントした理由を説明しています。 非常に印象的で、高速な応答と優れたビデオおよびオーディオ生成機能を誇ります。 今なら登録するだけでTavusの会話型ビデオAIをご利用いただけます。 公式バージョンでは、会話可能な AI キャラクターはカーターのみとなります。男性と女性の両方のキャラクターが登場し、役割はセールスマンからライフ コンサルタントまで多岐にわたります。 チャットの背景もオフィスの設定に限定されず、ユーザーの選択に応じて変更することができます。 さらに、ユーザーは会話のコンテキストを手動で入力することもできます。 パーソナライズ度はかなり高いと言えるでしょう。 現在、無料版と有料版があり、それぞれに対応する世代権限が異なります。 自社開発モデルをベースに開発Tavus の会話型ビデオ AI の背後には、Tavus チームが社内で開発した Phoenix-2 モデルがあります。 これは、オーディオとテキスト駆動型の 3D モデルと 2D GAN を組み合わせたもので、1 ~ 2 分のリアルな短い動画を生成できます。 生成プロセスは、おおよそ次の 4 つのステップに分けられます。 TTS (テキスト読み上げ) - 頭と肩の 3D 再構築 - スクリプト駆動型の顔アニメーション - 高忠実度レンダリング。 △ 差分レンダリングを使用して顔の幾何学的詳細を微調整するユーザーと対話する AI アバターをよりリアルにするために、Tavus チームはPhoenix-2 ビデオ レンダリング パイプラインの構築時に GAN と 3D ガウス スプラッシュを組み合わせました。 その理由は、従来の GAN は通常、画像の解像度によって制限されるのに対し、ボリューム モデルでは時間的な一貫性が常に欠けているためです。 そこで、Tavus は 2 つを組み合わせることを考えました。 GAN のトレーニングには大規模なデータセットと高価なコンピューティング リソースが必要であり、2 次元の性質と時間一貫性の問題により、推論時間とビデオ品質は通常制限されます。 Tavus は 3D モデルを「中間物」として使用して 100 FPS を超えるレンダリング速度を実現し、動的オブジェクトの周囲の物理的な制約により、より高い制御性と汎用性を実現します。 △ 2Dと3Dのヘッドスピーキングモデルの違いを比較するさらに、Phoenix-2 モデルが前モデルに比べて改良された点は、元の Phoenix モデルの NeRF を置き換えたことです。 代わりに、3D ガウス スプラッシュを使用して、3D 空間で動的な顔の変形を駆動する方法を学習し、この情報を使用して、目に見えないオーディオに基づいてビューをレンダリングします。 チームメンバーは、NeRF と比較して、3D ガウス スプラッシュはデータ、メモリ、計算の複雑さ、ワークフロー、レンダリング効率の点でパフォーマンスが優れていると述べました。 3D ガウス スプラッシュを使用する Phoenix-2 モデルに基づくパイプラインは、元のモデルよりも 70% 高速にトレーニングでき、60 FPS 以上でレンダリングできます。 Tavus 氏は、会話にはラウンド終了の検出と中断機能が含まれており、ユーザーにとって会話がよりリアルに感じられると述べています。 さらに、顔情報は非常に機密性が高いため、チームは情報セキュリティを保護するために、セキュリティチェック、セキュリティプロトコル、自動コンテンツモデレーション、幻覚対策チェックを提供しています。 Phoenixシリーズのモデルは、別のTavus製品もサポートしていることに言及する価値があります。 ユーザーのデジタル ツイン アバターの会話型ビデオを生成します。 ビデオ コンテンツを生成するには、2 分の映像を用意し、1 ドル (開始価格) を支払うだけで API を呼び出すことができます。 公式ドキュメントによれば、エンドツーエンドのソリューションが利用可能であり、次の機能を備えているとのことです。
「1秒もかからないなら、あなたは人間ではない。」Tavus チームは、設立 4 年目の小規模な AI ビデオ スタートアップです。 メンバーのほとんどは、Amazon、Descriptor、Google、Apple などの企業出身です。 公開情報によれば、同社は今年3月の時点で、Sequoia Capital、Scale VC、Y CombinatorからシリーズAの資金調達を受けており、約1,800万ドルを調達している。 Tavus の共同創設者兼 CEO はHassaan Razaという名前です。 彼はGoogleとAppleで働いたことがある。 同社の共同創業者兼COOは、会話型ビデオAIの開発には長い時間がかかり、研究、エンジニアリング、構築に約数千時間がかかったとProducthuntにコメントした。 なぜ1秒以下の遅延を追求する必要があるのでしょうか? 公式の説明によれば、人間同士のビデオ会話を可能な限り忠実にシミュレートしようとしているとのことだ。 なぜなら、反応時間が 1 秒未満であれば、(チャット相手は) 人間ではないからです。 参考リンク: |