618ZXW

Runway と Luma が一気に消え去った!このビデオモデルの「キラー」機能:ついに一貫性の呪いを破った。

3枚の写真を組み合わせてシームレスなビデオを作成しました。

ビデオモデリング分野が再び活気づいています!

RunwayやLumaAIを含む多くの動画モデルを凌駕しました。海外ユーザーからは、多くの動画モデルが実現できないことを達成し、画像モデルの王者Midjorneyをも意味理解の点で凌駕しているとの声が上がっています。

その背後には、国産ビデオモデル「Vidu」があります。これは、SORAに匹敵する世界初のビデオモデルです。昨日、新たに追加された「キラー」機能、マルチエージェント一貫性がそれを実現しました。(リンク: www.vidu.studio)

Viduは先週土曜日にXでこの機能をひっそりと予告していましたが、昨日正式にリリースされました。簡単に言うと、この機能は1~3件の参照をアップロードすることで複数の対象を制御できるというものです。

公式デモを例に挙げると、「黒人男性、メカ、街の通りの風景」という3つの画像を入力すると、Viduは被写体、服装、風景を抽出し、3つをシームレスに統合して、「メカを着た男性が街の通りを歩いている」という動画を出力します。

信じられない!以前の動画モデルは、単一のプロモーションを理解するのに苦労し、何度もカードを引く必要がありました。Viduを使えば、動画生成はエッセイを書くのと同じくらい簡単です。場所、人物、行動、外見を明確に定義し、正確な制御と編集が可能です。

海外ユーザーからは「ゲームのルールが変わった」との声や、今後は「キャラクター画像と環境画像をアップロードするだけで」一連の動画ストーリーが作成できるとの声も上がっている。

たとえば、ユーザーが女性戦士と戦場のシーンの画像をアップロードすると、壮大とも言える戦争シーンを生成できます。

さらに難しいタスクとしては、10人のグループポートレートを一度にアップロードし(画像をグループ化して)、Viduに動画を生成させるというものがあります。しかし、Viduは明らかにこれにも難なく対応しました。

これを見ると、将来的に水滸伝の英雄108人全員の集合写真を作成することも不可能ではないようです!

「一貫性の呪い」は多くの専門家を困惑させてきた。

前述の通り、これはRunwayやLuma AIといった世界トップクラスの企業でさえ備えていない機能です。機能的には、これらの企業は単一画像入力のみをサポートしています。これは本質的に「一貫性制御」の問題です。

これはビデオモデルにおける長年の課題です。生成された結果を出力する際に​​、モデルは被写体(人物であれ物体であれ)の外観、特徴、スタイルの一貫性を保つことに苦労することがよくあります。

ハンサムな若者が一瞬にして恐ろしいヴォルデモートに変身するのはよくあることだ。

特に、難易度が増し、複数の被験者が関与する場合、モデルが複数の被験者を同時に制御することはさらに困難になり、被験者間の自然で一貫したやり取りを維持することはさらに困難になります。

頭が痛いです。

しかし、この「世紀の問題」はViduによって見事に解決されました!ご注意ください!新製品発売期間中、お一人様3回まで無料でお楽しみいただけますので、ぜひお楽しみください。

もちろん、Vidu は長年にわたり「一貫性」の問題への取り組みにおいて業界をリードしてきました。

Viduは7月末に世界展開を開始した際、顔の一貫性問題を解決するために「役割の一貫性」機能を導入しました。一方、Keling 1.5では最近、顔の一貫性機能が導入されました。

Viduは9月初旬、「被写体の一貫性」機能を全世界でリリースしました。これにより、ユーザーはあらゆる被写体の画像をアップロードできるようになりました。これにより、対象範囲が「顔の一貫性」から「被写体の一貫性」へと拡大され、顔だけでなく人物の全身の一貫性、さらには動物や製品にも一貫性が保たれるようになりました。

わずか 2 か月で、Vidu は再度アップグレードされ、単一被写体に対するマルチアングルの一貫性、複数被写体のインタラクティブ制御、被写体とシーンの融合制御が可能になりました。

正しい開け方(ガイドブック)

早速、ガイドをご紹介します。Vidu は次のように開きます。

単一の主題に対する一貫したビデオ生成

まず、単一被験者のシナリオです。

特定の被写体をさまざまな角度や視点から撮影した画像をアップロードすることで、単一の被写体を 100% 正確に制御することが可能になります。

具体的には、まず複雑なエンティティを正確に制御することが第一のポイントです

楽しみのために、古典的なヨーロッパの美女の写真をいくつかアップロードしてみましょう(doge):

難しいのは、少女の美しさを再現することだけでなく、頭飾り、髪型、衣装の複雑さも再現することです。モデルは、画像を参照せずに「穴埋め」をしてしまうという罠に陥りがちです。

しかし、Vidu が生成したミディアム ショットのビデオでは、美しい女性が振り返り (後ろ姿や横顔も含む)、角度に関係なく、彼女の外見は一貫していて、よく維持されています。

この機能は実際の人物だけでなく、3D アニメーション キャラクターにも適用され、3 ビュー図をアップロードすると簡単に操作できます。

2つ目のポイントは、キャラクターの顔の特徴とダイナミックな表現の自然な一貫性です。

Vidu は、人物のクローズアップ画像を複数アップロードすることで、顔の特徴や表情が硬直したり歪みが生じたりすることなく、自然で滑らかであることを保証できます。

本日のイベントにこの小さなモデルをぜひお迎えください。

笑顔から目を伏せる表情への変化は自然で、何の違和感もなかった。

複数被験者生成

この新機能のさらに独創的な点は、複数のエンティティへのアップロードが可能になり、複数のエンティティ間での一貫性制御が可能になることです (業界では独自の機能です)。

複数の被写体の組み合わせとしては、キャラクター同士の組み合わせ、キャラクターとシーンの組み合わせ、キャラクターと小道具の組み合わせ、さらにはキャラクターと小道具とシーンの組み合わせなどがあり、これらの要素はビデオ生成中に自然に相互作用することができます

まず、マルチエンティティインタラクションです。ユーザーは複数のカスタムキャラクターをアップロードし、指定された空間内でインタラクトさせることができます。AIウルトラマンと光の巨人ウルトラマンティガを同じフレームに登場させてみてはいかがでしょうか?

そしてウルトラマンの世界の有名なシーンが誕生しました。

これには、キャラクター A の正面図とキャラクター B の背面図をシームレスに融合するフェイス フュージョンなど、異なる被写体の特徴を融合することも含まれます。

イーロン・マスクが背番号10のジャージを着ているところを想像してみてください。まるでAIが顔を入れ替える驚異の光景です!

キャラクターに小道具をプラスする、例えばキャラクターに衣装を着せてマスク氏にタキシードを着せる、といったことも可能です。素晴らしいですね…

究極の挑戦は、キャラクター、小道具、そしてシーンを組み合わせることです。ユーザーは被写体、オブジェクト、環境の画像をアップロードすることで、カスタマイズされたキャラクターが特定の衣装を着て、カスタマイズされた空間内を自由に動き回るシーンを作成できます

たとえば、イーロン・マスクのかっこいい写真、中国の伝統的な花柄のジャケット、電動スクーターなどを送信すると、「prompt」と入力されます。

花柄のジャケットを着た男性が遊園地で電動スクーターに乗っています。

彼はすぐに50代の少年のように幸せになりました。

このビデオから判断すると、小道具担当と衣装デザイナーは両方とも任務を遂行できない可能性があります...

コメディではなく真面目な作品にすると、特殊効果は本当に素晴らしいです。

上記の機能は、業界標準の LoRA (Low-Rank Adaptation) 微調整スキームでは実現されないことに注意する必要があります。

簡単に言えば、過去のビデオモデルで衣装の変更や顔の融合などの前述の機能を実現したい場合、すべての機能をそれぞれの特定のシナリオに合わせて微調整する必要がありました。

LoRAは優れたパフォーマンスを発揮しますが、通常20~100本の動画が必要となるため、データ構築が煩雑になり、学習に数時間、場合によってはそれ以上の時間がかかります。これは、1本の動画を生成する場合の数百倍、数千倍にも相当します。さらに、LoRAの微調整モデルは過学習になりやすく、表情や体の動きの動的な変化を効果的に制御することが困難です。

しかし、Vidu は、専用のデータ収集、データラベル付け、微調整トレーニングを必要とせずに、基本モデルを改善して、より一般化機能をもたらすことで、独自の一般的なアーキテクチャを継続的に反復してアップグレードすることを選択しました

わずか3枚の画像で高度に制御可能で安定した出力を実現できるため、LoRAの「リファインメント」は不要になります。まさにLoRAターミネーターですね!

ビデオモデルは「コンテキストメモリ」を備えています。

ViduのR&DチームであるShengshu Technologyも、同社の技術アーキテクチャ、いわゆる統合アーキテクチャの紹介を発表しました。

  • 質問の形式を標準化します。すべての質問を (視覚的な入力、視覚的な出力) に統一します。
  • 統一されたアーキテクチャ: すべてのネットワークは単一のネットワークを使用して、可変長の入力と出力を均一にモデル化します。
  • 圧縮はインテリジェンスです: ビデオ データの圧縮からインテリジェンスを抽出します。

キャプション: LLMとViduの技術アーキテクチャソリューションの比較

詳しく調べてみると、これは LLM とまったく同じ「設計哲学」です。つまり、すべての問題を単純な入力と出力に統合し、圧縮からインテリジェンスを抽出し、可変長の入力と出力を単一のネットワーク内で均一にモデル化します。

この前提を受け入れて詳しく調べてみると、ChatGPT のインテリジェントな出現という同様の出来事を思い出すでしょう。

GPT-2やGPT-3と比べて、第一世代のChatGPTの基盤であるGPT-3.5がAIの新時代を切り開くことができたのは、まさにOpenAIが基本モデルに力を入れ、その結果、総合的なモデル能力が向上したからである。

事前トレーニングと微調整から始めて継続的にスケールアップし、ユニバーサルなベースモデルに基づく一般化機能を実現することが目標です。

Vidu の導入により、ビデオ モデルのトレーニング パラダイムが「事前トレーニング + 微調整」パスから一般化された統合アーキテクチャにアップグレードされ、タスク レベルでの一般化が達成されたことが示されました。

もう一つのポイントは、文脈を理解する能力です。GPT-3.5は、複雑な指示や質問への対応、より長い文脈情報の理解、そして前後のテキストの関連付けや文間の関係性を認識することで、一貫性があり文脈に適した回答やコンテンツを生成できます。

興味深いことに、Vidu には「文脈記憶」の能力も見られます。

このアップグレードにより、Vidu は複数の入力画像とその関係の正確な意味を理解し、この情報に基づいて一貫性があり、整合性があり、論理的な出力を生成し、単一の画像入力から複数の参照画像に移行できるようになります。

これは、少数の例や手がかりに基づいて新しいタスクに迅速に適応できる大規模言語モデルの「コンテキスト内学習」機能と非常によく似ています。

したがって、Vidu は単なるテキストからビデオへのレンダリング ツールではなく、理解して想像する能力だけでなく、生成プロセス中にコンテキスト情報を記憶して管理する能力も備えています。

かつては大規模言語モデルに特有であった独自の利点が、現在では視覚モデルにも反映されています

視覚モデルも言語モデルと同様に「大きな飛躍」を遂げており、AGI パズルの重要なピースが急速に進化しています。

リンク: www.vidu.studio