QbitAI、Aofei TempleからのQi Yueレポート | WeChat公式アカウントQbitAI家族の皆さん、実は数日前にインターネットをサーフィンしていたときに、このビデオに出会ったんです。 明らかにAIによって生成された映像だったが、もともと『ゴッドファーザー』のダークな作風が大好きな私は、それでもこの90秒という短い映像にすっかり魅了されてしまった… さっそく見てみましょう: https://mp.weixin.qq.com/s/L-...\_CN 薄暗い照明、登場人物の真剣な表情、緊張感のあるストーリー展開、すべてが完璧です。 この短編映画には 4 人の主人公が登場し、多くの複雑なシーンと照明効果が含まれていますが、映像は最初から最後まで滑らかに保たれています。 その背後にある AI 作成プロセスを詳しく調べてみたところ、結果は本当に驚くべきものでした。 当初、この映画のワークフローは、日常的な AI 生成と似ていると考えていました。つまり、プロンプトを際限なく変更し、カードを描いて使用可能な最初のフレーム画像を抽出し、その画像からビデオを生成するというものです。 上記のプロセスを繰り返して、すべてのビデオセグメントをつなぎ合わせ、つなぎ合わせます。これが、セグメント間でキャラクター間の一貫性を保つ唯一の方法です。 例えば、主人公である老人は14秒と1分10秒に登場します。このキャラクターの顔をまっすぐに保ちたい場合、カードを延々と引いて動画をループ再生するか、 LoRAモデルにキャラクターを正しくフレーミングするようにトレーニングする必要があります。 しかし、この短編映画の制作過程では、これら 4 枚の人物写真といくつかのテキストプロンプトのみを使用して、監督することができました。 言い換えれば、4 人の既成の俳優が与えられ、彼らに指示を出すだけというようなものですか? これは、神秘的な方法に頼った AI 短編映画制作と比べると画期的なものです。 早速ですが、これはMiniMaxのConch AIが最近リリースした新機能「 Subject Reference」です。必要な人物の画像をアップロードするだけで、自動的に人物を認識し、あなたの指示に従って行動させることができます。 この機能により、短編ドラマの制作コストが大幅に削減され、制作プロセス全体が AI ビデオ モデルによって革命される可能性があります。 どうやってそれをやったんですか?「メインリファレンス」機能の原理を詳しく見てみましょう。 その最大の革新性は、「テキストベースのビデオ」と「画像ベースのビデオ」の利点を組み合わせたことにあります。 Wensheng Videoのメリットは、その汎用性、一般化可能性、そして組み合わせやすさです。しかし、テキストのみで制御すると、細部にずれが生じやすくなります。 画像からビデオへの変換 (IPV) では、最初のフレームに非常に正確に追従するビデオを生成できますが、柔軟性に欠け、最初のフレームの正確な情報とテキストの説明の間に矛盾が生じる可能性があるという問題があります。 これらの問題に対応するため、MiniMaxは自社開発の三モードベースモデルの詳細な分析を実施しました。彼らは、これら3つのモードのインテリジェンスは完全に独立しているのではなく、実際には互いに促進し合い、共に進歩することができると考えています。 言語は本質的に知能のための普遍的なツールであり、大規模な言語モデルは、モーダルレベル全体にわたって視覚的および言語的概念を理解する強力な能力も備えています。 このアイデアに基づき、Conch AI は、人間が視覚情報やテキスト情報を処理する方法に非常に近い、単一の画像に基づく被写体参照機能を開発しました。 例えば、画像に直面すると、モデルはまず画像内の「被写体」の視覚情報を抽出し、その後、ユーザーはテキストで自由に操作し、被写体の視覚的な詳細を非常に正確に復元することもできます。 これにより、被写体は本来の姿を正確に保ちながら、ユーザーのアイデアに応じて自由に様々な動作を行ったり、様々な状態を呈したりすることが可能となります。 テストでは、人物の画像を 1 枚だけ使用しても、正確な再構築が可能であることが示されました。 たとえば、古典的なミームのキャラクターを 1 つアップロードするだけで、複数のシーンのビデオを生成できます。 金正恩氏をバーで踊らせることもできるし、パスタを食べさせることもできる。 生成される動画の品質は、提供された画像の鮮明さに直接関係します。テストでは、ミームが鮮明でなくても、Conch AIはキャラクターの外観を維持し、自然な動きを実現できることが示されました。 これを、 LoRA ポートレート モデルのトレーニングに使用される別の技術的アプローチと比較してみましょう。 MiniMax も LoRA スキームを研究しましたが、メイン参照に使用される画像参照スキームは、微調整された LoRA と比較して、より高い結果の上限を生成できることが分かりました。 さらに、メイン参照スキームでは、LoRA スキームと比較して、ユーザー入力と計算コストが大幅に削減されます。 同じビデオ効果を得るために、Conch では 1 つの画像入力と通常の生成のコストが必要ですが、LoRA ソリューションを使用する場合は数十の特定のビデオが必要になり、微調整を行うために100 倍以上の計算負荷と、数十分の待機時間が必要になります。 現在、Conch AI の初期の被写体参照機能は主に単一の個人を対象としていますが、将来的には複数の人物、オブジェクト、シーンなど、より多様な参照が含まれるように拡張される予定です。 エイリアン風のデザインも生成できます。 新しいメインリファレンス機能を試してみたい場合、操作は非常に簡単です。 リファレンスキャラクターを作成するには、Conch AI クリエイティブ ビデオ プラットフォーム上の「メインリファレンス」作成エリアを選択し、画像をアップロードするだけです。 次に、下のテキスト ボックスに「Prompt」と入力して、クリエイティブで高品質のビデオを生成します。 さらに、使用中に、次の点でも優れた結果が得られることにも気付きました。 一貫した顔のディテールクローズアップポートレートを使用してビデオを生成すると、複数のビデオで人物の顔の詳細が適切に保存されていることがわかります。 顔の輪郭や特徴だけでなく、眉毛やアイシャドウ、髪型にも強い一貫性があります。 特に、キャラクターの顔にある3つのほくろは同じ位置に留まり、3つの動画結果すべてではっきりと確認できました。現在、このような細部にわたる一貫性を実現できるのはConch AIのモデルだけです。 複雑な姿勢と表情動きと環境は自由に組み合わせることができ、表情を使って感情を表現することもできます。キャラクターを操作して、下を向いたり、首を横に振ったりといった複雑なポーズをとらせることもできます。 まずは写真の女性に下を向く動作を試してもらいましょう。 プロンプト:やや空虚な部屋に、長髪の女性が静かに立っていた。窓から差し込む光が彼女を照らし、孤独な人影の輪郭を浮かび上がらせていた。彼女の姿勢は少し硬直しており、肩はまるで目に見えない重荷を背負っているかのように落ち込んでいた。彼女はゆっくりと頭を下げ、その動きはまるで時の移り変わりに引きずられているかのように、ゆっくりと重々しく動いていた。首の筋肉は緊張し、かすかに血管が浮き出ており、まるで何かの感情を抑え込もうとしているようだった。顎は徐々に胸に近づき、額から数本の髪の毛が滑り落ち、顔の大部分を覆い隠して表情を判別するのが困難だった。 横顔のショットという比較的ニッチなテーマでも、Conch AI はショットと髪の毛の動きの間の遷移を驚くほどスムーズに実現しました。 テーマ:自然の風景を背景に、女性の横顔が描かれています。シャープでありながら柔らかな印象で、まるで美しい古典絵画のように広がります。額は広く滑らかで、長い髪が風になびいています。高くまっすぐな鼻は、険しい山の峰のように、額から優美なラインを描いてまっすぐ伸びています。彼女は頭を回し、カメラの方を向き、優雅に微笑んでいます。 AI で生成された画像には、アプリケーションのボトルネックを克服するための技術的なソリューションが依然として必要です。SORAの登場は、ビデオ生成分野に新たな光を当てました。しかし、技術とアプリケーション開発の現状を見ると、主なボトルネックとなっているのは、この技術を制作環境にうまく統合し、業界横断的に応用できるかどうかです。ビデオが真に物語性を表現するためには、登場人物間の一貫性を維持するハードルを下げる必要があります。 「主題参照」機能は、動画セグメント間での主題の一貫性というクリエイティブな悩みを打破し、ユーザーがより充実した内容を表現する動画を制作する際に、コンテンツの表現に集中できるようにしたと言えます。 AI短編ドラマやAI広告など、人物を主役とする業界にとって、この機能はクリエイティブの効率を大幅に向上させ、クリエイティブコストを削減し、想像力の余地を大きく広げ、「誰もがカメラを持ち、撮影方法を知っている優れた監督になれる」という新しい時代へと業界を牽引することができます。 MiniMaxは設立からわずか3年(2021年12月)の国産スタートアップ企業ですが、AI分野ですでに目覚ましい成功を収めています。 Conch AIは海外180以上の国と地域で人気と認知度を獲得し、AI愛好家の間で流行語となり、中国の先進的なAI技術の代名詞とみなされるようになりました。 ビデオモデル Conch AI は発売以来、非常に優れたパフォーマンスを発揮し、VBench や Video Arena などの複数の権威ある国際ベンチマークリストにおける第三者による独立したテストで 1 位を獲得し、画質、連続性、滑らかさなど複数の側面でトップに立っています。 12月のAI製品ランキング 国内の動画モデル分野では、現在人気の製品のほとんどは快手(Kuaishou)の「克玲(Keling)」やバイトダンス(ByteDance)の「Dream AI」など、大手インターネット企業の「多大な努力」の成果であり、今後の展開が期待される。 MiniMax は、強力な研究チーム、将来を見据えた技術ロードマップ、マルチモーダル戦略を駆使し、大企業と競争できる唯一のスタートアップ企業となりました。 今後、ビデオモデル業界の競争は、個性的な作品の策定、制作プロセスの専門性、適用される業界、各社の技術蓄積と革新など、より多様化していくでしょう。 また、インテリジェントエージェント、仮想現実、拡張現実技術との組み合わせなど、他の技術との共同開発にも重点を置き、より没入感のある体験をユーザーに提供していきます。 私たちは、技術革新に重点を置き、新しい道を模索し、よりインテリジェントで高品質なモデル体験をもたらす MiniMax のような企業がさらに増えることを期待しています。 新しい「メインリファレンス」機能を体験するには、公式ウェブサイトのリンクをクリックしてください。 国内ユーザー作成ポータル:hailuoai.com/video/create 海外ユーザーコンテンツ作成ポータル:hailuoai.video/create |
なんと、コンチ・セメント社が『ゴッドファーザー』の AI 生成バージョンを作成したのだ。
関連するおすすめ記事
-
わずか 20 秒で、AI が 1 つの文章から 2 つの UI デザイン案を生成します。
-
医薬品開発会社 Cellaire は、NVIDIA と提携し、最大 100% の成功率で強化学習を使用して標的分子を最適化しています。
-
杭州が杭州を超える:アリババのQwen2.5-MaxがDeepSeek-V3を追い抜く!ネットユーザー:中国のAIは急速に差を縮めている。
-
ジェフ・ディーン氏がグーグルの新たな研究を称賛:クジラの生物音響モデルは8種のクジラを識別できる。
-
任少青氏へのインタビュー:世界モデルは自動運転とロボット工学の新たなパラダイム
-
国産AIロボットがこんなに進化してるなんて…ピアノ弾いたり、お茶を入れたり、詠春拳を練習したり、さらには猫を撫でたりもできるなんて!?