618ZXW

Doubao(中国のオンラインショッピング プラットフォーム)を使用して、「Dream of the Red Chamber」ミュージック ビデオの AI バージョンを生成しました。

最近最も人気のあるAI ビデオ生成モデルといえば、間違いなく ByteDance のDoubaoです。

つまり、ByteDanceはPixelDanceモデルとSeaweedモデルを同時に発表したことになる。

みんながうまくいったと言うので、自分で試してみないといけないと思い、難しいところから始めようと思います。

最近、Douyinでリン・ダオユの泣き真似をする人が増えています。フルバイトAIを使って「紅楼夢」のミュージックビデオを作ってみませんか?

そして、結果は全く予想外でした!早速、結果を発表します。

生成された複数のキャラクター、ビジュアルの質、さらにはストーリー展開に至るまで、豆宝の動画には強い「紅楼夢」の雰囲気が漂っていると言える。

そして前述の通り、このミュージックビデオの背後にある AI はすべてByteDance のものだ。

それでは、詳細を段階的に説明していきましょう。

最初のステップは、 Doubao を使用して「紅楼夢」の古典的な一節の原文を見つけ、それを画像生成のプロンプトとして使用することです。

例えば、有名な王希峰の登場シーンについて、豆宝は次のように答えています。

2 番目のステップは、「紅楼夢」の原文からの抜粋を直接使用して、Byte の「」に「フィード」し、最初に画像を生成することです。

たとえば、使用するプロンプトは次のとおりです。

『紅楼夢』では、一群の女房たちと侍女たちが、ある女性を奥の部屋へと案内する場面がある。この女性の衣装は他の若い女性たちとは一線を画し、絢爛豪華で、まるで女神か仙女のようだった。金糸に真珠をちりばめ、五つの鳳凰の真珠飾りをつけた簪を差していた。龍の模様があしらわれた赤金の首飾り、二弁の薔薇の飾りが付いた豆緑色の宮帯、金色の蝶と花の刺繍が施された細袖の深紅の繻子の上着、その上に五色の彫刻が施された絹と紺碧の銀狐の毛皮のコート、そして翡翠色の縮緬のスカートを羽織っていた。アーモンド形の瞳に弓なりの眉、すらりとした体型、そして人を惹きつける魅力を備えていた。彼女の顔には春のような優しい魅力が漂い、言葉の前には笑顔が先行していた。

生成されたすべての画像を以下に示します。

3 番目のステップでは、生成された画像を PixelDance モデルに入力し、ビデオ クリップを生成するためのプロンプト メッセージを追加します。

真ん中の女性は心から笑い、気楽な様子で前に進み出た。周りの人々も微笑み、ゆっくりと頭を下げ、彼女の前に道を空けた。

(もちろん、さらにアクションを書き続けることもできます。)

同じ方法を使用して、他のビデオのセグメントを 1 つずつ生成します。

たとえば、次のスニペットでは、プロンプトは次のようになります。

右の少女は静かに泣き、手を上げて口を覆っている。カメラは少女の顔のクローズアップに切り替わり、彼女の目に涙が浮かんでいる。カメラは再び左の人物のクローズアップに切り替わり、少女をじっと見つめる、優しさに満ちた瞳を映す。

4 番目のステップでは、Doubao 音楽モデルに基づいてSponge Musicを使用して 1 分間のビデオのバックグラウンド ミュージックを生成します。プロンプトは非常にシンプルです。

紅楼夢:悲しくも壮大。

こうして、 「紅楼夢破れ」という歌が誕生した。

5 番目のステップでは、 6 つのビデオとバックグラウンド ミュージックすべてを ByteDance の CapCut にインポートし、ビデオを編集すれば完了です。

誰でもミュージック ビデオを作成できるようになったことは明らかで、手順と方法は非常に簡単で、ByteDance の AI との連携のみが必要です。

Doubao(Doubao 言語モデル)、Jimeng(Doubao テキスト画像モデル)、PixelDance(Doubao ビデオ生成モデル)、Sponge Music(Doubao 音楽モデル)、および CapCut。

プロセスのすべてのステップの中で、ビデオ生成は間違いなく最も重要です。

しかし、公平を期すために言えば、「Dream of the Red Chamber」の AI バージョンのビデオ クリップでは、PixelDance モデルの真の機能を十分に発揮していませんでした。

ビデオ世代は映画やテレビのレベルにまで達しました。

Doubao がビデオ モデルをリリースしたとき、その機能を次の 4 つのポイントにまとめました。

  • 正確な意味理解、マルチアクション、マルチエージェントインタラクション
  • 力強いダイナミクスとクールなカメラワーク
  • 一貫したマルチカメラ生成
  • マルチスタイルとマルチスケールの互換性

おそらく、テキストだけを読んでもあまり直感的な理解は得られないでしょうから、これら 4 つの特徴をそれぞれ詳しく見ていきましょう。

正確な意味理解、マルチアクション、マルチエージェントインタラクション

現在市販されているビデオモデルを見ると、ほとんどの製品は単純なコマンドや単一のアクションしか実行できないのに対し、PixelDance モデルは AI のプロンプト理解レベルを高めたと言えます。

さらに、PixelDance モデルはストーリーを拡張したり (時系列のマルチショット アクション コマンド)、言語を通じて参照画像にないキャラクターを生成することもできます。

たとえば、次のプロンプト:

子どもは笑い始め、そして泣き始めました。母親が彼を慰めようと近づいてくると、カメラはゆっくりとズームアウトしました。

最初の画像には子供の顔しか映っていませんでしたが、生成されたビデオはプロンプトのすべての要件を完全に満たしていました。

例えば:

中国人女性の顔のクローズアップ。彼女は怒りながらサングラスをかけており、フレームの右側から中国人男性が歩み寄り、彼女を抱きしめている。

これは、プロンプトがいかに複雑であっても、PixelDance モデルがそれを処理できることを示しています。

力強いダイナミクスとクールなカメラワークが共存

複雑なダイナミクスとカメラの動きは、常にビデオ生成における課題の 1 つです。

これは、現実の力学では物理法則の正確なシミュレーションがしばしば必要となるためです。複雑な力学シナリオでは、複数のオブジェクトの相互作用により、物理シミュレーションが非常に複雑になる可能性があります。

キャラクターの動きには、人体の関節の動きや筋肉の変形をシミュレートする必要もあります。

複雑なダイナミクスやカメラの動きは、光と影の変化をもたらすことが多く、これらの効果を正確に計算することは困難な作業です。光の伝播、反射、屈折といった現象はすべて、精密なシミュレーションを必要とします。

動的なシーンでは、太陽の位置が時間とともに変化したり、照明がちらついたりなど、光源も変化することがあります。そのため、画像にリアルで自然な照明効果を与えるには、光の強度、色、方向をリアルタイムで計算する必要があります。

しかし、これらすべての課題は PixelDance モデルにとってはもはや困難ではないようです。

例えば、下の動画では、男性のサーフィンの様子が驚くほどリアルに再現されています。波、照明、男性の動き、髪の毛の一本一本まで、細部までリアルに再現されています。

たとえば、次に示す急速に変化する自然のシーンでは、光と影の相互作用と物理法則が非常に精密に処理されており、SF 大ヒット映画のワンシーンを彷彿とさせます。

一貫したマルチカメラ生成

一貫性と複数のカメラアングルも AI による動画生成の批判点となっており、人間でさえ AI の奇妙で不条理なスタイルを真似し始めている。

たとえば、前のショットではキャラクター A が映っていて、次のショットではキャラクター B が映っているといった具合です。性別や種族さえも変更される可能性があります...

PixelDanceモデルのパフォーマンスは? 結果を直接見てみましょう。

最初のシーンでは、死に直面している少女が映し出されます。カメラが少女に切り替わっても、PixelDanceモデルによって生成されたコンテンツは、髪型や服装といった細部に至るまで、一貫性を保っています。

より複雑なシーンやカメラの切り替えに直面しても、問題はありません。

マルチスタイルとマルチスケールの互換性

もちろん、スタイルの多様性は、あらゆるビデオ生成モデルにとって「必ず習得しなければならない」スキルであり、PixelDance モデルも例外ではありません。

たとえば、白黒のブロックバスター スタイル:

たとえば、日本のアニメのスタイル:

さらに、これら 2 つの例から、PixelDance モデルによって生成されるビデオの割合も制御可能であることが容易にわかります。

具体的には、PixelDance モデルは、白黒、3D アニメーション、2D アニメーション、伝統的な中国絵画、水彩画、ガッシュなど、さまざまなスタイルをサポートし、1:1、3:4、4:3、16:9、9:16、21:9 の 6 つのアスペクト比を備えています。

はい、彼は多才で、比較的オールラウンドな選手です。

それで次の質問は、それがどのように行われたかということです。

Doubaoビデオモデルの機能に関して、記者会見で実演した最初の3つの機能に対応する技術は次のとおりです。

高効率 DiT 融合コンピューティング ユニット、新設計の拡散モデル トレーニング メソッド、および高度に最適化された Transforemer アーキテクチャは、PixelDanca モデルの作成を支える 3 つの主要なテクノロジーです。

しかし、様々なビデオ生成製品の品質に関して、 「『良い』とは一体何なのか?何か基準はあるのだろうか?」という疑問が、QuantumBitとVolcano Engineの社長であるタン・ダイ氏によって議論の中で提起されました。彼は次のように述べています。

音声生成とは異なり、動画生成には標準化された包括的なベンチマークがあまりありません。しかし、評価基準として使用できる要素はいくつかあります。

まず、複雑な指示に従う必要があるため、ビデオモデルのセマンティクス理解能力に大きな負担がかかります。PixelDanceモデルのパフォーマンスから判断すると、この要件は満たされています。

次に、複数のカメラを切り替えて一貫性を確保することも、ビデオの最終的な効果を確実にする上で重要な要素です。
Doubao の発売イベント全体を見ると、ビデオ モデルは新機能の 1 つにすぎませんでした。

ビデオモデルだけではない

今回、ByteDanceは豆宝動画モデルのほかにも、2つの主力製品を発表した。

まずは豆寶音楽モデルです。

AIを用いて「紅楼夢」のBGMを作成した際に実証したように、楽曲を生成するには、プロンプトにいくつかの簡単な単語を入力するだけで済みます。キーワードさえあれば、楽曲の感情を正確に捉えることができます。

さらに、Doubao音楽モデルは10種類以上の音楽スタイルと感情表現を提供し、人間の声とほとんど区別がつきません。

第二に、Doubao同時通訳モデルがあります。

このモデルの性能は人間の同時通訳者に匹敵し、リアルタイムコミュニケーションを阻害することなく、同時発話と翻訳を可能にします。さらに、翻訳精度と人間の声の自然さにおいて従来のモデルを凌駕しており、同時通訳が必要な様々なシーンに適しています。

最後に、 Doubao一般モデルの機能も今回大幅に向上しました。

これにより、ByteDanceの豆豌(豆包)モデルファミリーはさらに拡大しました。現在の全体像を見てみましょう。

しかし、ラインナップの多さは単なる一面に過ぎず、さらに重要なのは、豆宝ファミリーのモデルがすでに広く使用されていることです。

9月時点で、Doubaoの大規模モデルの1日あたりのトークン使用量は1兆3000億トークンを超え、4ヶ月間で10倍以上の増加を記録したとされています。マルチモーダル処理に関しては、Doubaoのテキスト画像変換モデルは1日平均5000万枚の画像を生成しています。さらに、Doubaoは現在、1日平均85万時間の音声を処理しています。

このデータはモデルの有効性も反映しており、ユーザーフレンドリーなモデルだけが一般大衆に受け入れられるからです。これはまた、Doubao モデルが最初にリリースされたときに述べられた「最大の使用によってのみ、最高の大規模モデルを磨くことができる」という声明を裏付けています。

これは、度重なる改良を経て、「左側にボリューム、右側に複数のシナリオ」という豆宝のアプローチが成功した検証とも言えます。検証後、ByteDanceは大規模モデルの開発パスも明らかにしました。まずCへ、次にBへというものです。

タン・ダイ氏はこう言った。

消費者市場(To C)で最高の結果を達成した場合にのみ、そのモデルをビジネス市場(To B)で使用できるようになります。

さらに、大型モデルの価格競争が勃発する中、豆型モデルの価格も下落を続けており、これは大型モデルの開発のトレンドを予感させるものである。

コストがイノベーションの道を妨げることはなくなります。

豆宝モデルの今後の発展が楽しみです。

もう一つ:

「オールByteDance AI」といえば、「紅楼夢」ミュージックビデオのAI版を制作するのに使われたツールがすべてByteDance製品であるという事実とは別に、この記事もLarkで書かれていた。

最後に、安っぽい口説き文句でこの記事を締めくくりましょう。

ByteDanceの盛大なステージ:AIをお持ちの方はぜひご参加ください!