618ZXW

バイトベースのSoraは24時​​間以内に急速に広まり、同じ名前の論文が再び白熱した議論の的となっている。

「OpenAI の悪名高い先延ばし屋、Sora を待つ必要はもうありません

バイトダンス版Soraがついに登場。今回は大きなサプライズだ。

SeaweedPixelDance という2 つのビーンバッグ ビデオ モデルが同時にリリースされ、最大 10 秒の長さのテキストベースおよび画像ベースのビデオをサポートします。

PixelDance を例にとると、その最大の特徴は、複数被写体のインタラクションと一貫したマルチカメラ生成です。

それはどういう意味でしょうか?公式デモをいくつか見てみましょう。

まず最初に、元の画像は次のようになります。

現在のビデオモデルのほとんどは、 「サングラスを外す」段階までしか進めませんが、PixelDance では連続したマルチショットのアクションコマンドが使用可能になります。(サングラスを外した後、キャラクターは立ち上がり、像に向かって歩くことができます。)

また、テレビドラマ(複数の主人公)を彷彿とさせる印象的なシーンもあり、それぞれの目線や動き、全体的な演技が印象的でした。

ダブルキルは、多くの批判を浴びているPowerPointアニメーションに対する新たなソリューションです。PixelDanceは、ズーム、パン、チルト、ズーム、ターゲットトラッキングなど、マルチカメラ言語機能を備えています。

ヒント: ゴーグルを着けたアジア人の男性が泳いでおり、その後ろにウェットスーツを着た別の男性がいます。

ここで重要な点があります。一貫性の点では、PixelDance は10 秒で完全なストーリーを伝えることができると主張しています。

簡単に言えば、主題、スタイル、雰囲気の一貫性を保ちながら、単一のキューワード内で複数のショットを切り替えることを意味します。

ヒント: 女の子が車から降りています。遠くに太陽が沈んでいます。

さらに、PixelDance は複数のアスペクト比をサポートしています。(ねえ、Runway、君のことだよ!)

ヒント: 墨絵風の鳥、16:9スケール

要約すると、ByteDance 版の Soraは、複数の被写体のインタラクション、クールなカメラの動き、一貫性のあるマルチカメラ設定、および複数のスタイルの比率に重点を置いています。

記者会見が終わるとすぐに、ネットユーザーの期待は最高潮に達し、ベータテストの合格を熱心に待ちました!

一方、PixelDanceと同名のByteDance研究チームによる論文も発掘され、再び白熱した議論を巻き起こしている。

基礎となる研究論文では、「PixelDance」のプロトタイプが明らかにされています。

ByteDanceのチームは以前、CVPR 2024でPixelDanceと呼ばれるモデルを提案する論文を発表しました。

まず、重要な点を強調すると、チームのアプローチは次のように要約できます。

潜在拡散モデルに基づいて、ビデオ クリップの最初と最後のフレームからの画像とテキストの指示を組み合わせてビデオ生成を実行し、公開されているビデオ データをトレーニングに効果的に使用します。

まず、研究チームは、一連の空間ダウンサンプリング レイヤーと一連の空間アップサンプリング レイヤーから構築され、スキップ接続が挿入された、広く使用されている2D UNet を拡散モデルとして採用しました。

具体的には、2D 畳み込みモジュールと 2D アテンション モジュールという 2 つの基本モジュールから構築されます。

2D UNet は、時間層を挿入することによって 3D バリアントに拡張されます。この場合、1D 時間畳み込み層は 2D 畳み込み層の後に挿入され、1D 時間注意層は 2D 注意層の後に挿入されます。

モデルは画像とビデオを共同でトレーニングすることができ、空間次元で高忠実度の生成機能を維持します。

ただし、画像入力では1次元の時間的操作は無効になっています。チームはすべての時間的注意層で双方向自己注意を使用しています。

次に、命令インジェクションがあります。具体的には、PixelDanceは<テキスト、最初のフレーム、最後のフレーム>という命令に基づいています。

  • テキストによる指示は、詳細なテキスト コメントを使用してビデオのフレームとモーションを正確に説明することから生まれます。
  • 最初のフレーム画像命令は、ビデオ クリップの主なシーンを説明します。
  • テール フレーム イメージ命令 (トレーニングおよび推論中にオプションで使用可能) は、ビデオ セグメントの終了を示し、追加の制御を提供します。

余談ですが、テキストによる指示と比較すると、画像による指示はより直接的で取得しやすく、トレーニングでは実際のビデオ フレームを画像による指示として使用できます。

テキスト指示は、事前にトレーニングされたテキスト エンコーダーによってエンコードされ、クロス アテンションを通じて拡散モデルに組み込まれることが理解されています。

画像命令は、事前トレーニング済みの VAE エンコーダーによってエンコードされ、摂動されたビデオ潜在変数またはガウス ノイズとともに拡散モデルへの入力として使用されます。

トレーニング中、チームは(実際の)最初のフレームの指示を使用して、モデルがそれらの指示に厳密に従うように強制し、それによって連続するビデオ クリップ間の一貫性を維持しました。

もちろん、PixelDance がユニークなのは、エンドフレーム命令を使用している点です。

簡単に言うと、推論中に完璧なテール フレームを提供することは困難であり、モデルはユーザーが提供する下書きを処理してガイダンスとして使用できなければならないため、チームはモデルがテール フレームの指示を完全に複製することを意図的に避けています。

これを実現するために、チームは3つの技術を開発しました

1. トレーニング中、最後のフレームの指示は、ビデオ クリップの最後の 3 つの (実際の) フレームからランダムに選択されます。
2. 命令への依存を減らし、モデルの堅牢性を向上させるために、命令にノイズが導入されました。
3. トレーニング中に、最後のフレームの命令を一定の確率(例:25%)でランダムに破棄します。

したがって、チームはシンプルでありながら効果的な推論戦略を提案しました。

要約すると、最初の τ のノイズ除去ステップでは、末尾のフレーム命令を使用して、ビデオ生成を目的の終了状態に導きます。

残りのステップでは、指示が破棄され、モデルはより時間的に一貫性のあるビデオを生成できるようになります。

τを調整することで、生成された結果に対する末尾のフレーム命令の影響を制御できます。

次に、研究チームは、約1,000 万本の短いビデオ クリップが含まれるWebVid-10M データセットでビデオ拡散モデルをトレーニングしました。

平均的な継続時間は 18 秒、解像度は通常 336 × 596 で、各ビデオにはビデオの内容に関する簡単なテキスト説明が添えられます。

しかし、WebVid-10M には問題があります。すべてのビデオに透かしが含まれているため、生成されたビデオにも透かしが含まれてしまいます。

そのため、チームはトレーニング データを拡張し、人間、動物、物体、風景などの現実世界のエンティティと、粗いテキストの説明を含む、独自に収集した透かしのないビデオ クリップ 50 万本を追加しました。

この追加のデータセットはわずかな割合を占めるに過ぎませんでしたが、チームは次のことに驚きました。

このデータセットを WebVid-10M と組み合わせてトレーニングした後、PixelDance は、画像指示に透かしが含まれていない場合に透かしのないビデオを生成できます。

最終的に、PixelDance はビデオテキスト データセットと画像テキスト データセットの両方で共同でトレーニングされました。

ビデオ データの場合、1 秒あたり 4 フレームの速度で、各ビデオから 16 個の連続フレームがランダムにサンプリングされます。

さらに、以前の研究に従い、 LAION-400M が画像テキスト データセットとして使用されました。画像テキスト データは、8 回のトレーニング反復ごとに 1 回使用されました。

論文の発表から製品の発売までの間に具体的にどのような改良が行われたかは、現在のところ不明です。

まだリリースされたばかりなので、現時点では公式の短い言及しか見られません。

ご興味があれば、ぜひご自身でお試しください。現在、Doubao動画モデルはVolcano Engineで企業ユーザー招待テストにご利用いただけます。個人ユーザーはByteDanceのJimeng AIで内部テストにご応募いただけます。

公式声明では、今後は段階的に全ユーザーに公開される予定だと主張している。

では、このバイトベースの Sora バージョンに期待していますか?