618ZXW

ByteDanceの最新動画生成モデルが話題沸騰中!ネットユーザーがマーケティングツールとして直接盗用し、Soraの魅力を低下させている。

ちょうど今、ByteDanceとHKDが共同で新たなビデオ生成モデルを発表し、海外のネットユーザーを熱狂させている。

中には、TikTok ユーザーや YouTube クリエイターに直接 RIP マーケティングを行うところもあります。

信じられますか?次のシーンはK-POPドラマのものではなく、AIによって生成されたものです!

これを作成した新しいモデルはGokuと呼ばれ、整流フロー Transformerに基づく一連のモデルで、画像とビデオの共同生成に特化して設計されており、テキストからビデオ、画像からビデオ、テキストから画像への変換をサポートしています。

さらに、動画広告の基本モデルであるGoku+があります。公式発表では「従来の100倍のコストで広告動画を​​制作できる」とさえ謳われています。

Goku は、食品から化粧品まであらゆる商品の広告を簡単に生成し、顔の表情さえも検出するのが難しい、信じられないほどリアルで自然に見える広告を作成します。

以下のムクバン動画は非常にリアルなので、本物と区別がつかないほどです。

次に、白い革靴の写真を取り出して、簡単にディスプレイ スタンドに移動してプレゼンテーションすることができます。

製品画像とテキストプロンプトのみを使用して、キャラクターによるインタラクティブな説明ビデオを生成することもできます。

プロンプト:

女性はカラフルなミニーマウスの商品の後ろに立ち、頭を左右に優しく揺らしながら生き生きと話している。テーブルに手を置き、商品を囲むようにしながら、口を大きく開けたり閉じたりすることで、彼女の熱意と詳細な説明が伝わってくる。カメラはブレずに、彼女の表情豊かな仕草と、目の前にある商品の鮮やかなデザインを捉えている。

ファッションショーを含むあらゆる状況に対応できます。

Gokuは、定性的評価と定量的評価の両方において、テキストから画像への生成でGenEvalスコア0.76、DPG-Benchスコア83.65、テキストからビデオへの生成でVBenchスコア84.85を達成し、新たな最先端(SOTA)の称号を獲得しました

ネットユーザーたちはもう黙っていられなくなり、悟空と悟空+は革命的だと多くの人が言った。

AI ビデオを次のレベルへ!

私が持っているソラはもう魅力がありません。

ストリームベースのビデオ生成の基本モデル

この論文では、ストリーミングベースのビデオ生成モデルとしての Goku について説明しています。

具体的には、悟空は整流フロー変圧器を使用して画像とビデオを共同で生成します。

コアコンポーネントには、画像とビデオの統合 VAE、Transformer アーキテクチャ、および補正フロー式が含まれます。

まず、画像と動画を統合VAEを用いて共有潜在空間に圧縮します。次に、フルアテンションTransformerを用いて潜在表現をモデル化し、画像と動画の統合的な生成を実現します。

整流フロー公式は、RF(整流フロー)アルゴリズムに基づいています。画像と動画の結合生成に適用した場合、拡散モデルと比較して収束速度が速く、理論的な特性が優れています。

トレーニングに関しては、悟空は多段階のトレーニング戦略を採用しました。

まず、画像とテキストの意味的整合の事前トレーニングを実行し、次に画像とビデオの共同トレーニングを実行し、最後にさまざまなモダリティに合わせて微調整して、モデルの生成機能を徐々に向上させます。

注目すべきは、悟空を訓練するために、研究者らが大規模で高品質のデータセット効率的な訓練インフラストラクチャも準備したことだ。

データに関しては、研究者らは約 3,600 万本のビデオと 1 億 6,000 万枚の画像からなる大規模なデータセットを構築し、さまざまなデータ フィルタリングおよび強化技術を使用してデータの品質を向上させました。

この目的のために、彼らは、美的スコアに基づくビデオおよび画像のフィルタリング、OCR ベースのコンテンツ分析、主観的評価を含む包括的なデータ処理ワークフローを提案しました。

また、マルチモーダル大規模言語モデルを採用して、情報密度が高くコンテキスト一貫性のあるビデオおよび画像データのタイトルを生成し、追加の大規模言語モデルを使用してさらに改良し、正確性、流暢性、および説明の豊かさを向上させました。

インフラストラクチャの最適化には、並列戦略、きめ細かなアクティベーション チェックポイント技術、フォールト トレランス メカニズム、および Doubao Big Model チームと香港大学が共同で以前に提案した ByteCheckpoint テクノロジが含まれます。

ベースライン方式と比較すると、ByteCheckpoint はチェックポイントの保存で最大 529.22 倍、読み込みで最大 3.51 倍のパフォーマンスを実現します。

さまざまなコンピューティングニーズとパフォーマンス要件に対応するために、研究チームは、実験用の Goku-1B、標準使用用の Goku-2B、および Goku-8B の 3 つのモデルを提供しました。

残念ながら、公式リリースには技術レポートのみが含まれており、ゲームはまだ利用可能ではありませんが、プレイヤーはすでにリリースを熱心に待っています。

論文リンク: https://arxiv.org/abs/2502.04896 プロジェクトホームページ: https://saiyan-world.github.i... 参考リンク: [1] https://huggingface.co/papers... [2] https://x.com/ai_for_success/status/1888821141495844991