|
オープンソースモデルについては、やはり杭州に目を向ける必要があります。 QwQ-Maxがリリースされた直後、アリババは深夜にビデオ生成モデルWan 2.1をオープンソース化した。14バイトのパラメータはVBenchとは一線を画し、SoraやGen-3を大きく引き離した。 公式デモから判断すると、複雑な動きのディテールが非常によくできており、 5人で一緒にヒップホップを踊っても同期した動きを実現できます。 さらに、静止画像生成において常に大きな課題であったテキスト生成も、Wanxiang によって克服されました。 もちろん、14B の仕様は特に大きいわけではありませんが、コンシューマー グレードのグラフィック カードでのローカル展開は依然として非常に困難です。 ただし、14Bバージョン(720P解像度に対応)の他に、より小型の1.3Bバージョン(480P解像度に対応)も存在します。4090では8GB以上のビデオメモリを使用し、完了までに4分21秒かかります。 したがって、12GB の4070 でも実行可能です。 アリババはまた、画像生成ビデオモデルを 2 つリリースしました。どちらも 14B ですが、480P と 720P のバージョンが用意されています。 これら 4 つのモデルはすべてApache 2.0をベースとしているため、商用利用は無料です。 さらに公式スケジュールも公開されており、今後はAIクリエイターの間で人気の高いComfyUIも統合される予定とのこと。 ビデオ生成モデルが書き込み可能になりました。現在、Wan 2.1 をプレイする方法は多数ありますが、最も簡単なのは Tongyi Wanxiang 独自のプラットフォームを使用する方法です。 プラットフォーム内では、バージョン 1.3B と 14B はそれぞれ Lite バージョンと Professional バージョンと呼ばれ、それぞれ 5 または 3 の「インスピレーション ポイント」を消費します (新規ユーザーは 50 ポイントから開始し、毎日のチェックインなどのさまざまな手段を通じて無料でさらに獲得できます)。 しかし、非常に人気があるため、待ち時間が非常に長くなる場合があり、時には「人気過剰」になることもあります。 もう少し実践的なスキルがあれば、公式チュートリアルを参考に、HuggingFace、Modaコミュニティ、あるいはローカル環境で自分で試してみるのも良いでしょう。もちろん、サードパーティ製のプラットフォームでも同様の試みがされています。 ネットユーザーもこれを使ってさまざまな独創的なアイデアを考案しており、中にはMinecraft風のストーリーシーンを生成するために使っている人もいる。 △著者: X/@TheXeophon公式の例を見ると、有効性の観点から、Wan 2.1 の最大の特徴は、ビデオ内でのテキスト生成のサポートであると考えられます。 また、唐突に追加されるのではなく、テキストの配置場所の材質に応じて適切に調整され、キャリアとともに移動します。 もちろん、テキストに比べて、より基本的なアクションの詳細に関しても、技術的なスキルは標準に達しています。 2人がワルツを踊っていましたが、何回転しても姿勢が一定で、背景の回転もとても自然でした。 さらに、彼らは物理法則をより深く理解しており、矢を放った後の弓弦の振動が非常に正確に描写されています。 犬が切っていたトマトは、その過程で変形しませんでした。 また、人が水面から頭を出すシーンなどもあります。インターフェースの扱いが優れているだけでなく、持ち上げる水も徐々に流れから水滴へと変化していきます。 画像から動画への変換に関しては、一部のネットユーザーが試してみて、プロンプトを一切使用せずにこの日本のアニメ風のアニメーションを取得しました。 △作者:X/@seiiiiiiiiiiruエフェクト自体に加えて、バージョン 1.3B のビデオ メモリ使用量の低さ (8 GB 強) も、個人クリエイターにとって素晴らしいニュースです。 では、Wan 2.1 はどのようにして高いパフォーマンスとコスト削減の両方を実現するのでしょうか? 革新的な 3D 変分オートエンコーダー主流のビデオ生成テクノロジーと同様に、Wan 2.1 は主に DiT (Diffusion Transformer) アーキテクチャを使用します。 Wan は T5 エンコーダーを使用して入力多言語テキストをエンコードし、各 Transformer ブロック内にクロス アテンション メカニズムを追加して、テキストをモデル アーキテクチャに埋め込みます。 さらに、Wanは線形層とSiLU層を用いて、入力の時間的埋め込みを処理し、それぞれ6つの変調パラメータを予測します。このMLPはすべてのTransformerブロック間で共有され、各ブロックは異なるバイアスセットを学習します。 エンコードには、Wan はビデオ生成用に特別に設計された 3D 因果アーキテクチャである3D 変分オートエンコーダを使用します。 畳み込みモジュールに特徴キャッシング メカニズムを実装し、複数の戦略を組み合わせることで、時空間圧縮を改善し、メモリ使用量を削減し、時間的な因果関係を保証します。 具体的には、ビデオ シーケンス フレームの数は 1+T 入力形式に従うため、Wan は潜在的な特徴の数に合わせてビデオを 1+T/4 ブロックに分割します。 入力ビデオ シーケンスを処理する際、モデルはブロック単位の戦略を採用し、各エンコードおよびデコード操作では、単一の潜在表現に対応するビデオ ブロックのみが処理されます。 時間圧縮率に基づいて、各処理ブロックのフレーム数は最大 4 に制限され、GPU メモリのオーバーフローを効果的に防止します。 実験結果によれば、単一の A800 ブロックでは、Wan の VAE 再構築速度は既存の最先端手法よりも 2.5 倍高速です。 モデルを拡張し、トレーニング効率を向上させるために、Wan 氏はエンコーダーに対して FSDP モデル セグメンテーションとコンテキスト並列処理 (CP) を組み合わせた分散戦略を採用し、DiT モジュールに対して DP、FSDP、RingAttention、Ulysses を組み合わせた並列戦略を採用しました。 推論フェーズでは、複数の GPU を使用して単一のビデオを生成する際の遅延を削減するために、CP による分散アクセラレーションも必要です。 Wan バージョン 14B では、2D コンテキスト並列処理と FSDP 並列処理戦略により、DiT はほぼ線形の高速化を実現できました。 I2V 部分では、Wan はビデオ合成を制御するための最初のフレームとして追加の条件付き画像を導入し、CLIP 画像エンコーダーを使用して条件付き画像から特徴表現を抽出します。 具体的には、条件付き画像を時間軸に沿ってゼロ埋めされたフレームと連結し、ガイダンスフレームを形成します。これらのガイダンスフレームは、3D VAEによって圧縮され、条件付き潜在表現となります。 さらに、I2V DiT モデルには T2V モデルよりも多くの入力チャネルがあるため、I2V バージョンでは、ゼロ値で初期化される追加の投影レイヤーも使用されます。 アリババは後ほどさらに詳しいレポートを発表する予定なので、技術的な詳細に興味のある読者は引き続き注目してほしい。 参考リンク: https://mp.weixin.qq.com/s/SRj06E-VCSpCiQZqE0gpHA GitHub: https://github.com/Wan-Video/... Hugging Face: https://huggingface.co/Wan-AI Modelscope コミュニティ: https://www.modelscope.cn/mod... |
Alibaba の Sora のオープンソース バージョンはリリース後すぐにチャートのトップに躍り出て、4070 プロセッサ上で動作し、商用利用は無料です。
関連するおすすめ記事
-
イーロン・マスクがテスラのリソースを犠牲にしてOpenAIに挑戦する新しい大規模モデルを発表。直接テストがここにあります。
-
362 種類の一般的な病気の診断を支援します。ケンブリッジ大学、オックスフォード大学、ウォーリック大学などが、医療知識グラフを自動的に構築するためのマルチエージェント大規模言語モデル フレームワークを提案しています。
-
KCC@Nanjingがあなたを招待します - 1月11日にNebulaGraph南京大学キャンパスツアーを開催します
-
Li Feifei 氏のチームの最新作: ImageNet の空間インテリジェンス バージョンが登場しました。
-
Appleがデスクランプをロボットに変身させました!動きを通して感情を表現し、ロボットのインタラクションを再定義します。
-
2024 CCF プログラマー カンファレンスがもうすぐ始まります。12 月に雲南省大理市でお会いしましょう。