618ZXW

Zhipu AI版Soraがオープンソース化!商用利用可能かつプレイ可能な初のオンラインアプリケーションとして、GitHubでわずか5時間で3,700個のスターを獲得しました。

国産版SORAは絶大な人気を誇っています。

ちょうど今、 Zhipu AI はQingyingビデオ生成の背後にある大きなモデルをオープンソース化しました

そして、これは商業的に実現可能な最初のものなのです!

CogVideoXと名付けられたこのモデルは、GitHub でリリースされてからわずか5 時間で、驚異的な 3.7K 個のスターを獲得しました。

結果を見てみましょう。

プロンプト1、人物のクローズアップ

戦争で荒廃した街の、廃墟と崩れかけた壁が荒廃の様相を物語る、忘れがたい背景の中、少女の胸を締め付けるようなクローズアップが映し出されている。灰にまみれた彼女の顔は、周囲の混沌を静かに物語っている。悲しみと回復力が入り混じった輝きを放つ彼女の瞳は、紛争の荒廃によって純真さを失った世界の、生々しい感情を捉えている。

ビデオリンク: https://mp.weixin.qq.com/s/IX...

ご覧の通り、キャラクターの目などのディテールが非常に高精細なだけでなく、瞬きの前後の連続性もしっかりと保たれています。

次はプロンプト2、オールインワンテイクです

カメラは、黒いルーフラックを備えた白いビンテージSUVの後ろを追う。車は、険しい山の斜面にある松の木に囲まれた険しい未舗装道路を疾走する。タイヤから土埃が舞い上がり、未舗装道路を疾走するSUVに太陽の光が当たり、風景全体に暖かい光が投げかけられている。未舗装道路は緩やかにカーブを描いて遠くまで続いており、他に車や乗り物は見当たらない。道路の両側の木はセコイアで、ところどころに緑が点在している。車は後方から見るとカーブを楽々と走り、まるで険しい地形をドライブしているかのようだ。未舗装道路自体は険しい丘と山々に囲まれ、上には薄い雲が浮かぶ澄み切った青空が広がっている。

ビデオリンク: https://mp.weixin.qq.com/s/IX...

照明、遠景、近景、車両が移動する過程など、すべてが完璧に捉えられています。

さらに、これらのエフェクトは公式チームが発表したものだけではなく、誰でもオンラインでプレイできます。

1 枚の A100 カードで 90 秒で製品を生成できます。

なお、Zhipu AI の CogVideoX には複数のサイズがあり、今回オープンソース化されるのは CogVideoX-2B です。

基本情報は以下の通りです。

FP-16精度の推論には18GBのビデオメモリしか必要とせず、微調整には40GBのメモリしか必要としません。つまり、推論には4090グラフィックスカード1枚、微調整にはA6000グラフィックスカード1枚を使用できることになります。

このモデルはすでに HuggingFace のディフューザー ライブラリへの展開をサポートしており、操作は非常に簡単で、次の 2 つのステップのみが必要です。

1. 対応する依存関係をインストールする

pip install --upgrade opencv-python transformers pip install git+https://github.com/huggingface/diffusers.git@878f609aa5ce4a78fea0f048726889debde1d7e8#egg=diffusers # Still in PR

2. コードを実行する

import torch from diffusers import CogVideoXPipeline from diffusers.utils import export_to_video prompt = "A panda, dressed in a small, red jacket and a tiny hat, sits on a wooden stool in a serene bamboo forest. The panda's fluffy paws strum a miniature acoustic guitar, producing soft, melodic tunes. Nearby, a few other pandas gather, watching curiously and some clapping in rhythm. Sunlight filters through the tall bamboo, casting a gentle glow on the scene. The panda's face is expressive, showing concentration and joy as it plays. The background includes a small, flowing stream and vibrant green foliage, enhancing the peaceful and magical atmosphere of this unique musical performance." pipe = CogVideoXPipeline.from_pretrained( "THUDM/CogVideoX-2b", torch_dtype=torch.float16 ).to("cuda") prompt_embeds, _ = pipe.encode_prompt( prompt=prompt, do_classifier_free_guidance=True, num_videos_per_prompt=1, max_sequence_length=226, device="cuda", dtype=torch.float16, ) video = pipe( num_inference_steps=50, guidance_scale=6, prompt_embeds=prompt_embeds, ).frames[0] export_to_video(video, "output.mp4", fps=8)

さらに、シングルカードの A100 では、上記の手順に従うと、ビデオの生成にかかる時間はわずか 90 秒です。

さらに、Zhipu AI は HuggingFace のオンラインデモも作成しており、その結果は次のとおりです

ビデオリンク: https://mp.weixin.qq.com/s/IX...

ご覧のとおり、生成された結果は .mp4 ファイルだけでなく、GIF ファイルとしてもダウンロードできます。

では次の質問は、Zhipu AI はこれをどうやって実現するのか、ということです。

論文も出版されました。

今回、Zhipu AIはビデオ生成モデルをオープンソース化しただけでなく、その背後にある技術レポートも公開しました。

レポート全体を見ると、言及する価値のある主要な技術的ハイライトが 3 つあります。

まず、研究チームは、元のビデオ空間をそのサイズの 2% に圧縮し、ビデオ拡散生成モデルのトレーニングコストと難易度を大幅に削減する、非常に効率的な3D 変分オートエンコーダ (3D VAE)構造を開発しました。

モデルアーキテクチャには、エンコーダ、デコーダ、潜在空間正則化器が含まれており、4段階のダウンサンプリングとアップサンプリングによって圧縮を実現します。時間的因果畳み込みは情報の因果関係を保証し、通信オーバーヘッドを削減します。チームは、大規模なビデオ処理に適応するために、コンテキスト並列技術を採用しています。

実験では、高解像度のエンコードは一般化しやすいが、フレーム数を増やすのはより困難であることが研究チームによって発見された。

そのため、研究チームはモデルを2段階に分けて学習させました。まず、低フレームレートと小規模なバッチで学習し、次にコンテキスト並列処理を用いて高フレームレートで微調整を行いました。学習損失関数は、L2損失、LPIPS知覚損失、そして3D識別器からのGAN損失を組み合わせたものです。

第二に、エキスパートのトランスフォーマーがいます。

チームは VAE のエンコーダーを使用してビデオを潜在空間に圧縮し、その潜在空間をブロックに分割して、z_vision に埋め込まれた成長シーケンスに展開しました。

同時に、T5を用いてテキスト入力をテキスト埋め込みz_textにエンコードし、シーケンス次元に沿ってz_textとz_visionを連結しました。連結された埋め込みは、エキスパートTransformerブロックスタックに入力され、処理されました。

最後に、チームは埋め込みを逆ステッチして元の潜在的な空間形状を復元し、VAE を使用してデコードし、ビデオを再構築しました。

最後のハイライトはデータです。

チームは、編集が過剰だったり、動きに一貫性がなかったり、画質が悪かったり、講義のような内容だったり、テキストが中心だったり、画面にノイズがあったりするなど、低品質のビデオを識別して除外するためのネガティブラベルを開発しました。

研究チームは、video-llamaで学習したフィルターを用いて、2万個の動画データポイントにラベル付けとフィルタリングを施しました。同時に、オプティカルフローと美的スコアを計算し、閾値を動的に調整することで、生成された動画の品質を確保しました。

動画データには通常、テキスト記述が不足しており、テキストから動画への変換モデルを学習するためにはテキスト記述に変換する必要があります。既存の動画キャプションデータセットには、動画コンテンツを完全に説明できない短いキャプションが含まれています。

この目的のために、チームは画像キャプションからビデオの字幕を生成するパイプラインも提案し、エンドツーエンドのビデオキャプションモデルを微調整して、より密度の高い字幕を取得しました。

この方法では、Panda70M モデルを使用して短いキャプションを生成し、CogView3 モデルを使用して高密度の画像キャプションを生成し、GPT-4 モデルを使用して結果を要約して、最終的な短いビデオを生成します。

また、高密度のキャプションデータを使用してトレーニングされた CogVLM2-Video と Llama 3 に基づく CogVLM2-Caption モデルを微調整し、ビデオキャプション生成プロセスを加速しました。

上記は、CogVideoX の技術的強みを示しています。

もう一つ

ランウェイのGen-3は、ビデオ生成の分野でも新たな動きを見せている。

Gen-3 Alpha のテキスト読み上げビデオでは、ビデオの最初または最後のフレームとして画像を取り込むことがサポートされるようになりました。

AIは時間を戻すことができるかのような印象を与えます。

結果を見てみましょう:

ビデオリンク: https://mp.weixin.qq.com/s/IX...

ビデオリンク: https://mp.weixin.qq.com/s/IX...

最後に、Zhipu AI のオープンソース ビデオ生成モデルへのリンクを以下に示します。

コードリポジトリ: https://github.com/THUDM/CogV...

モデルのダウンロード: https://huggingface.co/THUDM/...

技術レポート: https://github.com/THUDM/CogV...

オンラインで体験してください: https://huggingface.co/spaces...