|
国産版SORAは絶大な人気を誇っています。 ちょうど今、 Zhipu AI はQingyingビデオ生成の背後にある大きなモデルをオープンソース化しました。 そして、これは商業的に実現可能な最初のものなのです! CogVideoXと名付けられたこのモデルは、GitHub でリリースされてからわずか5 時間で、驚異的な 3.7K 個のスターを獲得しました。 結果を見てみましょう。 プロンプト1、人物のクローズアップ: 戦争で荒廃した街の、廃墟と崩れかけた壁が荒廃の様相を物語る、忘れがたい背景の中、少女の胸を締め付けるようなクローズアップが映し出されている。灰にまみれた彼女の顔は、周囲の混沌を静かに物語っている。悲しみと回復力が入り混じった輝きを放つ彼女の瞳は、紛争の荒廃によって純真さを失った世界の、生々しい感情を捉えている。 ビデオリンク: https://mp.weixin.qq.com/s/IX... ご覧の通り、キャラクターの目などのディテールが非常に高精細なだけでなく、瞬きの前後の連続性もしっかりと保たれています。 次はプロンプト2、オールインワンテイクです。 カメラは、黒いルーフラックを備えた白いビンテージSUVの後ろを追う。車は、険しい山の斜面にある松の木に囲まれた険しい未舗装道路を疾走する。タイヤから土埃が舞い上がり、未舗装道路を疾走するSUVに太陽の光が当たり、風景全体に暖かい光が投げかけられている。未舗装道路は緩やかにカーブを描いて遠くまで続いており、他に車や乗り物は見当たらない。道路の両側の木はセコイアで、ところどころに緑が点在している。車は後方から見るとカーブを楽々と走り、まるで険しい地形をドライブしているかのようだ。未舗装道路自体は険しい丘と山々に囲まれ、上には薄い雲が浮かぶ澄み切った青空が広がっている。 ビデオリンク: https://mp.weixin.qq.com/s/IX... 照明、遠景、近景、車両が移動する過程など、すべてが完璧に捉えられています。 さらに、これらのエフェクトは公式チームが発表したものだけではなく、誰でもオンラインでプレイできます。 1 枚の A100 カードで 90 秒で製品を生成できます。なお、Zhipu AI の CogVideoX には複数のサイズがあり、今回オープンソース化されるのは CogVideoX-2B です。 基本情報は以下の通りです。 FP-16精度の推論には18GBのビデオメモリしか必要とせず、微調整には40GBのメモリしか必要としません。つまり、推論には4090グラフィックスカード1枚、微調整にはA6000グラフィックスカード1枚を使用できることになります。 このモデルはすでに HuggingFace のディフューザー ライブラリへの展開をサポートしており、操作は非常に簡単で、次の 2 つのステップのみが必要です。 1. 対応する依存関係をインストールする 2. コードを実行する さらに、シングルカードの A100 では、上記の手順に従うと、ビデオの生成にかかる時間はわずか 90 秒です。 さらに、Zhipu AI は HuggingFace のオンラインデモも作成しており、その結果は次のとおりです。 ビデオリンク: https://mp.weixin.qq.com/s/IX... ご覧のとおり、生成された結果は .mp4 ファイルだけでなく、GIF ファイルとしてもダウンロードできます。 では次の質問は、Zhipu AI はこれをどうやって実現するのか、ということです。 論文も出版されました。今回、Zhipu AIはビデオ生成モデルをオープンソース化しただけでなく、その背後にある技術レポートも公開しました。 レポート全体を見ると、言及する価値のある主要な技術的ハイライトが 3 つあります。 まず、研究チームは、元のビデオ空間をそのサイズの 2% に圧縮し、ビデオ拡散生成モデルのトレーニングコストと難易度を大幅に削減する、非常に効率的な3D 変分オートエンコーダ (3D VAE)構造を開発しました。 モデルアーキテクチャには、エンコーダ、デコーダ、潜在空間正則化器が含まれており、4段階のダウンサンプリングとアップサンプリングによって圧縮を実現します。時間的因果畳み込みは情報の因果関係を保証し、通信オーバーヘッドを削減します。チームは、大規模なビデオ処理に適応するために、コンテキスト並列技術を採用しています。 実験では、高解像度のエンコードは一般化しやすいが、フレーム数を増やすのはより困難であることが研究チームによって発見された。 そのため、研究チームはモデルを2段階に分けて学習させました。まず、低フレームレートと小規模なバッチで学習し、次にコンテキスト並列処理を用いて高フレームレートで微調整を行いました。学習損失関数は、L2損失、LPIPS知覚損失、そして3D識別器からのGAN損失を組み合わせたものです。 第二に、エキスパートのトランスフォーマーがいます。 チームは VAE のエンコーダーを使用してビデオを潜在空間に圧縮し、その潜在空間をブロックに分割して、z_vision に埋め込まれた成長シーケンスに展開しました。 同時に、T5を用いてテキスト入力をテキスト埋め込みz_textにエンコードし、シーケンス次元に沿ってz_textとz_visionを連結しました。連結された埋め込みは、エキスパートTransformerブロックスタックに入力され、処理されました。 最後に、チームは埋め込みを逆ステッチして元の潜在的な空間形状を復元し、VAE を使用してデコードし、ビデオを再構築しました。 最後のハイライトはデータです。 チームは、編集が過剰だったり、動きに一貫性がなかったり、画質が悪かったり、講義のような内容だったり、テキストが中心だったり、画面にノイズがあったりするなど、低品質のビデオを識別して除外するためのネガティブラベルを開発しました。 研究チームは、video-llamaで学習したフィルターを用いて、2万個の動画データポイントにラベル付けとフィルタリングを施しました。同時に、オプティカルフローと美的スコアを計算し、閾値を動的に調整することで、生成された動画の品質を確保しました。 動画データには通常、テキスト記述が不足しており、テキストから動画への変換モデルを学習するためにはテキスト記述に変換する必要があります。既存の動画キャプションデータセットには、動画コンテンツを完全に説明できない短いキャプションが含まれています。 この目的のために、チームは画像キャプションからビデオの字幕を生成するパイプラインも提案し、エンドツーエンドのビデオキャプションモデルを微調整して、より密度の高い字幕を取得しました。 この方法では、Panda70M モデルを使用して短いキャプションを生成し、CogView3 モデルを使用して高密度の画像キャプションを生成し、GPT-4 モデルを使用して結果を要約して、最終的な短いビデオを生成します。 また、高密度のキャプションデータを使用してトレーニングされた CogVLM2-Video と Llama 3 に基づく CogVLM2-Caption モデルを微調整し、ビデオキャプション生成プロセスを加速しました。 上記は、CogVideoX の技術的強みを示しています。 もう一つランウェイのGen-3は、ビデオ生成の分野でも新たな動きを見せている。 Gen-3 Alpha のテキスト読み上げビデオでは、ビデオの最初または最後のフレームとして画像を取り込むことがサポートされるようになりました。 AIは時間を戻すことができるかのような印象を与えます。 結果を見てみましょう: ビデオリンク: https://mp.weixin.qq.com/s/IX... ビデオリンク: https://mp.weixin.qq.com/s/IX... 最後に、Zhipu AI のオープンソース ビデオ生成モデルへのリンクを以下に示します。 コードリポジトリ: https://github.com/THUDM/CogV... モデルのダウンロード: https://huggingface.co/THUDM/... 技術レポート: https://github.com/THUDM/CogV... オンラインで体験してください: https://huggingface.co/spaces... |
Zhipu AI版Soraがオープンソース化!商用利用可能かつプレイ可能な初のオンラインアプリケーションとして、GitHubでわずか5時間で3,700個のスターを獲得しました。
関連するおすすめ記事
-
個人生活のための無料検索エンジン。ハリー・ポッターの「瞑想の鉛筆」のオープンソース版が GitHub のトレンドリストのトップに。中国語もサポート。
-
*Her* のオープンソース版が登場し、技術レポートも公開されました。専門家の Karpathy 氏は次のように語っています。「非常にユニークです。」
-
AIをビジネスにどのように応用できるでしょうか?上海交通大学金融高等研究所(SAIF)の最新公開講座が、上海交通大学の博士課程指導教員によって開講されます。
-
ライブ配信のお知らせ | タンパク質最適化における画期的進歩!浙江大学の成果がNeurIPS 2024に選出、筆頭著者が技術ハイライトを解説
-
北京大学、初の汎用コマンドナビゲーション大型モデルシステムを提案 | CoRL 24
-
南京の AI プラットフォームは大幅なアップグレードを誇り、システム間呼び出しの成功率が 99.2% で 100 台を超えるインテリジェント エージェントをサポートします。