|
たった今、Zhipu はQingying (オンラインで入手可能)の背後にあるCogVideoX-5B-I2V画像ベースのビデオモデルをオープン ソースとしてリリースしました。 また、その注釈モデルであるcogvlm2-llama3-caption もオープンソース化されています。 実際のアプリケーションでは、CogVideoX-5B-I2V は「 1 つの画像」 + 「プロンプトワード」からのビデオ生成をサポートします。 cogvlm2-llama3-caption は、ビデオ コンテンツをテキストの説明に変換する役割を担います。 しかし、そのパフォーマンスについてはユーザーの間で意見が分かれています。 使用後に「すごい!」と感動した方もいらっしゃいました。 長い間試用していた人の中には、最終的には以前のバージョンの CogVideoX を選択し、「このモデルが一番好きです!」と賞賛する人もいました。 それでは実際に試してみて、どれほど効果があるのか見てみましょう。 CogVideoX-5B-I2Vの実機テストテスト開始~入力プロンプト:コーヒーショップの従業員が、自然な体の動きで話しながら、握手と笑顔でお客様を歓迎します(ここでも、常に存在する「手」の問題)。 2 番目のテストでは、「マロウは足を組んで電話をかけています」という短いプロンプトを試しました (効果は理想的ではなく、主題は静止したまま動きませんでした)。 3番目のプロンプトは「月は明るく丸く、何人かの人々が川辺に座っておしゃべりしたり歌ったりしている」でした。これは生成が完了したことを示していますが、最後の表示は完全に失敗しました(泣)。 全体的な効果はやや期待外れで、生成速度もかなり遅いです。 チームの成功した作品のいくつかを見てみましょう。 プロンプト: 万華鏡のような蝶が花の間を飛び回り、その繊細な羽が下の花びらに影を落とすと、庭園は生き生きとします。 ヒント: 宇宙服を着て、ブーツが火星の赤い塵で覆われた宇宙飛行士が、第 4 惑星のピンク色の空の下、宇宙人と握手するために手を伸ばしています。 ヒント:湖岸には柳の木々が立ち並び、細い枝がそよ風に優しく揺れています。静かな湖面には澄み切った青い空が映り、数羽の白鳥が静かな水面を優雅に泳ぎ回っています。 論文も出版されました。CogVideoX-5B-I2V モデルのコードがオープンソース化され、Hugface に展開できるようになったことは注目に値します。 関連の研究論文も公開されており、注目すべき主要な技術的ハイライトが 3 つあります。 まず、研究チームは、元のビデオ空間をそのサイズの 2% に圧縮し、ビデオ拡散生成モデルのトレーニングコストと難易度を大幅に削減する、非常に効率的な3D 変分オートエンコーダ (3D VAE)構造を開発しました。 モデルアーキテクチャには、エンコーダ、デコーダ、潜在空間正則化器が含まれており、4段階のダウンサンプリングとアップサンプリングによって圧縮を実現します。時間的因果畳み込みは情報の因果関係を保証し、通信オーバーヘッドを削減します。チームは、大規模なビデオ処理に適応するために、コンテキスト並列技術を採用しています。 実験では、高解像度のエンコードは一般化しやすいが、フレーム数を増やすのはより困難であることが研究チームによって発見された。 そのため、研究チームはモデルを2段階に分けて学習させました。まず、低フレームレートと小規模なバッチで学習し、次にコンテキスト並列処理を用いて高フレームレートで微調整を行いました。学習損失関数は、L2損失、LPIPS知覚損失、そして3D識別器からのGAN損失を組み合わせたものです。 第二に、エキスパートのトランスフォーマーがいます。 チームは VAE のエンコーダーを使用してビデオを潜在空間に圧縮し、その潜在空間をブロックに分割して、z_vision に埋め込まれた成長シーケンスに展開しました。 同時に、T5を用いてテキスト入力をテキスト埋め込みz_textにエンコードし、シーケンス次元に沿ってz_textとz_visionを連結しました。連結された埋め込みは、エキスパートTransformerブロックスタックに入力され、処理されました。 最後に、チームは埋め込みを逆ステッチして元の潜在的な空間形状を復元し、VAE を使用してデコードし、ビデオを再構築しました。 最後のハイライトはデータです。 チームは、編集が過剰だったり、動きに一貫性がなかったり、画質が悪かったり、講義のような内容だったり、テキストが中心だったり、画面にノイズがあったりするなど、低品質のビデオを識別して除外するためのネガティブラベルを開発しました。 研究チームは、video-llamaで学習したフィルターを用いて、2万個の動画データポイントにラベル付けとフィルタリングを施しました。同時に、オプティカルフローと美的スコアを計算し、閾値を動的に調整することで、生成された動画の品質を確保しました。 動画データには通常、テキスト記述が不足しており、テキストから動画への変換モデルを学習するためにはテキスト記述に変換する必要があります。既存の動画キャプションデータセットには、動画コンテンツを完全に説明できない短いキャプションが含まれています。 これに対処するため、研究チームは画像キャプションから動画字幕を生成するパイプラインも提案し、エンドツーエンドの動画キャプションモデルを微調整することで、より高密度な字幕を取得しました。この手法では、Panda70Mモデルを用いて短い字幕を生成し、CogView3モデルを用いて高密度な画像キャプションを生成した後、GPT-4モデルを用いて結果を要約することで、最終的な短い動画を生成します。 また、高密度のキャプションデータを使用してトレーニングされた CogVLM2-Video と Llama 3 に基づく CogVLM2-Caption モデルを微調整し、ビデオキャプション生成プロセスを加速しました。 もう一つCogVideoX はここ 1 か月ほど非常に忙しく、頻繁に更新を行い、大量の新しいコンテンツを制作していることは特筆に値します。 2024年9月17日、SATの重み推論と微調整のためのコードと、依存関係をインストールするためのコマンドが提供されました。プロンプトワードのリダイレクトリンクはGLM-4を使用して最適化されました: https://github.com/THUDM/CogV... 2024年9月16日以降、ユーザーはFLUXとCogVideoXを組み合わせたローカルオープンソースモデルを使用して、高品質ビデオの生成を自動化できるようになります。リンク: https://github.com/THUDM/CogV...\_dev/tools/llm\_flux\_cogvideox/llm\_flux\_cogvideox.py 2024年9月15日、CogVideoXのLoRA微調整ウェイトが正常にエクスポートされ、diffusesライブラリでのテストに合格しました。リンク: https://github.com/THUDM/CogV..._dev/sat/README_zh.md 2024 年 8 月 29 日に、CogVideoX-5B の推論コードに pipe.enable_sequential_cpu_offload() 関数と pipe.vae.enable_slicing() 関数が追加され、ビデオメモリの使用量が 5 GB に削減されました。 2024 年 8 月 27 日に、CogVideoX-2B モデルのオープンソース ライセンスが Apache 2.0 ライセンスに変更されました。 同日、Zhipu AIはより大規模なCogVideoX-5Bモデルをオープンソース化し、動画生成の品質と視覚効果を大幅に向上させました。このモデルは推論性能を最適化し、RTX 3060などのデスクトップグラフィックカードでも推論を実行できるため、ハードウェア要件が軽減されます。 2024 年 8 月 20 日に、VEnhancer ツールに CogVideoX によって生成されたビデオの強化のサポートが追加され、ビデオの解像度と品質が向上しました。 2024年8月15日、CogVideoXが依存するSwissArmyTransformerライブラリがバージョン0.4.12にアップグレードされ、微調整のためにソースコードからライブラリをインストールする必要がなくなりました。同時に、生成された結果を最適化するためにTied VAEテクノロジーが導入されました。CogVideoX-5B-I2Vのオープンソース化は、CogVideoXシリーズモデルがテキストから動画への変換、動画拡張、画像から動画への変換という3つのタスクをサポートするようになったことを意味します。 |
オンラインでプレイ可能!Zhipu のオープンソース グラフ生成ビデオ モデルは、ネットユーザーから「素晴らしい!」と称賛されています。
関連するおすすめ記事
-
2024年版AIGC業界パノラママップとレポートを公開
-
たった今、地球上で「最強」のヒューマノイドロボットが公開されました!OpenAIを搭載し、すでにBMWで稼働しています。
-
自動運転システムをどう構築するのか?IPO目論見書にその答えが載っている。
-
DAMOアカデミーがVideoLLaMA3をオープンソース化:わずか7Bのサイズで最先端のビデオ理解を実現 | オンラインでプレイ可能
-
ウルトラマンが再びDeepSeekについて語る: 目覚めるたびにストレスを感じる。
-
衝撃的!AIがリアルタイムでゲームを生成し、1秒あたり20フレームを出力。DeepMindの最新の普及モデルにおける画期的な成果が一夜にして話題に。