|
国産のAIが、動画生成のためのサウンドフィルムの時代を正式に切り開きました。 ソラがビデオ生成を爆発させて以来、ほぼすべての AI 生成ビデオは事実上「無音」になっており、対応する効果音がありません (これはバックグラウンド ミュージックではないことに注意してください)。 でも、今なら効果音が内蔵されているんです!しかも4K、60fpsの高画質で。 では、AI ビデオ生成は現在どのレベルに達しているのでしょうか? この国産AIを使ったショートフィルムを制作しました。ぜひご覧ください。 どうですか?すでに映画のような雰囲気が出ていますか? この国産AIは新しくアップグレードされたZhipu Qingyingであり、主に次の3つの特徴があります。
このように、AIは上記のようなマイクロムービー(またはショートビデオ)を作成するための要素をすべて備えており、操作も非常に簡単です。 まず、Zhipu Qingyan のGLM 4 Plusにトピックを「フィード」して、短編映画の脚本を生成できるようにします。 次に、WenshengtuのAIを使用して、高解像度の画像を複数生成します。オープニングクリップを例にとると、プロンプトは次のようになります。 カメラは公園の鳥のさえずりと朝の光からゆっくりとズームインし、ふさふさの白髪の老婦人に焦点を合わせる。彼女はベンチに座り、手に本を持ち、穏やかで深い瞳を浮かべている。 次に、NewQingying の画像からビデオへのインターフェースに移動し、この画像をアップロードして、希望する効果のプロンプトを入力します。 カメラは公園の鳥のさえずりと朝の光からゆっくりとズームインし、ふさふさの白髪の老婦人に焦点を合わせる。彼女はベンチに座り、ゆっくりと本を閉じ、遠くを見つめながら物思いに耽っている。 次に、以下の基本パラメータを選択します。 しばらく待つと、映画並みのサウンド効果を備えた高解像度のビデオクリップが誕生しました。 上記の方法を繰り返すことで、後続のビデオクリップを取得できます。 ナレーションには、Zhipuが最近リリースしたGLM-4-Voice感情音声モデルを採用しており、まるで本物の人間のようなナレーション効果を実現できる。 はい、それはZhipu の AI 攻撃の組み合わせです。 人類が最初の無声映画(1895 年)から最初の音声付き映画(1927 年)に到達するまでには、実に32 年かかりました。 Sora から始めると、AI 生成のビデオが無音から音声付きになるまでに、わずか9 か月しかかかりませんでした。 「AIの1日は人間界の1年に相当する」という言葉がまさに現実となった瞬間です。 あらゆるビデオ クリップを瞬時にサウンド ムービー クリップにすることができます。では、Zhipu の CogSound モデルはどのようなサウンド効果を処理できるのでしょうか? 実際のテストをしてみましょう。 テスト方法も非常にシンプルです。映画のビデオクリップを入力として取り込み、動画の内容を深く理解し、違和感のない効果音を生成できるかどうかをテストします。 第1ラウンド:自然環境 まず、雨の降る夕方の部屋で撮影したビデオクリップをCogSoundモデルに「入力」します(注:以下のオリジナルビデオはすべて無音です)。生成された効果音は以下のようになります。 CogSound は「雨」という重要な要素を正確に捉えており、サウンドエフェクトはシームレスです。 Qingying によって生成され、CogSound によってサウンド効果が追加された別のビデオ クリップを楽しんでみましょう。 第2ラウンド:動物の世界 CogSound がビデオから動物の鳴き声を認識できるかどうかをテストしてみましょう。 CogSound は雌ライオンの低い咆哮を生成するだけでなく、自然環境にいることを認識して鳥の鳴き声も追加しました。 第3ラウンド:複数の楽器 次に、より難しいレベルに進み、複数の楽器をフィーチャーしたビデオセグメントを入力してみましょう。 動画の冒頭からわかるように、サックスが「メイン」の楽器となるため、各楽器のミックス効果音の中でサックスの音が一番大きくなっています。 サックス奏者が激しく演奏すると、CogSound のサウンドエフェクトにも音楽的な揺らぎが現れ、正直言ってかなり驚きました。 細かいことを言えば、カメラがピアノにパンしたときにピアノの音がもう少し大きく聞こえたほうがよかったかもしれません。 第4ラウンド:SF映画 最後に、もう 1 つの非常に複雑なビデオ クリップ「The Wandering Earth」をご紹介します。 正直、これが CogSound によって生成されたものだと知らなければ、多くの人はおそらくこれが映画のサウンドトラックだと思うでしょう。 これは、CogSound モデルに送られるビデオの種類に関係なく、ビデオ コンテンツを正確に理解し、対応するサウンド効果を提供できることを示しています。 さらに、Zhipu のCogVideoでは、ビデオ生成機能も大幅に向上しました。 たとえば、下の画像の年配の男性は、まるで映画のクリップを見ているかのような多様な感情や表情を見せています。 非常に未来的な火の虎のようなものもいます。 上記の 2 つの例から、CogVideoX がさまざまなアスペクト比でのビデオの生成をサポートできるようになったことが簡単にわかります。 それで次の質問です: どうやってそれをやったんですか?まず、CogVideo のアップグレードでは、主にコンテンツの一貫性、制御性、トレーニング効率の向上に重点を置いています。 モデルの全体的なフレームワークは下図に示されています。これは複数のエキスパートTransformerモジュールに基づいています。テキストエンコーダーは入力テキストを潜在ベクトルに変換し、3D畳み込みと多層エキスパートモジュールによって処理され、連続したビデオシーケンスを生成します。 プロセス全体は、自然言語による説明を動的な視覚コンテンツに変換する複雑なシステムとして捉えることができます。 CogVideoX のモデル アーキテクチャ設計では、Causal 3D Convolution を特に採用して、時空間次元の複雑な変化を効率的にキャプチャし、モデルが詳細なシーンをより正確に理解して生成できるようにします。 一方、このモデルでは、さまざまなモジュールの特性を動的に調整して、視覚パフォーマンスの点でより自然で一貫性のあるビデオ生成を実現するエキスパート適応レイヤー正規化(AdaLN) が導入されています。 ビデオ圧縮と計算効率の課題に対処するために、CogVideoX は3D VAEアーキテクチャを採用しています。このアーキテクチャは、空間と時間の両方でビデオ機能をダウンサンプリングすることで、ビデオのストレージと計算のオーバーヘッドを大幅に削減します。 つまり、リソースが制限されたコンピューティング環境でも、CogVideoX は高品質のビデオ コンテンツを生成できるため、アプリケーションの実現可能性が大幅に向上します。 CogVideoX が視覚的にダイナミックなコンテンツを生成する役割を担うのであれば、CogSound はこれらのビジュアルに聴覚的な生命を与えます。 CogSoundは、無音動画用の効果音を自動生成するためのモデルです。動画コンテンツに基づいて、BGM、セリフ、環境音をインテリジェントに合成できます。そのアーキテクチャを下図に示します。 CogSound のコア技術は、 GLM-4V のマルチモーダル理解機能に依存しており、ビデオの意味と感情を正確に分析し、一致する効果音を生成できます。 たとえば、森林の風景を紹介するビデオでは、CogSound は鳥の鳴き声や風が葉を揺らす音を生成できます。また、都市の街のシーンでは、交通や人混みの背景ノイズを生成します。 この目標を達成するために、CogSound は潜在拡散モデルを活用します。このモデルは、高次元空間からオーディオ機能を圧縮してから拡張することで、複雑なサウンド効果を効果的に生成します。 さらに、CogSound は、ブロック単位の時間的アライメント クロス アテンションメカニズムを使用して、生成されたオーディオが時間と意味の点でビデオ コンテンツと高度に一貫性があることを保証し、従来のオーディオ ビジュアル合成でよく見られる不一致や不一致の問題を回避します。 これが、Zhipu CogVideoX と CogSound の強化された機能の背後にある技術的な秘密です。 ショートビデオはAI時代に突入マルチモーダルアプローチは、AGI (Automatic Gaining Intelligence) に向けた重要なステップです。 これは Zhipu が以前から提案しているコンセプトであり、CogSound のリリースにより、そのマルチモーダル マトリックスがさらに強化されました。 そのマルチモーダルな旅は、具体的には次の分野で 2021 年にまで遡ることができます。 テキスト生成 (GLM)、画像生成 (CogView)、ビデオ生成 (CogVideoX)、サウンド生成 (CogSound)、音楽生成 (CogMusic)、エンドツーエンドの音声 (GLM-4-Voice)、自律エージェント (AutoGLM)。 この旅が現在のテクノロジーと産業にどのような変化をもたらしたかと問われれば、答えはこうなるだろう。 少なくとも短編動画制作の分野では、AI時代に突入する時期が来ています。 まず、現実世界のルールに沿った、より高品質な動画が生成されており、コンテンツのロジックとビジュアルの点では、基本的に短編動画制作の基準を満たしています。 さらに、CogVideoX は幅広いサイズをサポートしているため、さまざまなシナリオでのユーザーの制作ニーズに適しています。 最も重要なのは、CogSound がビデオ生成を「サウンド ムービー」の時代へと導くため、出力は視覚的な要件を満たすだけでなく、現実の物理世界の聴覚的な要件にも準拠するということです。 Zhipu 氏は次のように語っています。 真の知性は、聴覚、視覚、触覚、その他の感覚がすべて人間の認知能力の形成に関与する、マルチモーダルなものでなければなりません。 CogSound はまもなく Zhipu Qingyan でリリースされ、Zhipu は音楽モデル CogMusic もリリースする予定であると報じられています。 以前リリースされた GLM-4-Voice 音声モデルにより、Zhipu はビデオ生成の「音」の側面を完全にマスターしたと言えます。 つまり、短い動画を作ることは、今やアイデアさえあれば実現できるものなのかもしれません。 |
国産AIでショートフィルム撮影が可能に!4K、60fpsの高画質、効果音も内蔵。
関連するおすすめ記事
-
ロボットが靴ひもを結べる!スタンフォード大学チームがロボットに新たなスキルを付与 | オープンソース化
-
QuantumBit主催の「MEET 2025 Intelligent Future Conference」が発足しました!年間アワードの応募受付を開始しました。
-
新たな研究:バッテリーの交換はエンジンの交換よりも安価であり、ガソリン車を購入しない理由がまた一つ増えた。
-
ビル・ゲイツは、いたずらっ子だった頃の過去を語ります。16歳のとき、彼は何百マイルも歩きながら、頭の中で BASIC コードを書きました。
-
DeepSeekの新モデルは、OpenAI o1に匹敵するコード性能とオープンソース認証を誇り、ランキングで首位を獲得しました。ネットユーザーからは「今年のプログラミングはTabキーだけ」というコメントが寄せられています。
-
5090 は Black Myth を 200 FPS 以上で実行します。NVIDIA の DLSS も Transformer を使用しています。