|
7月末、またもや国産AI動画ツールが無料で使えるようになりました! Viduは清華大学発のマルチモーダル大規模モデル会社であり、清華大学の Zhu Jun 氏が率いる会社です。 Viduは本日から、テキストと画像から動画を生成する2つの機能を全面的に公開しました。生成する動画の長さは4秒または8秒から自由に選択でき、解像度は最大1080Pまで可能です。 公式の主張によれば、このシステムは「業界最速の実世界推論速度を実現」し、わずか 30 秒で 4 秒間のビデオ クリップを生成します。 念のため強調しておきますが、「完全オープン」とは、キューに並ぶ必要がないことを意味します。登録するだけで毎月80ポイントを獲得できます(それ以上のポイントを獲得するには有料会員登録が必要ですが、今のところはこれで十分です)。 △針を見ると、なかなか調子がいいようです。 実際、デジタルビデオジェネレーターである Vidu は今年 4 月にすでに発表されており、その時点ではワンクリックで 16 秒のビデオを生成できることがサポートされていました。 このフルリリースの違いとハイライトは、持続時間ではなく、キャラクターの一貫性、アニメスタイル、テキストと特殊効果の生成などの機能が追加された点にあります。 私は深いため息をついた。正直に言うと、驚きと痺れが入り混じった気持ちだった。 最近、快手克玲から愛思科技、そして知普青影まで…AI動画が頻繁に公開されています。最新ニュースや様々なエフェクトが次々と流れてきて、少し圧倒されてしまいました。 国内のAI動画のレベルを、テキストだけで把握するのは本当に難しいです。 効果を確認するにはまだビデオをアップロードする必要があります。 Vidu Fun ビデオエフェクトショーケースまず、公式チームとネットユーザーがViduでどんな面白いことをしたかを見てみましょう。 (このセクションでは主に画像と動画を紹介しています。) カップルの意見を入力してください: プロンプトを入力してください: 写真に写っている 2 人の人物はお互いを見ています (若いカップルの一目惚れ)。 Viduさん、昔の台湾アイドルドラマを彷彿とさせるクラシックなショットをください。 有名な文化遺産「甘粛の空飛ぶ馬」をご紹介します。 Vidu はあっという間に博物館の展示ケースから脱出しました。 不幸なカップル、グループ写真をソロパフォーマンスに変える — ダブル J ロゴが特徴的なこの画像を入力します。 受け取るもの: 最後に、盛舒科技は1996年生まれの自社CTO、バオ・ファンを派遣した。 プロンプトを入力してください:イケメンがウルトラマンに変身します。普通の人から完全なウルトラマンになるまでの変身過程を描いてください。 以下のものが得られます: 2つの新機能: キャラクターの一貫性とアニメスタイル今回リリースされた「テキストベースの動画」と「画像ベースの動画」という2つの基本機能をベースに、Viduには2つの注目機能があります。
キャラクターとビデオの一貫性Vidu は、「画像ベースのビデオ」セクションで、「Character To Video」という新しい機能を追加しました。 現在、画像をアップロードしてビデオを生成する場合、入力画像をビデオ クリップの最初のフレームとして使用するか、生成された結果で入力画像内の文字を参照するようにすることができます。 前者は、最初のフレームに基づいて連続的な生成を可能にし、最も一般的な画像からビデオへの機能です。 後者は役割の一貫性に基づいています。具体的には、ユーザーは画像やカスタムキャラクター画像をアップロードし、そのキャラクターがどのシーンでも任意のアクションを実行できることを指定できます。 キャラクターの一貫性は、さまざまなシナリオでのキャラクターの外観、表情、アクションの連続性を確保するだけでなく、ビデオ制作プロセスを簡素化し、ユーザーがシナリオごとにキャラクターの外観を個別に設計および調整する必要がないようにするためでもあります。 これは、最近リリースされた AI ビデオ ツールの大きなトレンドでもあります。 アニメスタイル現在、国内外で利用可能な AI ビデオツールのほとんどは、リアルなスタイルに重点を置いていますが、Vidu は、リアルなスタイルの生成に加えて、アニメ スタイルのビデオ クリップの生成にも重点を置いています。 これは、Vidu における Shengshu Technology の巧妙な小技と言えるでしょう。 ただし、アニメ スタイルをサポートするにはいくつかの課題があります。
QuantumBit を簡単に試してみました。 AI が生成したアニメ風の猫娘の画像を入力します。 これをビデオクリップの開始フレームとして使用し、小学生の作文のような簡単なプロンプト語を入力しました (公式プロンプトは英語であるため、ここでは特に中国語のプロンプト語を試しました)。 ご覧のとおり、ビデオ クリップを生成するには現在 4 ポイントが必要です。 効果は4秒間持続します。猫娘は曲線的な笑顔を浮かべていますが、目を細めたりはしません。 この動画には日本語の字幕も付いていたが、文字化けしているようだった。 現時点では、ShengshuはViduのオープンリリースにおけるアニメスタイルに関する詳細な技術情報を公開していません。公式チームが提供しているデモを見てみましょう。 オリジナル画像 1、花に囲まれた青い髪の白い服を着た少年(?)です。 Vidu画像生成ビデオ効果、持続時間3秒: オリジナル画像 2: ピンクのロリータドレスを着たおさげ髪のかわいい女の子: Vidu画像生成ビデオ効果、持続時間3秒: 他に注目すべき点はありますか?上記の 2 つの機能の他に、部分的にしか公開されていない 4 月にリリースされたバージョンと比較して、Vidu にはどのような改善点がありますか? それは技術的な観点と効果の観点の両方から認識できます。 技術面では、Vidu は推論速度を大幅に向上させました。 Viduは現在、4秒間の動画クリップを30秒で生成できます。これは、業界最速のGen-3(1分)の2倍の速度です。 ユーザーにとって、実際の推論速度は、ユーザー エクスペリエンスの最も直感的な側面です。 処理時間が短くなると、ユーザー エクスペリエンスが向上するだけでなく、同じ時間内により多くのユーザー リクエストを処理できるようになります。 「30秒」という数字については、Viduの公式サイトで直接確認すれば、生成時間が本当にそこまで正確に制御されているかどうかが分かります。あくまでもジェネレータのテストなので、ご自身で時間を計ってみてください(冗談です)。 効果の面では、Vidu は「高い理解度、より美しい画像、より大きな動き」があると主張しています。 現在、Sora のようなビデオ モデルに対する業界の評価は、主に次の 3 つの主要な側面を中心に展開されています。 意味理解の正確さ、視覚的な魅力、および主題のダイナミクスの一貫性。 Vidu は、これら 3 つの側面のバランスをとることにも努めています。 まず、強力な意味理解能力を備えており、語彙や映画の言語などを理解することができます。 Vidu は、プロンプト内の文字や数字などの単語を正確に理解して生成できるほか、テキスト効果も生成できます。 Vidu は、一人称視点やタイムラプス撮影などの映画言語を正確に理解し、表現することもできます。 ユーザーはプロンプトを改良するだけで、ビデオの制御性を大幅に向上させることができます。 特に複雑なシーンを含むビデオでは、Vidu は動いている被写体をシーンから非常にうまく分離することができます。 たとえば、前景と背景を分離し、フレーム内の重要でないオブジェクトの動きを制御し、主要な被写体の動きをより良く生成することで、画像のリアリティを効果的に高めることができます。 第二に、ダイナミックレンジが大きく、指定された動作を正確に理解し、本体の可動範囲が大きいのが特徴です。 大きく正確な動きは、動画のストーリーや登場人物の感情をよりよく表現するのに役立ちます。 可動範囲が広くなると、映像が乱れやすくなります。そのため、滑らかさを優先して可動範囲を犠牲にしているモデルもあります。 さらに、ビジュアルも優れており、Vidu は「映画のような品質と映画レベルの特殊効果生成」を誇っています。 具体的には、Vidu は構成、物語、照明の面で高品質のビジュアルを追求します。 SF、サスペンス、西部劇、ロマンスなどのジャンルの映画スタイルのクリップを生成できます。 さらに、Vidu は映画品質の特殊効果を生成することもできます。 拡散する煙やまばゆい光の効果、さらには細かい肌の質感や材質の効果など、これらはすべてポストプロダクションの CG 効果です。 もう一つさて、たくさんのビデオを見た後、Vidu の効果と速度について、皆さんは大体理解していると思います。 Viduは本日午前10時に正式リリースされました。ご利用には登録が必要です。 ぜひ、コメント欄で率直な実践体験を共有してください。 最後に、最近リリースされた AI ビデオ ツールが非常に多いため、QuantumBit ではそれらの包括的な比較レビューを実施する予定です。 何か良いプロンプトのアイデアがある場合、またはプロジェクトが惨めに失敗している例に気付いた場合は、QuantumBit と気軽にチャットしてください。 |
清華大学のSORAが全世界で利用可能になりました!アニメをテーマにしたコンテンツに特別対応し、登録してすぐに使えるので、順番待ちなしですぐに使えます。
関連するおすすめ記事
-
2024年版AIGC業界パノラママップとレポートを公開
-
GPT-4o を超えました!Alibaba は、リアルタイムのビデオ対話をサポートする、最も強力なオープンソース マルチモーダル モデルである Qwen2-VL をリリースしました。
-
純粋に数学的な手法により、量子もつれが突然消える可能性があることが証明されました。MITの科学者たちが意図せずこの証拠を提供してしまったのです。
-
AlphaFold3の国産初版がリリース!優れた高分子予測精度、すぐに使えるオンラインプラットフォーム、そして圧倒的な推論コストを誇ります。
-
速報!世界最速GPU、RTX 5090が14,000元を超える価格で正式に発表されました。不具合のある5090 Dの中国版の価格は16,000元を超えています。
-
iPhone 16シリーズ全機種に、最強の3nmチップを搭載!初のAIネイティブスマホで、物理ボタンが最大の魅力。