|
皆さん、国産車SORAについてお話しましょう。 7月のたった1ヶ月間で、その「成長率」がニュースの見出しを独占していました。 Keling、PixVerse V2、Qingying、Vidu... AI ビデオ生成ソフトウェアの選択肢が多岐にわたる中で、皆さんも私と同じように感じていると思います。 最初の反省の後、すぐに一つのアイデアが思い浮かびました。 どちらの国産ソラが優れているか比較検討するために、これらをまとめてみてはいかがでしょうか? 早速始めましょう。まずは出場者を簡単に紹介しましょう。
今回の戦いは、画像ベースのビデオとテキストベースのビデオという 2 つの主要なトラックを中心に展開され、風景、動物、人物、さらにはミームなど、さまざまな生成機能のテストも含まれます。 各参加者にとって、テストは最終的な成果物の品質だけでなく、ビジュアルの一貫性や、与えられたプロンプトに準拠しているかどうかなど、より詳細な側面について行われます。 次に、QuantumBit の直接テスト結果を紹介します。 第1ラウンド:画像ベースのビデオこの最初のチャレンジでは、画像からビデオを作成する出場者の能力をテストしましょう。 いつものように、ゲームは 1 つの画像と短いプロンプトのみで始まります。本物の体験を確実にするために他のアクションは必要ありません。 古典的なミーム ミームといえば、 「Empresses in the Palace (甄嬛传)」に触れずにはいられません。 まず、各出場者に次の画像を見せましょう。 次に、簡単なプロンプトを表示します。 ジェン・フアンはゆっくりとサングラスをかけた。 ビデオリンク: https://mp.weixin.qq.com/s/C7...\_-7jcJwUoO0NTdw まず、サングラスをかけているところを詳しく見てみると、サングラスの物理的なオブジェクトを完全に生成しているのは Keling だけです。 Qingying と Vidu が生成したサングラスは、私たちが慣れ親しんでいるサングラスとは異なり、透明です。 PixVerse V2 に関しては、何も生成されませんでした。 第二に、自然さの観点から見ると、柯玲が描いたジェン・フアンが頭を下げてサングラスをかけている姿は、現実の論理に沿っており、最も自然なものに属しています。 Qingying と Vidu では、Zhen Huan のサングラスの位置が少し高くなっています。また、Qingying では 6 本の指が生成されます。 したがって、ミームの競争では、ケリングが明らかに勝利します。 衝撃的なSF大作 次に、AIの想像力をテストしてみましょう。 プロセスは同じです。まず、終末後のシーンの画像を「フィード」します。 今回は、プロンプトに含まれる「プロット」がもう少し複雑になります。たとえば、次のようになります。 最後の有人宇宙船が脱出したとき、虹色の風船が舷窓からスローモーションで漂っていった。 4 人の出場者の生成された結果を見てみましょう。 ビデオリンク: https://mp.weixin.qq.com/s/C7...\_-7jcJwUoO0NTdw この戦いの結果は明らかだ。 最も適切なプロンプトは PixVerse V2 です。ここでは爆発シーンが続くだけでなく、虹色の風船も浮かんでいます。 次に、ケリンですが、風船が突然、奇妙に現れ、色は紫の単色のみでした。 Qingying 側では、風船が生成される代わりに、不可解なことに虹のクラスターが現れました。 しかし、ヴィドゥは最悪の被害を受け、まったく何も撮影できなかった。ただ、遠くの爆発する雲の中にぼんやりと虹色を捉えたように見えた。 PixVerse V2がこのゲームに勝利しました! 古い写真が生き返る 最後のビデオテストでは、古い写真を復活させてみました。 プロンプトは次のようになります。 子供は振り向きながら手を叩いた。 結果を見てみましょう: ビデオリンク: https://mp.weixin.qq.com/s/C7...\_-7jcJwUoO0NTdw はい、全員全滅しました。 拍手しない人は拍手しないし、拍手する人は基本的に全員グロテスクです。 しかし、Viduの効果はわずかに優れています。重要な「拍手」アクションが完成しただけでなく(まだいくつかのフレームは間違っていましたが)、雨のエフェクトも追加され、「雨の中で遊んでいる子供たち」のような印象を与えます。 AIは人間の手を処理する上で依然として大きな課題に直面しているようです。 このラウンドでは、 Vidu のパフォーマンスが比較的良好でした。 最後に、簡単にまとめると次のようになります。 第2ラウンド:文勝ビデオ画像ベースのビデオの後は、次の主要カテゴリであるテキストベースのビデオに進みます。 同様に、このセクションでは、各 AI 参加者の強さを複数の異なる側面からテストするためのサブプロジェクトもいくつか設定しました。 ソラの同じプロンプトまずは公式サイトに掲載されているのと同じプロンプトを使って、動画編集の元祖とも言えるSORAとの効果を比較してみましょう。 たとえば、最も古典的な「ソラガール」 : 温かみのあるネオンと活気あふれる街の看板で彩られた東京の通りを、スタイリッシュな女性が歩いている。黒いレザージャケット、赤いロングドレス、黒いブーツを羽織り、黒いハンドバッグを持っている。サングラスと赤い口紅を塗っている。自信に満ちながらもカジュアルな雰囲気だ。通りは湿っぽく、光が反射して、色とりどりの光が鏡面のように映り込んでいる。多くの歩行者が行き交っている。 ビデオリンク: https://mp.weixin.qq.com/s/C7...\_-7jcJwUoO0NTdw どのエフェクトもソラほどリアルではありませんが、それぞれ独自のスタイルと特徴を持っています。 たとえば、Keling と Vidu のキャラクターはより自然に歩き、PixVerse V2 のキャラクターは顔の一貫性が向上し、Qingying は全体的な画像の色彩がより豊かです。 ワンショット 次に、AI 参加者が生成した映像の一貫性をテストするために、複雑なワンショットプロンプトを提示します。 「都会の公園の朝」というタイトルの動画を作成してください。ワンテイク撮影を使用し、公園の入口からゆっくりとズームインして、朝日に照らされた公園を捉えます。カメラは滑らかに動き、以下の要素を順番に映します。1. 公園入口の看板。木漏れ日が木漏れ日の光と影のコントラストを生み出しています。2. ジョギングをする人々の表情からは、エネルギーと活力が溢れています。3. ブランコや滑り台で遊ぶ子供たちの遊び場。笑い声が会場を満たしています。4. 最後に、カメラは公園の出口の反対側に戻り、動画を終了します。 ビデオリンク: https://mp.weixin.qq.com/s/C7...\_-7jcJwUoO0NTdw 結果から判断すると、参加者全員が大規模なシーンで優れたパフォーマンスを発揮し、本物そっくりの公園や木々を作成することができました。 しかし! 出場者全員が、自分のキャラクターに関して間違いを犯しました。歪んでいたり、消えていたり、空想的だったり… 閉じる 一貫性を実現した後、AI がクローズアップ ショットを処理できるかどうかを確認するために、クローズアップ ショットのテストを続けました。 このアニメーションシーンは、ピンク色のふわふわした小さなモンスターが大きなチーズを食べている様子を描いています。3Dスタイルなので、細部までこだわって描く必要があります。モンスターの表情は喜びに満ちており、遊び心と無邪気さが伝わってきます。温かみのある色調と間接照明も重要です。 ビデオリンク: https://mp.weixin.qq.com/s/C7...\_-7jcJwUoO0NTdw このテストでは、PixVerse V2 の歪みを除けば、他の 3 つの競合製品はすべて、一貫性と画像の豊かさの点で非常に優れたパフォーマンスを発揮しました。 多科目 最後に、出場者が 1 つのビデオで複数のテーマを扱えるかどうかをテストしてみましょう。例: 冬、父、母、娘の3人家族が暖炉の暖かさにあたりながら、ソファーに座り、隣で猫を眠らせるという心温まる光景でした。 動画リンク: https://mp.weixin.qq.com/s/C7...\_-7jcJwUoO0NTdw アートスタイルに関しては、柯玲だけが「暖かさ」を白黒スタイルとして解釈しましたが、他の3人の出場者のアートスタイルはプロンプトに沿ったものでした。 Vidu は中国系家族を生み出した唯一のものです。 しかし、プレイヤーの誰も、プロンプトの 4 人のメインキャラクター、つまり 3 人の人間と 1 匹の猫を完全に生成することができませんでした。すべてのキャラクターに、ある程度の要素が欠けていました。 同様に、ここで要約してみましょう。 これで、この AI ビデオ生成の評価は終了です。 それで次の質問です: 国内のAI生成ビデオプロバイダーの中で最高のものはどれですか?上述の効果に加えて、競争のもう一つの側面である生成速度を見てみましょう。 私たちは、画像ベースのビデオとテキストベースのビデオという 2 つの主要なトラックで、各参加者と各ケース スタディの生成時間を分析しました。 驚くべきことに、新人のViduはどのトラックでも1分もかからずプレイし、 「インスタント世代クラブ」に入る唯一のプレイヤーとなった。 残りの3人のうち、Qingyingの生成速度は他の2人よりも速いです。また、Qingyingの動画の長さは6秒であるのに対し、他の2人は5秒であることも注目に値します。 Coring と PixVerse V2 に関しては、PixVerse V2 の方が全体的に高速です。 まとめると、全体的な生成速度は次のようにランク付けされます。 Vidu > Qingying > PixVerse V2 > Keling ただし、その機能に関して言及する価値のある詳細がいくつかあります。 たとえば、PixVerse V2 はビデオの長さを 8 秒まで無料で延長できます。Keling は 10 秒まで延長できますが、高性能モードはサポートされていません。Qingying と Vidu の長さは固定です。 生成できる回数に関して言えば、Qingying は非常に圧倒的で、まったく制限がありません。 他の 3 人のプレイヤーは全員ポイント システムを使用しました。
... 最後に、ビデオ生成の品質、速度、機能性など、あらゆる側面を考慮すると、現時点ではどの国産 Sora が最も強力かを判断することは不可能であり、それぞれに長所と短所があります。 これら 4 台の車両をもっと詳しく体験してレビューしたい場合は、テスト ドライブへのリンクを以下に示します。テストが終わったら、ぜひ戻ってコメントを残してください。 クリング体験アドレス:https://klingai.kuaishou.com/... PixVerse V2 デモアドレス: https://app.pixverse.ai/home Qingying のビデオはこちらをご覧ください: https://chatglm.cn/video Vidu デモのアドレス: https://www.vidu.studio/ |
国産SORA製品が1ヶ月で4機種登場:「Clap Hands」(中国の人気携帯電話ブランド)は総じて失敗 | 総合レビュー
関連するおすすめ記事
-
北京人工知能研究院(BAAI)は、2025年のAI技術トレンドトップ10を発表しました。
-
OpenCity の大規模交通予測モデルは、香港大学と Baidu の協力により、ゼロショット シナリオで非常に優れたパフォーマンスを発揮します。
-
世界初の AI 搭載ストリーミング音楽アプリが登場! 中国製。
-
Xiaomi はインテリジェント運転への投資に上限を設けず、「史上最強のパフォーマンス」を実現しています。
-
なぜ大企業はオープンソースとクローズドソースのどちらかを選ぶのでしょうか?
-
マルチモーダルでオープンソースのLlama 3.2が登場!ARグラス開発者のJensen Huang氏がいち早く体験し、Quest 3Sヘッドセットは驚くほど低価格です。