618ZXW

本日より、AI動画で漢字生成も可能になりました!この例では「滕王閣序文」が見事に再現されています。

漢字生成の課題は、AI ビデオ生成によってついに克服されました。

早速、結果を見てみましょう。

ビデオリンク: https://mp.weixin.qq.com/s/fI..._OjtLzGj6ql-g?token=1827059726&lang=zh_CN

「福」という文字は、AIによって一筆一筆、鮮やかに丁寧に描かれました。

次の例では、プロンプトは次のようになります。

ビデオリンク: https://mp.weixin.qq.com/s/fI..._OjtLzGj6ql-g?token=1827059726&lang=zh_CN

しかし、まだ少し単調なので、難易度を上げてみましょう。

ビデオリンク: https://mp.weixin.qq.com/s/fI..._OjtLzGj6ql-g?token=1827059726&lang=zh_CN

さて、サイバー広告を少しやりました。

単語数をさらに増やしたら、AIは対応できるでしょうか?

直接挑戦してみましょう:

水彩画風のオーバーレイイラストで、3匹の愛らしい子猫が大きな魚を担ぎ、右から左へと移動する様子が描かれています。子猫たちはそれぞれピンク、ブルー、イエローのベストを着て、つぶらな瞳で、無邪気で愛らしい表情をしています。子供らしい魅力に溢れ、シンプルな線画の中に繊細さと温かさが感じられるイラストです。純白の背景には、「魚たちと過ごす、のんびり楽しい一日」という文字が徐々に浮かび上がってきます。

ビデオリンク: https://mp.weixin.qq.com/s/fI..._OjtLzGj6ql-g?token=1827059726&lang=zh_CN

ご覧のとおり、このビデオには小さな欠陥(「摸」という文字に余分な画がある)がありますが、プロンプトの内容を概ね再現しています。

もちろん、複雑な中国語の文字を処理できるのであれば、この AI は英語の単語も生成でき、さらには複雑な種類の単語も生成できます (中国語バージョンは下記)。

ビデオリンク: https://mp.weixin.qq.com/s/fI..._OjtLzGj6ql-g?token=1827059726&lang=zh_CN

それで、この AI とは一体何なのでしょうか?

早速ですが、Alibaba Tongyi Wanxiangがアップグレードした 2 つの新しいビデオ世代モデルをご紹介します。

  • Tongyi Wanxiang 2.1 Speed ​​Edition :AIがビデオを効率的かつ迅速に生成できるようにします。
  • Tongyi Wanxiang 2.1 プロフェッショナル エディション: AI ビデオ生成の品質にさらに重点を置いています。

モデル全体を体験してみると、モデルの全体的なパフォーマンスが大幅に向上したことをはっきりと感じることができます。

特に、複雑な動きの処理、実際の物理法則の復元、映画やテレビの品質の向上、指示のコンプライアンスの最適化に役立ちます。

新バージョンのTongyi Wanxiangは権威ある評価ツールVBEnchで84.70%のスコアを獲得し、Gen3、Pika、CausVidなどの国内外のビデオ生成モデルを上回ったことがわかった。

しかし、公平に言えば、漢字を生成できることは、すべての意味を理解する能力の全体的な向上の 1 つの側面にすぎません。

次に、ビデオ生成におけるその他の機能を見てみましょう。

『滕王閣序文』は理解できました。

この新しくアップグレードされたモデルは単なる PowerPoint プレゼンテーションではなく、すでにライブになっていることに注意してください。

今なら誰でも無料でオンラインで体験できます。エントリーポイントとモデルの選択は以下の画像をご覧ください。

開発者や企業の場合は、Alibaba Cloud Bailian 上の API を呼び出して、独自のカスタム アプリケーションを作成することもできます。

これまでの AI 生成ビデオのほとんどは、振り向くなどの複雑な人間の動きを扱うときに、歪んだり不自然な結果になったりすることが多かったことを考えると。

すぐに難易度レベルにジャンプして、超複雑なこと、つまりBreaking にチャレンジしてみましょう。

プロンプトを聞いてください:

屋内で、カメラはグレーのシャツと緑のパンツを着た外国人男性がブレイクダンスを踊る様子を映し出す。カメラは、彼がステージ上で回転や宙返りを繰り返しながら、その動きを追う。背景には観客とぼやけた舞台照明が見えるが、焦点はダンサーの動きにしっかりと固定されている。

ご覧の通り、このAI生成動画は、これまでの奇抜で不条理なスタイルとは一線を画しています。数々の複雑なアクションにもかかわらず、キャラクターの見た目は安定しています。

ダイビングを見てみましょう:

甲の部分など細かい部分も丁寧に仕上げられています。

連続的かつ複雑な動きにおける安定性の提供に加えて、現実の物理法則を再現することも、AI ビデオ生成の品質を評価するための重要な指標の 1 つです。

『滕王閣序文』を試してみましょう。

夕焼けが輝き、一羽の雁が一緒に飛び立ち、秋の水面が広大な空と見事に溶け合います。

新しいバージョンの『同義万象』がこの詩の芸術的概念を非常によく理解していることは容易にわかります。

肉を切るといった動作に直面すると、物理法則がさらに明らかになります。

スライスした時の肉塊の自然な離れ、包丁の表面の鏡像、肉の底に残る油…細部へのこだわり、細部へのこだわり。

AI を使用してより高品質なビデオ効果を作成する場合、リアリズムに基づいてカメラの動きを構築することは欠かせないスキルです。

これもTongyi Wanxiangなら完璧に対応できます。

例えば、キツネの精霊が踊っている場合、雰囲気を大幅に高めるカメラの動きを使用できます。

映画の中でスポーツカーが谷間を疾走するようなシーンも、車の軌跡を追う複雑なカメラの動きを使って実現できます。

さらに、『同義万象』には、さまざまなスタイルやジャンルを扱えるため、映画のような雰囲気を醸し出すという特徴もあります。

たとえば中世写実的なスタイル:

例えば、漫画やアニメーション:

さらに、生成されるビデオのサイズも選択可能です。

それで次の質問です:

どうやってそれをやったんですか?

全体として、Tongyi Wanxiang はテクノロジーの面で3 段階のイノベーション アプローチを採用しました。

まず、 VAE アーキテクチャと DiT アーキテクチャが連携して目標を達成します

ビデオ VAE は、ビデオ内の膨大な量の情報を効率的に圧縮し、最も重要な特徴を抽出することに長けた「圧縮マスター」と言えます。

ビデオをチャンクに分割し、中間機能をキャッシュすることで、長いビデオの従来のエンドツーエンドのエンコードおよびデコード方法を置き換えます。

この設計の鍵となるのは、ビデオ メモリの使用がチャンクのサイズにのみ関連し、元のビデオの長さには関連しないため、無限に長い 1080P ビデオの効率的なエンコードとデコードが可能になることです。

このメカニズムにより、任意の長さのビデオでの学習が可能になります。実験では、比較的小さなモデルパラメータで、Tongyi Wanxiang VAEは業界をリードするビデオ圧縮および再構成品質を実現することが示されています。

DiT は「時空間キャッチャー」のように機能し、ビデオ内の時空間ダイナミクスを鋭く捉え、ビデオ内のさまざまな要素の時間的および空間的な関係を正確にモデル化することができます。

Tongyi Wanxiang チームは、次の最適化対策を実施しました。

  • 時空間フルアテンションメカニズム: 複雑な動的シーンをモデル化するモデルの能力を強化します。
  • パラメータ共有メカニズム: トレーニング コストを削減しながらモデルのパフォーマンスを向上します。
  • テキスト埋め込みの最適化: テキスト制御が改善され、計算要件が大幅に削減されます。

△Tongyi Wanxiang 2.1ビデオ生成アーキテクチャ図

第二に、超長いシーケンスのトレーニングにおける画期的な進歩があります。

非常に長いシーケンスをトレーニングするという極めて困難な課題に直面したとき、Tongyi Wanxiang チームは、モデルトレーニング用の超強力な「エンジン」を作成するような 4D 並列戦略を巧みに採用しました。

この戦略は、DP (データ並列処理)、FSDP (完全シャーディングされたデータ並列)、RingAttention、Ulysses (最適化技術) などのいくつかの高度なテクノロジーを有機的に統合します。

例えば、メモリ最適化の面では、チームは階層的なメモリ最適化戦略を採用し、シーケンスの長さによってもたらされる計算と通信の要件に基づいてメモリの断片化の問題を解決し、FlashAttention3 を使用して時空間アテンションの計算効率を向上させました。

さらに、冗長な計算と効率的なカーネル実装により、メモリ アクセスのオーバーヘッドがさらに削減されます。

ファイルシステムの最適化に関しては、Alibaba Cloud の高性能ファイルシステムの特性を考慮し、シャード化された Save/Load 方式を採用してデータの読み取りと書き込みのパフォーマンスを最適化し、データローダープリフェッチ、CPU オフロード、チェックポイントストレージによって引き起こされるメモリ OOM 問題を、メモリ使用量をずらすソリューションによって解決しました。

安定性の向上という点では、Alibaba Cloud のインテリジェント スケジューリング、低速マシンの検出、自己修復機能を利用することで、モデル トレーニングで自動障害検出とタスクの再起動を実現でき、トレーニング プロセスの安定性が大幅に向上します。

△ Tongyi Wanxiang 4D並列分散トレーニング戦略

最終的には、データと評価の両方によって推進されます

Tongyi Wanxiangチームは、人間の嗜好分布と高い整合性を持つデータセットを選択・統合しながら、視覚品質と動作品質を最適化する自動データ構築パイプラインを開発しました。これらのデータセットは、高い多様性とバランスの取れた分布を特徴としており、学習効率を大幅に向上させます。

チームはまた、美的評価、動作分析、指示遵守など、複数の側面を網羅した評価システムを設計し、専門の採点者を育成しました。これらの自動化された指標からのフィードバックにより、モデルの反復と最適化が大幅に加速されました。

上記は、新バージョンの Tongyi Wanxiang を改良するための中核となる技術的要素です。

このように、技術革新の面だけでなく、実体験の面でも、国産SORAは再びAIビデオ分野の最前線に到達した。

漢字だけを生成できるという点では、世界でもユニークな存在です。

動画生成の幅広さはまさに「統一万象」の名にふさわしいもので、AI は「あらゆる現象」を生成できる段階に到達しています。

ビデオ形式で紹介したい、想像力豊かなアイデアはありますか?

最新かつ最もファッショナブルなモデルをぜひご体験ください!

直接アクセス: https://tongyi.aliyun.com/wan...

API 呼び出し: https://bailian.console.aliyu...\_\_Z58Z6CX7MY\_\_Ll8p1ZOR.1.74cd59fckLhf3c#/model-market

参考リンク: https://huggingface.co/spaces..._Leaderboard