618ZXW

巨大豆豹模型が再び話題に:Douyinの「AI絵本エフェクト」は11億回以上の再生回数を獲得。

国慶節の連休中、Douyin(抖音)で公開されたAIヒーリング絵本エフェクトは、その温かく美しいアートスタイルと高い忠実度で、数百万件ものユーザー投稿を集めました。ダイナミックな絵本のようなアプローチを採用した「AIヒーリング絵本」エフェクトは、3Dポップアップブック形式を採用した初のエフェクトで、ユーザーが最初に作成した画像を本の表紙として巧みに提示することで、斬新で楽しい体験を生み出しています。このエフェクトを使った投稿をもとに作成されたハッシュタグ「#絵本の温かい主人公になろう」は、11億回以上の再生回数を記録しました。

「AIヒーリング絵本」の特殊効果は、 ByteDanceの豆宝大型モデルの画像生成機能を活用しているようです。技術チームは、複数の独自開発アルゴリズムを通じて、モデルのスタイルへの応答性と視覚的な魅力を向上させ、スタイル効果の表現力を高め、キャラクターの顔立ち、服装スタイル、色彩、アクセサリーといった主要な特徴をより忠実に再現することで、「美しさと類似性」という面で優れた成果を上げています。

より優れたインタラクティブ体験を提供するため、技術チームは独自開発の被写体除去および画像拡大機能を活用し、様式化された結果画像を後処理することで、デバイス上で複数の結果画像を切り替えることができるようにしました。この処理に使用されたIP保護技術「RealCustom」とAI画像拡大・AI除去技術「ByteEdit」は、それぞれCVPR 2024とECCV 2024に選出されました。

RealCustom: 個人の IP アイデンティティを維持しながら、美しくリアルな画像を生成するテクノロジー。

RealCustomは、IP保存とも呼ばれるパーソナライズカスタマイズ技術で、微調整なしで任意のオープンドメインオブジェクトまたはキャラクターIPをリアルタイムでカスタマイズ生成できます。AI絵本では、主に入力画像の特徴を保存します。様式化効果で使用されていた従来の画像特徴保存方法とは異なり、RealCustomは画像の詳細な特徴を復元するだけでなく、画像の抽象的な意味理解も持っています。これにより、テキスト入力に適応的に適応し、より調和のとれた効果を生み出すことができます。被写体の外観をより良く再現するために、RealCustomはマルチレベルの画像情報融合を使用します。視覚情報とテキスト情報をより良く統合するために、RealCustomは適応モジュールを介して視覚とテキスト条件間の整合能力を学習し、異なる時点の状態に基づいて対応する視覚条件を正確に導出します。これにより、多様なユーザー入力を適応的に処理し、画像特性を安定的に保存しながら、美的に心地よい様式化効果を保証します。

RealCustomの論文がCVPR 2024に採択されました。詳細は以下をご覧ください:https://corleone-huang.github...、https://corleone-huang.github...\_plus\_plus/

ByteEdit: AI を活用した画像拡張および削除機能により、より自然で調和のとれた背景塗りつぶしを実現します。

特殊効果は、AI画像拡張とAI除去機能を活用します。AI除去とは、画像から特定のオブジェクトまたは領域を削除し、削除した領域を周囲の背景に基づいてコンテンツで埋めることを指します。一方、AI画像拡張は、指定された拡大率に従って元の画像のコンテンツを拡張します。基本的に、どちらのタスクも既知の画像コンテンツに基づいて周囲の領域を塗りつぶすという点では同じですが、重要なのは、塗りつぶされたコンテンツが元の画像とシームレスに融合するようにすることです。

この目標を達成するために、技術チームはまずトレーニングデータの量を増やし、モデルがより一般的なシナリオを「認識」できるようにしました。さらに、ByteEditはフィードバック学習を活用して生成画像編集タスクを強化する革新的なフレームワークを提案しました。ByteEditは画像報酬モデルを統合することで美的品質と画像とテキストの一貫性を向上させ、出力の一貫性を高めるために高密度のピクセルレベル報酬モデルを導入することで、塗りつぶす領域と塗りつぶさない領域の調和性を高めます。さらに、モデルの推論速度を加速するために、敵対的かつ漸進的なフィードバック学習戦略を提案しました。

ByteEdit は ECCV 2024 に採択されました。詳細は論文のホームページをご覧ください: https://byte-edit.github.io/

さらに、「AIヒーリング絵本」エフェクトでは、ユーザーが複数の画像をアップロードできます。展開段階において、技術チームはこのシナリオに特化したマルチサービス並列ロジックとパフォーマンス加速戦略を別途開発し、トラフィックのピーク時でも、スタイル設定と後処理済みの画像を最短時間でクライアントに返すことを可能にしました。クライアント側で複数の画像を取得した後、チームは独自に開発した3Dブックモーションと影追従アルゴリズムを用いて、本の中の様々なオブジェクトのモーションカーブのパラメータを自動調整します。ページめくりやページ内ポップアップのシミュレーションにおいて、影のエフェクトはページに合わせて自然に動き、ページめくりの立体感と自然さをより一層維持し、エッジシャドウの遷移も比較的滑らかです。

最近、Douyinの特殊効果チームは国慶節の連休中に、同じく心温まる癒し効果のある「黄金秋絵本風特殊効果」を配信しました。投稿された特殊効果の数は100万件を超え、関連トピックの閲覧回数は1億8000万回を超えました。

Doubao Big Modelは、ByteDanceが自社開発した大規模言語モデルであり、ByteDanceのクラウドサービスプラットフォームVolcano Engineを通じて企業に提供されています。現在、Doubaoモデルファミリーは、言語、音声、画像、動画など、あらゆるモダリティを包括的にカバーしており、さまざまな業界や分野のビジネスニーズに完全に応えています。