|
11月11日、ByteDanceはDoubao Big Model Teamの公式サイトで、最新の汎用画像編集モデル「SeedEdit」を発表しました。SeedEditは、たった一言で画像編集を簡単に行うことができ、レタッチ、衣装の変更、美化、スタイルの変換、指定領域への要素の追加・削除など、様々な編集操作が可能です。このモデルは、簡単な自然言語であらゆる画像を編集することができます。 現在、このモデルはDoubao PCクライアントとJimengウェブクライアントでテストされています。Doubaoが画像を生成した後、ユーザーは「編集を続ける」ボタンをクリックし、簡単なテキストコマンドを入力することで、画像の背景や被写体を簡単に調整でき、ワンラインで画像を編集できます。例えば、「草原を走る子犬」の画像を生成した後、「背景をビーチに変更する」などのコマンドを直接入力することで、元の画像をベースに少し修正した画像を作成できます。 また、ユーザーは参考画像をアップロードし、Doubao PC や Jimeng の画像生成機能を使用して二次加工を行うこともできます。 SeedEditは、中国で初めて商用化された汎用画像編集モデルです。これまで、テキストから画像への編集や画像から画像への編集といった分野では学術界で多くの研究が行われてきましたが、生成された画像に対するコマンドの効率的な編集は常に課題でした。二次的な修正では、安定性と品質が保証されることがほとんどなかったためです。今年、Dalle3とMidjourneyが相次いで商用化された画像編集機能をリリースし、従来の業界ソリューションと比較して編集画像の品質が大幅に向上しました。しかしながら、ユーザーの編集コマンドに正確に応答し、元の画像情報を保持する能力は依然として不足しています。 ByteDance Doubao Big Model チームは、画像編集タスクの鍵は、「元の画像の保存」と「新しい画像の生成」の最適なバランスを実現することにあると述べており、この概念はモデルの設計と最適化のプロセス全体に貫かれています。 報道によると、SeedEditはモデルデータ生成において、データ不足の問題に対処するためにモデルアーキテクチャを再設計し、マルチモデル、マルチスケール、マルチスタンダードのデータ生成ソリューションを採用することで、データ量、データの多様性、データ品質といった問題を大幅に解決しました。画像編集タスクに特化したモデルとして、SeedEditは汎用性、制御性、高品質において飛躍的な進歩を遂げました。 これまでの業界技術は、表情、髪型、背景の削除や置き換え、スタイル調整のためのワークフローの設定など、個々の専門的タスクに最適化されていました。新しい編集タスクごとに、トレーニングと開発のための関連データの収集が必要でした。しかし、SeedEditは、様々な編集タスクに適用可能な汎用的な画像編集モデルであり、ユーザーの創造的なアイデアをサポートし、追加のトレーニングや微調整なしにすぐに適用できます。業界の類似手法(EMU EditやUltra Editなど)と比較して、大幅に優れたパフォーマンス指標を実現しています。 HQ-Edit などのベンチマークテストでは、SeedEdit は比較的曖昧な指示を理解し、詳細な編集を行う際の画像保存率と成功率が高いことが示されています。 日常的なタスクにおいても、SeedEditはエキスパートモデルよりも優れた点がいくつかあります。例えば、背景の除去や置換といったユーザーがよく利用する画像セグメンテーションタスクにおいて、SeedEditが生成する画像は自然なスタイルで、「テクスチャのような」外観がありません。また、局所的なスミアリング、編集、要素の追加、削除といったタスクでは、SeedEditは言語でスミアリング処理を指定できるため、特にひび割れや髪の毛といった比較的細かい領域において、ユーザーの作業時間を大幅に節約します。 写真のイチゴをレモンに置き換えてください。 一方、SeedEdit は、革新的なモデル アーキテクチャと、マルチスケール、マルチルールのデータ取得、構築、フィルタリング スキームを通じて、ユーザーの意図をより深く理解し、拡散画像モデルと整合させることができるため、高品質の画像生成結果を維持しながら画像編集の精度を大幅に向上させることができます。 要件は、ひび割れを除去して画像をよりきれいにすることです。 SeedEditはDoubaoテキスト画像変換モデルをベースとし、現在中国語と英語の両方の入力をサポートし、中国語の慣用句や固有名詞にも正確に対応しています。今後、SeedEditは複数回の複雑な編集機能も実現する予定です。 Doubao Big Modelチームは、SeedEditによるモデル生成画像への編集効果は、入力された実画像よりも優れているものの、より複雑で精緻な制御には依然として改善の余地があると述べています。今後、SeedEditは実画像忠実度、ID保存、編集精度、長期的なストーリーやコミックスタイルのコンテンツ生成といった側面をさらに最適化・探求し、編集の使い勝手とユーザーエクスペリエンスを向上させ、ユーザーがより効率的に、より魅力的なコンテンツを作成できるよう支援していきます。 |
ByteDance の SeedEdit ユニバーサル画像編集モデルがテスト用にリリースされ、ユーザーはたった 1 つの文で簡単に画像を編集できるようになりました。
関連するおすすめ記事
-
OpenAIの元CTOは自身のビジネスを立ち上げるために7億元を調達したと報じられており、彼の採用戦略は当初、元雇用主から優秀な人材を引き抜くことだった。
-
デモを一足先にご覧ください!分子レベルからゲノムレベルまでの予測と生成を可能にする基礎ゲノムモデル「Evo」がScience誌の表紙を飾ります。
-
サム・アルトマンの最新記事: 数千日後には人類は知性の時代に入るだろう。
-
マスク氏:これは歴史に残る日となるでしょう!
-
上海交通大学の Hong Liang 氏へのインタビュー: 科学のための AI の導入が成功したときに、最大の達成感が得られます。
-
スター揃いの新車スタートアップ企業の「死の記録」:顧客の車を修理するために部品を盗み、初納車からわずか1年で倒産