618ZXW

武漢紡織大学ビジュアルコンピューティング・デジタルテキスタイル学部のチームが、マルチステッチ刺繍用の初の生成敵対的ネットワークモデルを発表しました。このモデルは、刺繍パターンをインテリジェントに生成することが可能です。このモデルは、トップジャーナルであるTVCGに受理されました。

春の庭に刺繍が施され、柳の枝にコウライウグイスが集まってきます。中国の刺繍芸術は、重要な無形文化遺産の代表として、長い歴史と精緻な技術を誇ります。職人たちは様々なステッチと色とりどりの絹糸を用いて、豊かなテーマの模様を刺繍布に鮮やかに表現します。かつて、刺繍は複雑で高度な技術を要する工芸であり、熟練した職人の知識と実践経験を必要としていました。近年、畳み込みニューラルネットワーク(CNN)は、画像分類、物体検出、画像生成、スタイル転送などのタスクにおいて強力な能力を発揮しています。研究者たちは、CNNを用いて画像内の刺繍の特徴を合成する研究も始めています。

しかし、刺繍は複雑なステッチ、テクスチャ、立体感に加え、微細なディテールや不規則な模様も含んでいるため、CNNによる刺繍の特徴の合成には限界があります。例えば、CNNは異なる糸の種類を予測することができないため、糸の特徴を効果的に抽出することが難しく、一貫性のある自然な刺繍模様を生成することができません。そのため、デザイナーは依然として糸の種類とそれに対応する色を手動で選択・調整する必要があり、望ましい効果を得るまでにかなりの時間を費やすことになります。

この問題を解決するため、武漢紡織大学コンピュータサイエンス・人工知能学院のビジュアルコンピューティング・デジタルテキスタイルチームは、マルチステッチ刺繍用の生成敵対的ネットワークモデルであるMSEmbGANを提案しました。MSEmbGANは、刺繍における質感のリアリティや色の忠実度といった重要な側面の精度を向上させ、CNNをベースとした生成敵対的ネットワークモデルとして初めて、刺繍の特徴を予測することに成功しました。

関連研究「MSEmbGAN:領域認識テクスチャ生成によるマルチステッチ刺繍合成」が、上海交通大学コンピュータサイエンス・エンジニアリング学院の盛斌教授を責任著者として、IEEE Transactions on Visualization and Computer Graphics(TVCG)に受理されました。TVCGはコンピュータ可視化分野のトップクラスのジャーナルであり、中国コンピュータ連合会(CCF)によってクラスAジャーナルに分類されています。

研究のハイライト:

  • MSEmbGAN は、さまざまなステッチのテクスチャと色を含む多針刺繍画像を正常に合成した最初の学習ベースのモデルです。
  • 2 つの協調サブネットワークが提案されています。1 つは、刺繍テクスチャの多様性とステッチ特徴の精度を確保するための領域認識テクスチャ生成ネットワークです。もう 1 つは、入力画像と出力画像間の色の一貫性を確保するためのカラーリング ネットワークです。
  • これまでで最大の多針刺繍データセットを作成し、単針と多針のラベルで詳細に注釈を付けた最初の刺繍データセットでもあります。

論文の宛先:
https://csai.wtu.edu.cn/TVCG01/index.html

データセットのダウンロードアドレス:
https://go.hyper.ai/Jmj9k

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

データセット: 30,000 枚以上の画像が含まれており、現在までに知られている最大の刺繍データセットとなっています。

研究者たちは、プロ仕様の刺繍ソフトウェア(Wilcom 9.0)を用いて、刺繍画像とそれに対応するコンテンツ画像を含む3万枚以上の画像を作成しました。すべての画像は256×256の解像度にリサイズされました。このマルチステッチ刺繍データセットはオープンソース化され、この分野の他の研究者に利用可能となります。

マルチステッチ刺繍データセットの画像には、3種類のシングルステッチタイプと1種類のマルチステッチタイプ(3種類のシングルステッチタイプの混合)に対応する4種類のタグが付けられていることに注目すべきです。3種類のシングルステッチタイプとは、サテンステッチ、タタミステッチ、フラットステッチです。

これは、13,000 枚を超える位置合わせされた刺繍画像と 17,000 枚を超える位置合わせされていない画像を含む、シングルニードルとマルチニードルのラベルで詳細化された最初の刺繍データセットであり、現在までに知られている最大の刺繍データセットとなっています。

多針刺繍データセットのイメージ図

マルチステッチ刺繍データセットを作成する手順は次のとおりです。

  • コンテンツ画像の作成:刺繍パターンを作成する前に、刺繍師は刺繍の色情報を含むコンテンツ画像をテンプレートとして作成する必要があります。多くのコンテンツ画像は色がシンプルで形状が明確なため、Web接続の速度が向上します。
  • ステッチデザイン:異なる形状のコンテンツ画像の場合、各領域を塗りつぶすステッチを選択する必要があります。刺繍デザイナーは、各領域の形状に応じて適切なステッチタイプを選択します。さらに、各ステッチの関連パラメータ(間隔や方向など)は、後続の刺繍レンダリングタスクのために適切に設定する必要があります。
  • 刺繍データセットの作成: 刺繍デザイナーは、プロの刺繍ソフトウェア (Wilcom 9.0) を使用して、刺繍パターンをデザインおよび作成し、対応する刺繍画像をレンダリングします。

多針刺繍データセットにおける異なるラベルのデータ分布

モデル アーキテクチャ: 領域認識テクスチャ生成ネットワークとシェーディング ネットワークの 2 つのサブネットワークで構成されます。

MSEmbGAN モデルは、まず入力画像領域内のステッチ タイプを識別し、識別されたステッチ タイプに基づいて対応する刺繍テクスチャを生成し、最後に結果の全体的な色を最適化します。

上記の機能を実現するために、研究者らは 2 つのサブネットワークを提案しました。領域認識テクスチャ生成ネットワーク (下の図のオレンジ色のボックスを参照) とカラー化ネットワーク (下の図の黄色のボックスを参照) です。

MSEmbGANモデルアーキテクチャ

領域認識テクスチャ生成ネットワークは、ステッチ分類モジュール(上記画像の青い枠内)とステッチ潜在コード生成モジュール(上記画像の緑の枠内)で構成されています。領域認識テクスチャ生成ネットワークは、入力画像C内の複数の色領域を検出し、各局所色領域の形状特徴に基づいて、グレースケールのシングルニードル刺繍画像を生成します。カラーリングネットワークサブネットワークは、画像全体をさらに洗練させ、生成されたマルチニット生地画像の色が入力画像の色と一致するようにします。

領域認識型テクスチャ生成ネットワークの複雑さのため、研究者らは2段階に分けて学習させた。第1段階は、再構成ネットワークを用いて刺繍テクスチャを生成し、元の画像の特徴を可能な限り保持することだった。第2段階は、事前ガウス分布を用いて色情報を再構成し、データセットなしで刺繍画像を生成することだった。

領域認識テクスチャ生成ネットワークの2つのトレーニングステップ

研究結果: MSEmbGAN は、現在利用可能な最も高度な刺繍合成およびスタイル転送方法よりも優れています。

MSEmbGAN モデルのパフォーマンスを評価するために、研究者は定量的および定性的な方法、ユーザー フィードバック調査、アブレーション実験の 4 つの方法を使用して評価を実施しました。

定量評価

定量評価では、研究者らは構築された多針刺繍データセットに基づいて、Pix2Pix、CycleGAN、MUNIT、DRIT++などのスタイル転送手法を比較しました。下表に示すように、研究者らは比較結果を定量化し、学習知覚画像パッチ類似度(LPIPS)とフレシェ開始距離(FID)を計算しました。

テスト データセット全体における実際の画像と生成された刺繍画像間の平均 LPIPS 距離と FID 距離は、4 つの比較方法、2 つのアブレーション モデル、および MSEmbGAN モデルを使用して計算されました。

結果は、MSEmbGANが他の手法と比較してLPIPS距離が低いことを示しており、これはMSEmbGANによって生成された刺繍画像が実際の刺繍画像に知覚的に近いことを意味します。さらに、研究者らはFIDを用いて生成された刺繍画像と実際の画像の特徴分布を測定し、FIDスコアを評価しました。その結果、 MSEmbGANによって生成された刺繍画像が実際の画像に最も近いことが示されました。

定性評価

定性評価では、研究者らは領域認識型テクスチャ生成ネットワークを用いることで、刺繍の質感のリアルさと色の忠実性を維持し、MSEmbGANが非常に多様な刺繍の質感を生成することを可能にしました。その結果、MSEmbGANは質感と色の両方において既存の手法を凌駕することが示されました。MSEmbGANによって生成された質感はよりリアルな刺繍の質感に近く、色は入力画像の質感に近いことが示されました。

MSEmbGANと他の4つのスタイル転送方法によって生成された刺繍画像の比較

ユーザーフィードバックアンケート

ユーザーからの主観的なフィードバックを得るために、研究者たちはMSEmbGANモデルと他の4つの手法を用いて処理された14枚の画像を用意しました。25人の被験者は、生成された各画像に以下の基準に基づいて1から5の点数を付けました。

  • 刺繍の品質: 生成された画像が刺繍に関連する特徴と鮮明なテクスチャを備えているかどうか。
  • 色品質: 入力画像と生成された画像間の色の類似性。
  • 画像品質: テクスチャの歪み、色の変化、高周波ノイズ、その他のアーティファクトの程度。

研究者たちは5,250件の評価を収集し、各基準の平均値と標準誤差を計算しました。以下の表に示すように、スコアが高いほど、生成された刺繍画像の品質が高いことを示しています

結果は、 MSEmbGAN が 3 つの基準すべてを上回り、他の方法と比較して全体的なパフォーマンスがより安定していることを示しています。

アブレーション実験

さらに、研究者らは 2 つのアブレーション実験を実施しました。まず、縫合糸分類器と縫合糸潜在コード生成器の役割を検証し、次にカラーリング ネットワークと色の一貫性制約の役割を検証しました。

下の図に示すように、(a)は入力画像、(b)はステッチ分類器C(reg)と隠しコードジェネレータG(slc)を削除した後に生成された刺繍画像、(c)はカラーリングネットワーク(CN)と色一貫性制約(CC)を削除した後に生成された刺繍画像、(d)は完全なMSEmbGANを使用して生成された刺繍画像を表しています。

アブレーション試験結果

アブレーション実験の定量的結果

アブレーションの結果、ステッチ分類器とステッチコード生成器がない場合、ネットワークによって合成された刺繍画像は単調なテクスチャスタイルを示し、マルチステッチパターンの特徴を保持していないことが示された。さらに、テクスチャ生成プロセスは不安定で異常である。

同様に、カラーリングネットワークと色の一貫性制約を削除すると、MSEmbGANによって合成された刺繍結果は色の特徴を維持できず、大きな色の変化が生じます。つまり、生成画像と入力画像の色分布に大きな差が生じます。

コンピュータ技術と繊維・アパレル産業の深い融合を貫くことにより、多くの分野で大きな成果が達成されました。

武漢紡織大学コンピュータサイエンス・人工知能学院のビジュアルコンピューティング・デジタルテキスタイルチームは、長年にわたりコンピュータビジョン、バーチャルリアリティ、マルチモーダルラーニング、インテリジェントコンピューティングの研究に取り組んできました。一貫してコンピュータ関連技術と繊維・アパレル産業を融合させ、スマートウェアラブル、インテリジェントファッションデザイン・レコメンデーション、ファブリックデジタルツインとインテリジェントコンピューティング、バーチャル試着などの分野で一連の成果を上げています。TVCG 、IoT、TCE、KBS、WWWなどのハイレベルなジャーナルや、CCF推奨の国際会議で100本以上の学術論文を発表しています。チームの最近の研究成果の一部は次のとおりです。

既存のバーチャル試着手法では人体と衣服の関係性が考慮されていないため、衣服の質感が歪んでしまうという問題がありました。そこで、研究チームは極めてリアルな3Dバーチャル試着ネットワーク「H3DVT+」を提案しました。このネットワークは、人と衣服の全体的な関係性を構築し、衣服を自然な試着に適した空間分布に変換することで、衣服の3D形状に関する事前情報をより正確に推定し、衣服を着用した詳細な3D人体モデルを作成します。

論文の宛先:
https://ieeexplore.ieee.org/document/9716786
https://ieeexplore.ieee.org/document/10609455

スマート衣料による人体生理信号のセンシングに関する既存研究に応えて、研究チームは、柔軟なセンシングデバイスを基盤として、全天候型で人体呼吸信号を検出する手法を提案しました。抽出された呼吸信号は、喘息をリアルタイムで検出するために用いられ、スマートヘルスケアへの応用に対する理論的裏付けとなりました。
論文の宛先:
https://ieeexplore.ieee.org/abstract/document/10040599

一方、大学チームは複数のセンサーで構成されたスマート衣服システムを構築し、人体の状態情報をリアルタイムで3次元人体モデルにマッピングすることで、現実世界の人体の状態と仮想3次元空間の人体モデルの状態の同期表示を実現した。

論文の宛先:
https://ieeexplore.ieee.org/document/9964338/

チームは国内外のトップクラスの大学や研究機関と一貫して連携してきました。特に、ビジュアルコンピューティングとデジタルテキスタイルチームは、上海交通大学の盛斌教授のチームと、スマートテキスタイルとビッグヘルスの分野における複数のプロジェクトで長期にわたる共同研究を行っており、その結果、10件を超えるハイレベルな論文を発表しています。過去5年間で、盛教授はNature Medicine、Nature Communications、Science Bulletin、IJCV、IEEE TPAMIなどのジャーナルに、(共同)筆頭著者/責任著者として69本のSCI論文を発表しました。

さらに、チームは、自然言語処理、インテリジェントファッション推奨、マルチモーダル学習、大規模モデルの分野で、香港理工大学、オーストラリアのウーロンゴン大学、シンガポール科学技術庁、中国人民大学などの大学や研究機関と緊密な協力関係を築いてきました。