618ZXW

AAAI 2025に選出!中国の2大大学による共同提案「BSA Fusion」は、マルチモーダルな医用画像の位置合わせと融合を可能にします。

2024年末、人工知能(AI)に関するトップクラスの国際会議である第39回AAAI人工知能会議(AAAI 2025)は、同会議の論文採択結果を発表しました。12,957件の投稿のうち、3,032件の論文が採択されましたが、採択率はわずか23.4%でした。

中でも、昆明理工大学情報工学・自動化学院の李華鋒氏、張亜菲氏、蘇大勇氏と、中国海洋大学情報科学工学部コンピュータ科学技術学院の蔡青氏のチームが共同で実施した「BSAFusion:非整列医療画像融合のための双方向段階的特徴アライメントネットワーク」と題する研究プロジェクトが、AI for Scienceの研究者の注目を集めています。このプロジェクトは、急速に成長している医療画像処理分野に焦点を当て、非整列医療画像の融合のための双方向段階的特徴アライメント(BSFA)手法を提案しています。

本研究では、従来の手法と比較して、統一された処理フレームワーク内で単一段階のアプローチにより、位置合わせされていないマルチモーダル医用画像の位置合わせと融合を同時に実現します。これにより、2つのタスクを調整するだけでなく、複数の独立した特徴量エンコーダを導入することによるモデルの複雑さを効果的に軽減します。

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

メディカルフォーカス – マルチモーダル医療画像融合

マルチモーダル医用画像融合(MMIF)は、CT、MRI、PETなどの異なる画像診断法から得られた医用画像データを融合し、病変に関するより包括的かつ正確な情報を含む新しい画像を生成する技術です。この分野の研究は、現代医学および臨床応用において極めて重要です。

理由は簡単です。数十年にわたる技術開発と改良により、医療画像は形態が多様化しただけでなく、より広く利用されるようになりました。例えば、重傷を負った場合、まず病院に行って骨折の有無を確認するためにレントゲン撮影をしようと考えます。「レントゲン」とは通常、X線、CTスキャン、MRIスキャンなどの医療画像検査を指します。

しかし、臨床医学において、特に腫瘍や癌細胞のような複雑な疾患を扱う場合、単一の医療画像から正確な臨床診断に必要な情報を抽出することは明らかに不十分です。マルチモーダル医療画像融合は、現代の医療画像における重要なトレンドとなっています。異なる時期や情報源からの画像を単一の座標系に統合・登録することで、マルチモーダル医療画像融合は医師の診断効率を大幅に向上させるだけでなく、医師がより専門的な疾患モニタリングを行い、効果的な治療計画を策定するのに役立つ貴重な情報を提供します。

医用画像への応用以前から、多くの研究者が画像融合の問題に着目し、複数ソースの画像のレジストレーションと融合を統一的なフレームワークに統合する手法を探求してきました。例えば、よく知られているMURFは、1次元で画像レジストレーションと融合を議論し、解決した最初の手法です。MURFの中核モジュールには、共有情報抽出モジュール、マルチスケール粗レジストレーションモジュール、および微細レジストレーションと融合モジュールが含まれます。

しかし、前述のように、第一に、これらの方法はマルチモーダル医用画像融合用に設計されたものではなく、医用画像処理の分野で期待された利点を示すこともありませんでした。第二に、これらの方法は、マルチモーダル医用画像融合で遭遇する最も重要な課題、すなわち融合に使用される特徴と位置合わせに使用される特徴との間の非互換性の問題を解決することもできませんでした。

具体的には、特徴の調整では対応する特徴が一貫している必要があり、特徴の融合では対応する特徴が補完的である必要があります。

これは理解するのが難しくありません。特徴アライメントとは、様々な技術的手段を用いて、異なるモーダルデータを特徴レベルで整合・対応させることです。一方、特徴融合とは、異なるモーダル間の補完性を最大限に活用し、異なるモーダルから抽出された情報を安定したマルチモーダルモデルに統合することです。

したがって、MMIFの難しさは自明です。このギャップを埋めるだけでなく、より効率的で便利なマルチモーダル医用画像融合を実現するためには、これまでの研究を基盤として構築していく必要があります。李華鋒教授のチームと蔡青准教授のチームは、論文の中でこの当初の意図を実証し、研究実験を通じてそれを実践しました。

技術的な観点から見ると、この方法はいくつかの革新的な設計を提案しています。

  • まず、特徴エンコーダを共有することで、登録用に追加のエンコーダを導入することでモデルの複雑さが増す問題を解決し、特徴のクロスモーダルなアライメントと融合を統合する統一された効果的なフレームワークを設計し、シームレスなアライメントと融合を実現します。
  • 次に、モーダル不一致のない特徴表現 (MDF-FR) 方式では、各入力画像にモダリティ特徴表現ヘッド (MFRH) を取り付けることでグローバルな特徴統合を実現し、これにより、モダリティの違いやマルチモーダル情報の不一致が特徴の配置に与える影響を大幅に軽減します。
  • 最後に、2 点間のベクトル変位経路の独立性に基づく双方向段階的変形場予測戦略を提案します。この戦略は、従来の単段階アライメント法で発生する大スパンおよび変形場の不正確な予測の問題を効果的に解決できます。

BSAFusion は医療画像融合における新しいテクノロジーの先駆者です。

研究グループが提案するシングルステージのマルチモーダル医用画像登録および融合フレームワークは、下図に示すように、MDF-FR、BSFA、MMFF(マルチモーダル特徴融合)の3つのコアコンポーネントで構成されています。

全体フレームワーク図

MDF-FRでは、Restormer層とTransformer層がネットワークのエンコーダーを形成し、位置合わせされていない画像ペアから特徴を抽出していることが容易に分かります。Restormer層とTransformer層はそれぞれ2つの層で構成されています。特徴のアライメントと融合を2回行った後、その結果は後続のMLPに入力され、予測値が得られます。

ここで、得られた2つのモダリティ間の大きな差異により、これらの特徴のクロスモダリティマッチングと変形場予測も大きな課題に直面することになります。したがって、モダリティ固有の特徴表現ヘッドを生成することで、モダリティの違いが変形場予測に与える影響を軽減できるだけでなく、共通情報の抽出による非共通情報の損失を防ぐことができます。

その後、チームはTransfer AとTransfer Bを使い続け、モード間の差異を排除しました。各Transferブロックは、パラメータを共有しない2つのTransformerレイヤーで構成されており、変形箇所の予測に必要な特徴をさらに抽出します。

BSFA 内部において、研究チームは双方向ステップワイズ特徴アライメント法を設計しました。これは、入力画像の特徴を2方向から予測する変形場法です。この手法では、順方向予測と逆方向予測の両方に5つの変形場予測層を採用し、2つの入力ソース画像の間に5つの中間ノードを挿入します。これにより、アライメント処理全体の堅牢性が向上します。順方向レジストレーション層はFRLによって、逆方向レジストレーション層はRRLによって処理されます。

最後に、MMFFモジュールでは、予測された変形場アライメント特徴量を適用し、複数のFusionBLKモジュールを用いて特徴量を融合します。最終的に、再構成層を経て融合画像が得られ、様々な損失関数を用いてネットワークパラメータが最適化されます。

もちろん、実験の有効性と厳密性を確保するため、研究グループは実験の詳細に細心の注意を払いました。このモデルに基づく実験では、既存の手法のプロトコルに従い、ハーバード大学のCT-MRI、PET-MRI、SPECT-MRIデータセットをモデルのトレーニングに使用しました。これらのデータセットは、それぞれ144、194、261の厳密に位置合わせされた画像ペアで構成されており、各オブジェクトペアのサイズは256 x 256ピクセルです。

現実世界のシナリオで収集された位置ずれ画像ペアをシミュレートするため、本実験ではMRI画像をリファレンスとして指定し、非MRI画像に剛体変形と非剛体変形を組み合わせた変形を適用して必要なトレーニングセットを作成しました。さらに、研究グループは、厳密に位置合わせされた20、55、77組の画像に同じ変形を適用し、位置ずれテストセットを構築しました。

トレーニングプロセスはエンドツーエンドのアプローチを採用し、各データセットに対してバッチサイズ32で3,000エポックのトレーニングを実施します。同時に、Adamオプティマイザーを用いてモデルパラメータを更新します。初期学習率は5 x 10⁻⁵です。コサインアニーリング学習率(LR)は、時間の経過とともに5 x 10⁻⁷まで減少します。

この実験では PyTorch フレームワークが使用され、単一の NVIDIA GeForce RTX 4090 GPU でトレーニングされました。

研究グループの綿密な実験の詳細とトレーニングに使用された標準データセットに基づいて、この方法は実験結果でも優れたパフォーマンスを示しました。

この実験では、UMF-CMGR、superFusion、MURF、IMF、PAMRFuseという5つの最先端のジョイントレジストレーション手法を比較しました。最後のグループを除き、最初の4つはマルチモーダル医用画像融合用に特別に設計されたものではありませんが、現在最も優れた画像融合手法であり、MMIFにも適用可能です。下の図をご覧ください。

融合結果の視覚的な比較

評価結果の比較

結果は意義深いものでした。研究グループが提案した手法は、特徴の整合、コントラストの維持、細部の保持において優れた性能を示し、すべての指標の中で最も優れた平均性能を示しました。

チームワークが医療臨床応用を保護

本研究プロジェクトの責任著者の一人は、中国海洋大学情報科学工学部コンピュータ科学技術学院の准教授である蔡青氏です。彼女は中国海洋大学での職に加え、中国コンピュータ連合会(CCF)など、他のいくつかの重要な学術機関でも重要な役職を務めています。

蔡青教授の主な研究分野は、ディープラーニング、コンピュータービジョン、医用画像処理です。医用画像処理のサブフィールドであるマルチモーダル医用画像融合は専門知識の障壁が高く、蔡青教授の長年の経験は、このプロジェクトに指導と支援を提供することができます。

蔡青准教授は、昨年AAAI 2024で筆頭著者として論文が採択されたのに続き、AAAI 2025でも共同筆頭著者および責任著者として3本の論文が採択されたことは特筆に値します。その中には、医用画像処理に関する別の研究論文「SGTC:スパースアノテーション付き半教師あり医用画像セグメンテーションのためのセマンティックガイド付きトリプレット共学習」が含まれています。この論文では、研究者らは、少数のボリュームサンプルの3つの直交スライスのみにアノテーションを付与することで信頼性の高い医用画像セグメンテーションを実現する、新しいセマンティックガイド付きトリプレット共学習フレームワークを提案し、時間と労力を要する画像アノテーションの問題を解決しました。

論文の宛先:

https://arxiv.org/abs/2412.15526

このプロジェクトのもう一つのチームは、昆明理工大学情報工学・自動化学院の李華鋒教授と張亜菲教授のチームです。李華鋒教授は2021年の世界トップ2%の科学者に選ばれており、コンピュータービジョンと画像処理を研究しています。本論文のもう一人の責任著者である張亜菲准教授は、主に画像処理とパターン認識の研究をしており、中国国家自然科学基金(NSFC)の複数の地域プロジェクトや雲南省自然科学基金のプロジェクトを主導してきました。

このプロジェクトの主要な学術的貢献者の一人である李華鋒教授は、医用画像処理分野で多数の研究を発表しています。例えば、2017年には「スパース表現に基づく医用画像融合」、2023年には「赤外線・可視画像融合のための特徴の動的アライメントと改良:翻訳ロバストな融合」と題する研究を発表しました。

論文の宛先:

https://liip.kust.edu.cn/servletphoto?path=lw/00000311.pdf

論文の宛先:

https://www.sciencedirect.com/science/article/abs/pii/S1566253523000519

さらに、李華鋒は張亜菲教授と複数回共同研究を行い、2022年の論文「マルチスケール特徴学習とエッジ強調に基づく医療画像融合」など、関連研究を発表しています。この研究では、マルチスケール特徴学習とエッジ強調に基づく医療画像融合モデルを提案し、医療画像融合における異なる臓器間の境界のぼやけの問題を軽減しました。提案手法によって得られた結果は、主観的な視覚効果と客観的な定量評価の両面において、従来の比較手法よりも優れています。

論文の宛先:

https://researching.cn/ArticlePdf/m00002/2022/59/6/0617029.pdf

諺にもあるように、強力な同盟は無敵です。李華鋒教授と張亜菲教授のチーム、そして蔡青准教授の医用画像処理分野における専門的な学術力は、間違いなく本プロジェクトの成功の鍵です。両者の継続的な協力と、AI for Science分野における最先端の成果の発表を期待しています。

ハイブリッド・マルチモーダル医用画像融合技術がトレンドになりつつあります。

マルチモーダル医療画像融合がますます重要な役割を果たすにつれて、その技術開発は必然的に統合とインテリジェンスへと進むでしょう。

本研究でも述べたように、深層学習に基づく融合手法の研究では、CNNベースの手法とTransformerベースの手法が互いに補完的な利点を持つことが注目されています。そのため、DesTrans、DFENet、MRSC-Fusionといった成果が提案されています。これらの研究では、ハイブリッドアプローチを用いることで2つの技術を相互に補完し、融合手法の効率性を向上させています。

マルチモーダル医用画像融合手法には、ディープラーニングに基づく融合アプローチに加え、マルチスケール変換、スパース表現、部分空間ベース手法、顕著な特徴に基づく手法、ハイブリッドモデルといった従来の融合手法も含まれます。同様に、ディープラーニングと従来の手法を組み合わせたハイブリッドアプローチも登場しています。

上記の研究で観察された傾向に基づくと、マルチモーダル医療画像融合の将来の方法は、必然的にディープラーニングを主流とし、その他のさまざまな技術も取り入れたものになることは明らかです。