618ZXW

AAAI 2025に選出されました!中国地質大学などが、医療画像セグメンテーションにおけるソフト境界と共起の課題を解決するために、ConDSeg画像セグメンテーションモデルを提案しています。

医用画像のセグメンテーションは、医用画像処理分野において極めて重要かつ複雑なステップです。主に、臨床診断、リハビリテーション治療、疾患追跡を支援するために、医用画像から意味のあるセグメントを抽出することが含まれます。近年、コンピュータと人工知能(AI)の支援により、ディープラーニングに基づくセグメンテーション手法が徐々に医用画像セグメンテーションの主流となり、多くの関連成果が生まれています。

人工知能(AI)に関するトップクラスの国際会議である第39回AAAI人工知能会議(AAAI 2025)で発表された採択論文の中には、医療画像自動セグメンテーションにおける実りある進歩を改めて示すものもありました。中国地質大学と百度のチームが共同で発表した論文「ConDSeg:コントラスト駆動型特徴量強化による汎用医療画像セグメンテーションフレームワーク」は、大きな注目を集めました。

研究者らは、コントラスト駆動型医用画像セグメンテーションのための汎用フレームワーク「ConDSeg」を提案しました。このフレームワークは、この分野における2つの主要な課題、「ソフト境界」と共起現象に対処しています。このフレームワークは、一貫性強化(CR)学習戦略、セマンティック情報分離(SID)モジュール、コントラスト駆動型特徴集約(CDFA)モジュール、サイズ認識デコーダ(SAデコーダ)といった革新的な手法を導入し、医用画像セグメンテーションモデルの精度をさらに向上させます。

論文の宛先:
https://arxiv.org/abs/2412.08345

オープンソース プロジェクト「awesome-ai4s」は、200 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

医療画像のセグメンテーション精度は2つの大きな課題に直面している

過去10年間、人工知能(AI)の台頭により、医用画像の自動セグメンテーションが急速に発展し、医師や研究者は煩雑な作業から解放されました。しかし、医用画像の複雑さと専門性を考えると、完全な自動セグメンテーションを実現するには依然として長く困難な道のりが残されており、精度向上は大きな課題となっています。精度なくして自動化は不可能だからです。

現在、医用画像における「ソフト境界」と共起現象は、医用画像のセグメンテーション精度の向上を妨げる重要な課題となっています。

医療画像セグメンテーションの主な課題

まず、前景と背景の境界が明確に定義された自然画像と比較して、医用画像では、前景(ポリープ、腺、病変など)と背景の間に、ぼやけた「ソフト境界」が見られることがよくあります。これは主に、病変組織と周囲の正常組織との間の遷移領域に起因しており、境界の判別が困難になっています。さらに、多くの場合、医用画像は照明条件が悪くコントラストが低いため、病変組織と正常組織の境界がさらにぼやけ、境界の判別がさらに困難になります。

第二に、自然風景におけるランダムに出現する物体とは異なり、医用画像中の臓器や組織は非常に固定的で規則的であるため、共起現象が広く見られます。つまり、異なる画像特徴、組織、または病変が同時に医用画像に現れるということです。例えば、内視鏡によるポリープ画像では、小さなポリープが同程度の大きさのポリープと並んで現れることがよくあります。そのため、モデルはポリープとは無関係な特定の共起特徴を学習することが容易ですが、病理組織が単独で現れる場合、モデルは正確な予測を行うことができないことがよくあります。

これらの課題に対処するため、近年、この分野に焦点を当てた研究手法がますます増えています。例えば、深圳大学医学部バイオメディカル工学学院の岳光輝准教授のチームは、ポリープの正確なセグメンテーションを実現する境界制約ネットワーク「BCNet」を発表しました。このネットワークには、浅いコンテキスト特徴、高レベルの位置特徴、そして追加のポリープ境界監視を組み合わせた双方向境界抽出モジュールが含まれており、境界を捉えることができます。「ポリープセグメンテーションのためのクロスレイヤー特徴統合による境界制約ネットワーク」と題されたこの研究は、IEEE Journal of Biomedical and Health Informaticsに掲載されました。

論文の宛先:

https://ieeexplore.ieee.org/document/9772424

例えば、上海科技大学生物医学工学学院の初代学長である沈丁剛教授のチームは、ポリープのセグメンテーションに利用可能なクロスレベル特徴集約ネットワークCFA-Netを提案しました。このネットワークは、境界予測ネットワークを設計することで境界を考慮した特徴を生成し、階層的な戦略を用いてこれらの特徴をセグメンテーションネットワークに統合します。この研究は「ポリープのセグメンテーションのためのクロスレベル特徴集約ネットワーク」と題され、Pattern Recognition誌に掲載されました。
論文の宛先:
https://www.sciencedirect.com/science/article/abs/pii/S0031320323002558

しかし、これらの手法はいずれも境界関連の教師情報を明示的に導入することでモデルの境界への注意力を向上させるものの、ぼやけた領域における不確実性を自発的に低減するモデルの能力を根本的に強化するには至っていません。そのため、過酷な環境下における堅牢性は依然として低く、性能向上の可能性は限定的です。さらに、前景と背景、そして画像内の異なるエンティティを正確に区別できないという問題は、ほとんどのモデルにとって依然として残っています。

中国地質大学の研究チームは、百度(Baidu)と共同で、従来の手法とは異なり、コントラスト駆動型医療画像セグメンテーションのための汎用フレームワーク「ConDSeg」を提案しました。具体的な革新は以下の通りです。

  • 過酷な環境における堅牢性の課題に対処するため、研究者らは、エンコーダの堅牢性を高め、高品質な特徴量を抽出するための一貫性強化(CR)事前学習戦略を提案しました。同時に、セマンティック情報分離(SID)モジュールは、特徴マップを前景、背景、および不確実領域に分離し、特別に設計された損失関数を用いて学習中に不確実性を低減するように学習します。
  • 提案されたコントラスト駆動型特徴集約(CDFA)モジュールは、SIDから抽出されたコントラスト特徴を用いて、多層特徴の融合と強調を促します。サイズ認識デコーダー(SAデコーダー)は、画像内の異なるエンティティをより適切に識別し、異なるサイズのエンティティを個別に予測することで、共通特徴の干渉を克服することを目的としています。

ConDSeg の 4 つの主要なイノベーションにより、医療画像のセグメンテーションの精度が向上します。

全体として、本研究で提案された ConDSeg は、次の図に示すように、2 段階アーキテクチャの一般的な医療画像セグメンテーション フレームワークです

ConDSeg 全体フレームワーク図

研究の第一段階では、低照度および低コントラストのシーンにおけるエンコーダの特徴抽出機能と堅牢性を最大限に高めることを目指します。

研究者らは、エンコーダの初期学習にCR事前学習戦略を導入し、ネットワーク全体から分離することで、シンプルな予測ヘッド(予測マスク)を設計しました。元の画像と強化画像(Strong Augmentation)をエンコーダに入力することで、予測マスク間の整合性が最大化され、さまざまな照明やコントラストの課題に対するエンコーダの堅牢性が向上し、過酷な環境下でも高品質な特徴を抽出する能力が向上しました。強化手法には、明るさ、コントラスト、彩度、色相のランダムな変更、ランダムなグレースケールへの変換、ガウスぼかしの追加などが含まれていました。

もう一つ注目すべき点は、研究チームが提案した一貫性損失Lconsが、ピクセルレベルの分類精度に基づいて設計されていることです。Lconsは、単純な二値化演算と二値交差エントロピー(BCE)損失計算を用いて、予測マスク間のピクセルレベルの差異を直接比較します。この手法は計算が単純で、数値的不安定性を回避できるため、大規模データに適しています。

第2段階では、エンコーダの学習率を低く設定し、ネットワーク全体を微調整します。このプロセスは以下の4つのステップで構成されます。

  • 特徴抽出: ResNet-50 エンコーダーは、異なるレベルで異なる意味情報を持つ特徴マップ f₁ から f₄ を抽出します。
  • セマンティック情報の分離は、深層セマンティック情報を含む特徴マップf₄をSIDに入力し、前景、背景、不確実領域情報を含む特徴マップに分離することから成ります。SIDは、それぞれ複数のCBRモジュールで構成される3つの並列ブランチから開始します。特徴マップf₄をこれらの3つのブランチに入力すると、異なるセマンティック情報を持つ3つの特徴マップが生成され、それぞれに前景、背景、不確実領域の特徴が付加されます。補助ヘッドは、3つの特徴マップを予測し、前景、背景、不確実領域のマスクを生成します。損失関数の制約を通して、SIDは不確実性を低減し、前景と背景間のマスク精度を向上させる方法を学習します。(下図参照)

SID補助ヘッドの構造

  • 特徴集約では、特徴マップf₁からf₄をCDFAモジュールに入力し、分離された特徴マップに基づいて段階的に多段階の特徴マップを融合することで、前景と背景の特徴の表現を強化します。CDFAは、SIDから分離された前景と背景の対照的な特徴を利用して多段階の特徴融合を導くだけでなく、モデルがセグメント化対象のエンティティと複雑な背景環境をより適切に区別できるようにもします。(下図参照)

CDFA構造

  • マルチスケール予測のために、研究者らは小、中、大サイズの3つのデコーダー(デコーダーₛ、デコーダーₘ、デコーダーₗ)を構築しました。各デコーダーは、特定のレベルでCDFAからの出力を受け取ります。画像内の複数のエンティティは、サイズに基づいて位置を特定されます。各デコーダーの出力を融合することで、最終的なマスクが生成されます。したがって、このモデルは大きなエンティティを正確にセグメント化し、小さなエンティティを正確に特定できるため、共起現象の誤学習を防ぎ、デコーダーのスケール特異性問題に対処できます。(下図参照)

SAデコーダ構造図

ConDSegの医用画像セグメンテーションにおける性能を検証するため、研究者らは5つの公開データセット(Kvasir-SEG、Kvasir-Sessile、GlaS、ISIC-2016、ISIC-2017、下図参照)を選択し、3つの医用画像タスク(内視鏡検査、全スライス画像、皮膚鏡検査)をテストしました。研究者らは画像のサイズを256×256ピクセルに変更し、バッチサイズを4に設定しました。最適化にはAdamオプティマイザーを使用しました。

5つのデータセットの詳細情報

主な比較対象には、U-Net、U-Net++、Attn U-Net、CENet、CPFNet、PraNet、FATNet、TGANet、DCSAUNet、XBoundFormer、CASF-Net、EIU-Net、DTANといった最先端の手法が含まれます。結果は、提案手法が5つのデータセットすべてにおいて最先端のセグメンテーション性能を達成することを示しています。(下図参照)

Kvasir-Sessile、Kvasir-SEG、GlaSデータセットにおける他のモデルとの比較

ISIC-2016およびISIC-2017データセットにおける他のモデルとの比較

さらに、研究者らはKvasir-SEGデータセットで学習した収束曲線を他の手法と比較しました。その結果、ConDSegは1段階の学習だけでも最先端の性能を達成できることが示され、ConDSegフレームワーク全体を使用した場合、この手法は最速の収束速度と最高の性能を達成しました(下図参照)。

Kvasir-SEGデータセットでトレーニングした場合の収束曲線の他の方法との比較

医療画像のセグメンテーションの分野は、資本とテクノロジーのお気に入りとなっています。

医用画像セグメンテーションは、臨床医学と医学研究の両面で重要な役割を果たしています。特別に訓練されたAIシステムは、その効率性と知能によって従来の医用画像セグメンテーション手法を変革し、医療専門家や研究者にとって不可欠なツールとなっています。医用画像セグメンテーションにおけるこの発展と成果は、資本と技術という二つの原動力によるものです。

資金面では、AIとバイオメディシンの学際分野が近年投資の世界で注目を集めており、今年はAI駆動型医用画像が好調なスタートを切っています。1月28日、スペインの医用画像企業Quibimは、5,000万ドル(約3億6,000万人民元)のシリーズA資金調達ラウンドの完了を発表しました。注目すべきは、Quibimの中核技術は医用画像データに基づく人工知能分析であり、同社のQP-Liverは、びまん性肝疾患のMR診断に使用される自動セグメンテーションツールです。

技術面では、AIと医療画像のセグメンテーションの統合は、長年にわたり主要な研究室の重点研究対象となってきました。例えば、MITコンピュータ科学・人工知能研究所(MIT CSAIL)のチームは、マサチューセッツ総合病院およびハーバード大学医学大学院の研究者と共同で、インタラクティブな生物医学画像セグメンテーションのための汎用モデルであるScribblePromptを提案しました。このモデルにより、アノテーターは、描画、クリック、バウンディングボックスなどの様々なアノテーション手法を用いて、訓練されていないラベルや画像タイプであっても、柔軟に生物医学画像セグメンテーションタスクを実行できるようになります。

「ScribblePrompt: あらゆるバイオメディカル画像のための高速かつ柔軟なインタラクティブセグメンテーション」と題された関連する研究結果は、最高峰の国際学術会議 ECCV 2024 に採択されました。
論文の宛先:
https://arxiv.org/pdf/2312.07381

さらに、オックスフォード大学のチームは、MetaのSAM 2をベースに、Medical SAM 2(MedSAM-2)と呼ばれる医用画像セグメンテーションモデルを開発しました。このモデルは医用画像を動画として扱い、3D医用画像セグメンテーションタスクにおいて非常に優れたパフォーマンスを発揮するだけでなく、シングルキューセグメンテーションという新たな機能も実現しています。ユーザーは特定の新しいオブジェクトのキューを提供するだけで、モデルは追加の入力なしに、後続の画像で類似のオブジェクトを自動的にセグメンテーションできます。

*クリックして詳細レポートをご覧ください: SAM 2 の最新アプリケーションがリリースされました! オックスフォード大学のチームが Medical SAM 2 をリリースし、医療画像セグメンテーションにおける新たな最先端記録を樹立しました。

結論として、AIはもはや棚に置かれた技術ではありません。自動医用画像セグメンテーションの開発は、バイオメディカル分野におけるAIの潜在能力を証明し、その商業的実現可能性は数多くの投資事例を通じて実証されています。今後、医用画像分野における最も重要な要素である医用画像セグメンテーションは、AIの恩恵を受け、その発展を加速させることは間違いありません。また、医用画像セグメンテーションの成功は、より広範なバイオメディカル市場への資金流入を促し、技術、資本、そして商業の完璧なクローズドループを実現するでしょう。