618ZXW

華中科技大学は、超大規模病理画像の解析を対象として、シェーグレン症候群の診断精度を向上させる医療画像セグメンテーションモデルを提案した。

口の渇き、目の渇き、肌の乾燥、原因不明の筋肉痛、全身の倦怠感など、毎日これらの症状のいずれかを経験している場合は、乾燥した冬の天候を考慮するだけでなく、一般的でありながら見過ごされがちな病気であるシェーグレン症候群(SS)にも注意する必要があります。

シェーグレン症候群は、外分泌腺へのリンパ球の過剰な浸潤を特徴とする自己免疫疾患で、中国では約500万人が罹患しています。初期段階では、唾液腺、涙腺などの外分泌腺が過剰なリンパ球浸潤によって破壊され、機能低下を引き起こします。患者は口腔乾燥、ドライアイ、肩関節痛などの症状を呈することが多く、同時に肺、肝臓、腎臓などの他の重要な臓器にも影響を及ぼす可能性があり、生殖能力にも影響を及ぼす可能性があります。

画像出典: SLEの心配を解消する雑貨店

シェーグレン症候群の早期発見と診断は極めて重要であり、局所性リンパ球性シアリドーシス(FLS)はシェーグレン症候群の重要な診断基準の一つです。患者の小唾液腺の病理切片を採取し、顕微鏡で観察した結果、既存の診断基準によれば、 4平方ミリメートルの組織標本中に50個以上のリンパ球が存在することが典型的な病変の特徴とされています。

しかし、病理検査画像全体は最大10万×10万ピクセル、つまり約10億画素にもなります。医師は画像全体を注意深く観察し、リンパ球クラスターの数を判断する必要があります。これは時間のかかる作業であるだけでなく、専門医の経験と主観的な判断に頼ることが多く、誤診や見逃しのリスクが高まります。

これらの課題に対処するため、華中科技大学の屠偉教授と陸鋒教授らは、自動運転や顔認識などの分野で広く知られているコンピュータービジョン技術を活用した医療画像セグメンテーションモデルM2CF-Netを提案しました。マルチ解像度・マルチスケール画像認識技術を統合することで、M2CF-Netモデルは病理画像における微妙な違いを「見る」だけでなく、重要なバイオマーカーであるリンパ球凝集巣を正確に特定・計数できるため、医師の診断をより迅速かつ正確に行うことができます。

「M2CF-Net: 局所性リンパ球性唾液腺炎の病変をセグメント化するためのマルチ解像度およびマルチスケールのクロスフュージョンネットワーク」と題された研究成果は、2023 IEEE国際医療人工知能会議 (MedAI) で発表されました。

研究のハイライト:

  • これにより、超大規模な組織病理学的画像における小さなリンパ球凝集体を識別する問題が解決されます。
  • M2CF-Net は、マルチ解像度とマルチスケールのアプローチを統合することで、他の 3 つの主流の医用画像セマンティック セグメンテーション モデルよりも優れたパフォーマンスを発揮します。
  • M2CF-Netは、ぼやけた境界、小さなターゲット、複雑なテクスチャを持つ画像の処理に優れています。セグメント化された画像はより複雑な形状を持ち、現実世界の人間の注釈に非常に似ています。

論文の宛先:
https://doi.ieeecomputersociety.org/10.1109/MedAI59581.2023.00063

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

データセット: 同済病院の臨床データ

この研究では、同済病院の小唾液腺の病理切片データセットを使用しました。このデータセットでは、原発性シェーグレン症候群の患者から小唾液腺が摘出されています。
*小唾液腺は、ヒトの口腔および咽頭の粘膜下に分布しています。唾液を分泌し、口腔内の水分を維持し、消化を助け、口腔組織を感染から保護する機能があります。

小唾液腺の病理切片を染色することで、医師は顕微鏡下で細胞の明確な構造を観察することができます。具体的には、研究者らはすべての切片を再検査し、その品質を確認し、腺の周囲4平方ミリメートルあたり50個以上のリンパ球が集積する病変である局所性リンパ球性咽頭炎の存在を確認しました。病変が存在する場合は、マークを付けました。

最終的なデータセットは203個のサンプルで構成され、そのうち171個は病変特性と一致する陽性サンプル、32個は病変特性と一致しない陰性サンプルでした。研究者らはこれらのサンプルを、モデルの学習、チューニング、性能評価のために、それぞれ特定の比率でトレーニングセット、検証セット、テストセットに分割しました。実際には、研究者らはデータを前処理することで計算負荷を軽減し、モデルの汎化能力を向上させました。

大規模な画像処理パイプラインを設計し、モデルトレーニングの最初のステップを最適化します。

本研究の目的は、100,000 x 100,000の解像度で唾液腺組織切片から局所性リンパ球性唾液腺炎(FLS)の病変領域を抽出することでした。しかし、ギガピクセル画像をニューラルネットワークに直接入力して学習させることは不可能です。主な理由は、画像サイズが大きすぎること、計算リソース、学習時間、既存のフレームワークが不十分なことなどです。

そこで研究者らは、超大規模病理画像を処理するためのパイプラインを設計しました。このパイプラインは主に、関心領域(ROI)抽出、染色の正規化、画像パッチング(WS1パッチング)という3つのステップで構成されています。下図をご覧ください。

超大規模病理画像を処理するパイプライン

パート1:ROI抽出<br> 病理画像における特定の組織領域の識別精度を向上させるため、研究者らは当初、畳み込みニューラルネットワーク(CNN)に基づく分類器を用いていました。しかし、この分類器は気泡、断片化した組織、アーティファクトといった複雑な特徴を扱うのが難しく、性能が低下しました。この問題に対処するため、研究チームは以下の対策を講じました。

  • 手動注釈: サンプルの一部に詳細な注釈が付けられ、データセットが強化された後に分類モデルが再トレーニングされました。
  • データ拡張: 回転、スケーリング、変換などの手法を使用してトレーニング データの多様性を高め、分類器の精度を向上させます。

パート2:染色の標準化<br> 病理画像における染色の標準化の主な目的は、異なる情報源から得られた画像において、視覚的な色とコントラストの一貫性を確保することです。具体的には、染色濃度、pH値、温度、時間といった要因により、実際の染色プロセスでは染色ムラや強度の不均一さがしばしば発生し、同じ種類の組織であっても視覚効果が異なります。この差異は、コンピュータービジョンモデルの精度に影響を与える可能性があります。

この問題に対処するため、研究者たちはVahadaneアルゴリズムを採用しました。このアルゴリズムは、ソース画像の色特徴をターゲット画像に近づけることで色の正規化を実現します。具体的には、ソース画像とターゲット画像間の色マトリックス変換を計算し、ソース画像の色を変換します。

パート3:画像のパッチング<br> ROI抽出と色彩正規化を行った後でも、画像が大きすぎて深層学習モデルの学習サンプルとして使用できないという問題に対処するため、研究者はパッチベースの学習手法を採用しました。この手法では、画像を重複領域を持つ小さなパッチに分割することで、元の情報を保持しながら学習効率を向上させます。

大きな管の近傍に生息する小型リンパ球の詳細な特徴を解析するには、広い視野内で組織レベルの特徴を捉える必要があります。しかし、セグメンテーション結果の精度を確保するには、より狭い視野内で細胞レベルの特徴を捉えることも必要です。そのため、これら2つの側面の適切なバランスを見つけることが重要です。

この問題を解決するため、研究者らは多重解像度画像パッチング法を検討しました。この手法は主に、元の画像を複数回ダウンサンプリングし、各ダウンサンプリング画像から同じサイズの画像パッチを抽出するものです。異なるサンプリング倍率の画像から分割されたこれらのパッチは、視野サイズが異なり、組織レベルと細胞レベルの両方の特徴を捉えることができます。

マルチ解像度およびマルチスケールの融合モデルにより、パフォーマンスが大幅に向上します。

研究者らが選択したモデルであるM2CF-Netは、マルチブランチエンコーダと融合ベースのカスケードデコーダで構成されています。エンコーダは、異なる解像度とスケールでパッチの特徴をダウンサンプリングし、デコーダはカスケードされた融合ブロックを使用して、マルチブランチエンコーダによって生成された特徴マップを融合します。

M2CF-Net ネットワークアーキテクチャ

具体的には、組織レベルと細胞レベルの特徴を同時に捉えるために、研究者らは、様々な解像度の画像を入力として受け入れることができる典型的なエンコーダー・デコーダーアーキテクチャであるマルチブランチネットワークを設計しました。エンコーダーは3つの入力ブランチで構成され、それぞれが異なるサイズと解像度の画像を受け入れ、エンコード処理中に異なる視野範囲を持つ特徴マップの組み合わせを生成します。デコーダーは、エンコーダーによって生成された特徴マップの組み合わせを、カスケード接続されたフュージョンブロックを用いて融合し、最終的な予測マップを出力します。

このプロセスにおいて、研究者らは空間注意とチャネル注意のメカニズムも活用し、入力特徴の表現能力を高めました。最終的に、モデルの損失関数としてBCEDice Lossを採用しました。これは、バイナリクロスエントロピー損失とDice損失のバランスをとることで、モデルの最適化方向を効果的に導きます。

実験的結論: M2CF-Net は、他の 3 つの主流の医療画像セマンティック セグメンテーション モデルよりも優れています。

研究者らは、提案モデル(M2CF-Net)を、他の4つの一般的な医用画像セマンティックセグメンテーションモデル(UNet、MSNet、HookNet、TransUNet)と比較しました。その結果、M2CF-Netモデルは、マルチ解像度およびマルチスケールの特徴の活用において大きな優位性を持つことが示されました。

  • UNet: エンコーダー/デコーダー アーキテクチャを採用し、マルチスケールの特徴をキャプチャして正確なセグメンテーションを実現します。
  • MSNet: 特徴抽出を強化し、セグメンテーションの精度を向上させるために、マルチスケール減算ネットワークを導入します。
  • HookNet: マルチ解像度機能をキャプチャして利用するためのフックを追加することで、U-Net 構造を強化し、医用画像におけるさまざまなサイズの画像のセグメンテーションを効果的に処理します。
  • TransUNet: Transformer をベースに、自己注意メカニズムを導入することでセグメンテーションの精度を向上させます。

下図に示すように、研究者らは、M2CF-Netが69.40%という最高のDiceを達成し、パラメータ数は性能3位のTransUNetの半分に過ぎないことを発見しました。パラメータ数が少ないUNetとMSNetの性能をそれぞれ38.9%と22.5%向上させ、画像内の異なるスケールの特徴を効果的に捉え、融合できることを示しました。

異なるモデルのパフォーマンス比較

具体的には、M2CF-Netのパラメータ数はTransUNetやHookNetよりも少ないものの、UNetやMSNetよりも多くなっています。これは、TransUNetがCNNよりもパラメータ数が多いTransformerアーキテクチャに基づいていることと、シングルブランチデコーダーを採用しているため、M2CF-Netのパラメータ数がHookNetよりも少なくなるためです。一方、M2CF-Netのマルチブランチエンコーダー構造により、シングルブランチ入力ネットワークと比較してパラメータ数が多くなります。

さらに、詳細な分析により、M2CF-Netは、ぼやけた境界、小さなターゲット、複雑なテクスチャを持つ画像の処理に優れていることが明らかになりました。下図に示すように、M2CF-Netのセグメンテーション結果はより複雑な形状を示しており、現実世界の人間の注釈に近いものとなっています。

カスケード融合ブロックにおける特徴マップと空間注意の視覚化: GT は医師が手動で注釈を付けた SA (f2) を表し、f2 は特徴マップ f2 から生成された空間注意ヒートマップを表します。

コンピュータービジョン技術が医療画像セグメンテーションに革命を起こす

医療画像解析は疾患診断に不可欠です。コンピュータ技術は医療画像を正確にセグメンテーションし、病変、臓器、感染部位を効果的に特定することで、診断効率を向上させます。近年、ディープラーニングなどの技術の進歩により、医療画像のセグメンテーション技術は手作業から自動処理へと急速に移行しています。特別に訓練されたAIシステムは、医療従事者にとって欠かせないツールとなっています。

華中科技大学同済医学院同済病院リウマチ・免疫科副科長の屠偉教授は、リウマチ性疾患や免疫疾患の診断と治療において20年以上の経験を持ち、特にシェーグレン症候群の診断において豊富な経験を有しています。本研究では、屠偉教授はシェーグレン症候群の病理診断プロセスを詳細に分析し、間違えやすいポイントを指摘するとともに、実際の症例を通して様々な状況における診断結果を示しています。シェーグレン症候群の病理診断法を習得した陸鋒教授率いる研究チームは、コンピュータービジョンによる画像セグメンテーション技術を用いて診断課題の解決を提案しました。両者は先進的なAI技術を活用し、シェーグレン症候群の診断における新たな道を切り開きました。
Tu Wei教授の個人ホームページ:
https://www.tjh.com.cn/MedicalService/outpatient_doctor.html?codenum=101110

陸鋒教授の個人ホームページ:
http://faculty.hust.edu.cn/lufeng2/zh_CN/index.htm

上記の研究者に加えて、他の多くの科学者が医用画像と AI の交差点における最先端の研究に専念しています。

例えば、MITコンピュータ科学・人工知能研究所(MIT CSAIL)のチームは、マサチューセッツ総合病院およびハーバード大学医学部の研究者と共同で、インタラクティブな生物医学画像セグメンテーションのための汎用モデル「ScribblePrompt」を提案しました。このニューラルネットワークベースのセグメンテーションツールは、落書き、クリック、バウンディングボックスといった様々な注釈手法を用いて柔軟な生物医学画像セグメンテーションタスクを実行できるように注釈作成者をサポートするだけでなく、学習されていないラベルや画像タイプでも非常に優れたパフォーマンスを発揮します。

より高度な技術が開発され、臨床現場に応用されるにつれて、腫瘍学や神経学などの複数の医学分野が恩恵を受け、医用画像解析の分野はより明るい未来を迎えると考えられています。