618ZXW

マッチング精度が187.9%向上!華中科技大学のCGCL研究室は、自己教師学習を用いてカプセル内視鏡画像のステッチングを支援し、「スカイアイ」による胃腸の健康状態の観察を可能にしました。

世界中で、消化器疾患は深刻な公衆衛生上の課題となっています。世界保健機関(WHO)傘下の国際がん研究機関(IARC)によると、胃腸疾患の罹患率は人口の80%にも達し、中国では消化器疾患の患者数は1億2000万人に達し、特に若年層への蔓延が顕著です。消化器系の健康への配慮は喫緊の課題です。

このような状況において、カプセル内視鏡(MCCE)は、非侵襲性、無痛性、無感染性という特徴から、高度な診断ツールとして広く注目を集めています。MCCEは、カプセル内にワイヤレスカメラを内蔵しています。患者はカプセルを飲み込むだけで、カプセルは食道、胃、小腸を通過し、その過程で数万枚の画像を撮影します。これらの画像は、患者のベルトに収納されたハードディスクに記録され、カプセルは最終的に便とともに自然に排泄されます。撮影された画像に基づいて、医師は消化器疾患や異常を迅速に特定することができ、患者の不快感を大幅に軽減します。

しかし、カプセル内視鏡の動きは主に消化管の蠕動運動に依存しているため、撮像範囲は限られています。MCCE(カプセル内視鏡)では、医師が焦点を当てたい特定の領域(関心領域)を効果的に捉えることが難しく、多くの場合、視点の一貫性がない断片的な画像を多数取得することになります。これらの画像は、通常、テクスチャの弱さ、視点の大きな変化、クローズアップ撮影時の歪みといった問題を抱えており、画像のつなぎ合わせや位置特定に大きな課題をもたらし、病変の正確な検出を困難にしています。

これに対し、華中科技大学の陸鋒教授率いるチームは、上海交通大学、中南民族大学、香港科技大学(広州)、香港理工大学、シドニー大学の盛斌教授と共同で、自己教師型フラグメントマッチングに基づくカプセル内視鏡画像スティッチング手法「S2Pマッチング」を提案しました。この手法は、カプセル内視鏡の消化管における撮像挙動をシミュレートすることで生データを強化し、対照学習を用いて局所的な画像特徴を抽出し、Transformerモデルを用いてパッチレベルのマッチングを行います。最終的には、マッチングをピクセルレベルまで精緻化できるため、画像スティッチングの精度と成功率が大幅に向上し、消化器疾患の早期発見・診断能力が向上します。

「S2Pマッチング:カプセル内視鏡画像のステッチングのためのトランスフォーマーを使用した自己教師パッチベースマッチング」と題された研究結果は、生物医学工学分野の主要な国際誌であるIEEE Transactions on Biomedical Engineeringに掲載されることが承認されました。

研究のハイライト:

  • S2P-Matching は、他の既存の方法と比較して、実際の MCCE 画像マッチングにおいて優れたパフォーマンスを発揮し、特に胃腸画像の視差や弱いテクスチャの問題に対処することで、マッチング精度と成功率がそれぞれ 187.9% と 55.8% 向上しました。
  • S2P-Matching は、カプセル内視鏡の撮像動作をシミュレートしてシミュレートされた画像データセットを生成し、モデルがさまざまな視点から画像の特徴を学習するのに役立ちます。
  • 研究者らは、従来の内視鏡検査では実現できなかった精密な縫合と位置決めのギャップを埋めるS2Pマッチング法を提案しました。これにより、医師は消化管をより包括的かつ鮮明に観察できるようになり、消化器疾患のスクリーニング効率が向上し、非侵襲性内視鏡技術の臨床応用がさらに促進されます。

論文の宛先:
http://dx.doi.org/10.1109/TBME.2024.3462502

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

データセット: 専門の医師によって正確に注釈が付けられた 20,000 件以上の臨床画像データを網羅しています。

研究者らは、2016年から2019年にかけて国内の病院で実施されたカプセル内視鏡検査記録の中から、医療専門家が実際の臨床現場において関心の高い領域の連続画像を分析することに焦点を当てました。S2Pマッチングの有効性と精度を検証するため、比較的安定した期間にカプセル内視鏡で連続的に撮影された画像を学習用データセットおよびテスト用データセットとして選択しました。これらの画像は0.5秒間隔で撮影され、各画像の空間解像度は480×480ピクセルでした。

具体的には、ランダムなグループ化とスティッチング結果の比較を最適化するために、研究者は213人の患者からデータをランダムにサンプリングし、各患者の画像シーケンスからn×10フレーム(nは5~15)の連続フレームを抽出しました。その結果、合計21,526枚の画像が得られました。厳密なスクリーニングの結果、20,862枚の高品質画像が保持されました。これに基づき、研究者は528枚の画像を選択してテストセットを作成し、2名の医師に協力を依頼して、これらの画像上のマッチングポイントを正確にアノテーションしました。

モデルアーキテクチャ: パッチ変換 - 自己教師ありトランスフォーマーがカプセル内視鏡アセンブリのシームレスな旅へと導きます

S2P-Matchingは、改良された自己教師あり対照学習法を導入します。デュアルブランチエンコーダを用いて局所特徴を抽出し、これらの特徴を用いてTransformerモデルを学習し、パッチレベルの画像マッチングを行います。最後に、パッチ対ピクセル法を用いてマッチングをピクセルレベルまで精緻化します。下図に示すように、主なプロセスは、データ拡張、深層特徴記述子抽出、パッチレベルマッチング、ピクセルレベルレジストレーション、そして正しい対応関係のフィルタリングという5つの部分で構成されています。

S2Pマッチングアーキテクチャ図
  • データ拡張: この部分では、アフィン変換を使用して消化管内のカプセル内視鏡カメラの動作をシミュレートし、モデルがさまざまな視点から画像の特徴を学習して手動での注釈付けの複雑さを回避するのに役立つマルチビュー参照画像を生成するデータ拡張について説明します。
  • 特徴抽出(深層特徴記述子抽出) :この部分では、特に改良された対照学習技術を用いて局所特徴を抽出し、深層特徴記述子を抽出します。具体的には、デュアルブランチエンコーダーを用いて画像パッチと背景パッチからそれぞれ特徴を抽出し、それらの特徴を組み合わせてマッチング用の深層特徴記述子を作成します。
  • パッチレベルマッチング:この部分では、画像パッチレベルマッチングにTransformerベースのモデルを使用します。このモデルは、マルチヘッド自己注意メカニズムを通じて受容野を拡張し、画像内の異なるパッチマッチングペアを効果的に識別します。さらに、デュアルソフトマックス演算によってマッチング確率行列が生成され、パッチペアの信頼度が決定されます。
  • ピクセルレベルマッチング:この部分では、画像マッチングをパッチレベルからピクセルレベルへと洗練させます。つまり、パッチレベルマッチングをベースに、パッチ・ツー・ピクセル方式を用いてピクセルレベルへのマッチングを洗練させ、ステッチング精度をさらに向上させます。
  • 正しい対応フィルタリング: MAGSAC アルゴリズムを使用して誤った対応ペアを除外し、正しい対応ペアを識別して、正確なピクセルレベルの対応結果を保証します。

S2Pマッチングは、データ拡張、コントラスト学習、Transformerネットワーク、ピクセルレベルのマッチングを組み合わせることで、内視鏡画像のマッチングとスティッチングの精度を効果的に向上させます。特に、テクスチャが弱い場合、クローズアップ撮影の場合、回転がある場合などに有効です。これは、MCCEに基づく消化管スクリーニングへの潜在的な応用価値をもたらします。今後、研究者らは、複雑な照明条件、気泡、ぼかし、閉塞への対応など、この手法の適用シナリオをさらに拡大していく予定です。

実験の結論: マッチング + ステッチング、S2P マッチングは、カプセル内視鏡画像における汎用性を実証します。

S2Pマッチング法の性能を評価するため、研究者らは、その画像マッチング結果をCAPS、ASIFT、DeepMatching、R2D2、SuperPointといった他の最先端の画像マッチングアルゴリズムと比較しました。実験に使用されたデータセットには、2016年から2019年の間に撮影されたカプセル内視鏡画像が含まれており、テクスチャが弱いシーン、クローズアップショット、大きな角度の回転など、様々な複雑なシーンをカバーしています。

下表に示すように、研究結果によると、すべての実験タイプ(弱いテクスチャ、クローズアップ撮影、大角度回転)の中で、S2P-MatchingはNCM(正解一致数)とSR(成功率)スコアが最も高く、平均NCMは311、平均SRは81.7%でした。従来のアルゴリズムと比較して、S2P-Matchingはマッチング精度を大幅に向上させます。

異なる手法による画像マッチング性能の比較

研究者らは、異なるデータセット(弱いテクスチャ、クローズアップショット、大きな角度で回転)から3組の画像を選択し、異なる手法によるマッチング結果の視覚的表現を比較しました。入力画像の各ペアには、0.5秒間隔で撮影された2枚のカプセル内視鏡画像が含まれていました。各列の3組の画像は非常に近い位置から撮影されており、回転のばらつきが見られました。白い線は対応するペア、つまりマッチング結果を表しています。異なる手法による画像マッチング結果の視覚的表現を下図に示します。

さまざまな方法で得られた画像マッチング結果の視覚的な図

1行目から3行目までを見ると、テクスチャが弱くなり、繰り返し領域が増えるにつれて、様々な手法で得られるマッチングペアの数は、程度の差はあれ減少していることがわかります。例えば、CAPSとASIFTは、抽出できるマッチングペアの数が少なく、不正確なマッチングペアも存在するため、最終的な画像のスティッチングにエラーが発生します。DeepMatchingも、抽出できるマッチングペアの数は限られています。R2d2とSuperPointは多数のペアをマッチングしますが、その多くは不正確です。SuperGlue、LoFTR、TransforMatcherは、正しいマッチング数が少なくなっています。他の手法と比較して、 S2P-Matchingは、不純物や大幅な変換の影響を受けずに十分な数の重要なマッチングペアを抽出し、最終的な画像のスティッチングを保証することで、最高の特徴マッチング性能を実現しています。

臨床応用において、カプセル内視鏡は各画像で捉えられる視野が限られているため、医師が広い視野の中で関心領域を観察することが困難になり、診断精度に影響を与える可能性があります。通常、関心領域全体は、部分的に重なり合う複数の連続画像で構成されます。そのため、カプセル内視鏡画像を連続的につなぎ合わせることが極めて重要です。

下図に示すように、研究者たちはカプセル内視鏡画像の連続フレームをスティッチングする様々な手法を比較しました。その結果、S2Pマッチングが最も自然なスティッチング効果と最高の精度を実現し、画像のテクスチャの弱さや回転といった課題を効果的に解決することが示されました。他のアルゴリズムと比較して、この手法は最も多くのマッチングペアを生成し、スティッチング結果には明らかなテクスチャのずれ、オーバースケーリング、テクスチャの連結の問題は見られませんでした。

異なる方法による画像ステッチ効果の比較

さらに、研究者らはアブレーション実験を通して、異なるモジュールが最終結果に与える影響を調査しました。その結果、画像導出と深層特徴記述子を組み合わせたS2P-Matchingフレームワークは、特に複雑なカプセル内視鏡画像の処理において、画像マッチング精度を大幅に向上させることが示されました。さらに、S2P-Matchingは、異なる角度から回転した画像の処理において非常に優れた性能を示し、大きな回転角度の画像マッチングタスクにも良好に適応し、その精度は他の手法を上回りました。

要約すると、S2P-Matching は、複雑なカプセル内視鏡画像マッチングタスクにおいて、より高いマッチング精度とより優れたステッチング結果を実現し、特に、弱いテクスチャ、回転、近距離撮影などの複雑な状況で大きな利点を示します。

スマートヘルスケアのリーダー

医療技術の進歩により、カプセル内視鏡は人体の内部世界を観察するための「小さなレンズ」となりました。AIを活用したこの非侵襲的な検査法は、患者の苦痛を軽減するだけでなく、医師に貴重な診断情報を提供します。

特筆すべきは、本論文の筆頭著者である華中科技大学の陸鋒教授が、AIの疾病診断・治療への応用に注力していることです。前述の研究に加え、教授はシドニー大学のチームと共同で、「早期補助診断のためのきめ細かな病変分類フレームワーク」と題する論文をIEEE/ACM Transactions on Computational Biology and Bioinformaticsに掲載しました。この論文では、カプセル内視鏡検査のためのきめ細かな病変分類フレームワークを提案しており、カプセル内視鏡検査の医用画像から様々なサイズの病変候補を正確に識別することで、医師の早期診断を支援します。

原著論文:
https://ieeexplore.ieee.org/abstract/document/10077722

陸鋒教授は、Nat Med、IEEE Network、TBME、TCBB、TIOT、AAAIなどのトップクラスの国際ジャーナルや会議で30以上の学術論文を発表し、国内外で数多くの特許や技術賞を受賞するなど、大きな研究成果を上げています。

陸豊

Lu Fengの個人ホームページ:
http://faculty.hust.edu.cn/lufeng2/zh_CN/index.htm

彼女の研究チームは、華中科技大学のCGCL実験室に所属しています。この実験室は、科学技術部の重点イノベーションチーム、教育部の「長江学者・イノベーションチーム育成計画」イノベーションチームの先導部隊、そして湖北省自然科学基金のイノベーションチームに指定されています。400件近くの科学研究プロジェクトを実施し、豊富な医療データリソースと豊富なコンピューティングリソースを有しています。世界でも数少ない、産業規模のデータ分析とインテリジェント医療研究を実施できる実験室の一つです。
華中科技大学CGCL研究室ホームページ:
https://grid.hust.edu.cn/

陸鋒教授のチームは、高い技術力と豊富なリソースによって目覚ましい成功を収めているだけでなく、国内外のトップ大学との連携も積極的に進めています。例えば、今回の研究では、陸鋒教授のチームは、医療におけるAIの分野のベテラン研究者である盛斌教授と共同研究を行いました。盛斌教授は長年にわたりAIの医療への応用に注力しており、この分野で一連の研究成果を発表しています。その中には、糖尿病の診断と治療のための世界初の視覚・大規模言語モデル統合システムDeepDR-LLMの構築、プライマリケア医への個別化された糖尿病管理アドバイスや糖尿病網膜症の補助診断結果の提供などが含まれています。

詳細: 世界初!清華大学、上海交通大学などが共同で糖尿病の診断と治療のための大規模視覚言語モデルを開発し、Nature サブジャーナルに掲載されました。

今後、これらの優れた研究者の共同の努力により、より正確で効率的な医療診断を実現し、患者の医療体験を真に向上させることができると期待しています。

参考文献:
1.https://gleneagles.hk/en/medical-treatments/capsule-endoscopy
2.https://m.21jingji.com/article/20240409/herald/244d34d9d0c815096fa8f3a25ca5cced_zaker.html