|
AIが特定の条件下で人間のような反応能力を持ち、人間に代わって特定のタスクを効率的に実行できるようにすることは、AI分野の研究者の絶え間ない追求です。例えば、医用画像と人工知能という学際的な分野では、自動化された視覚言語事前学習(VLP)に基づくディープラーニングモデルを、大規模な画像とそれに対応するテキストのデータセットで事前学習させることで、新しい画像から関連する特徴を自動的に抽出することを学習し、時間と労力を要する手作業によるアノテーション処理を効率的に解決します。 しかし、医療分野での VLP の成功にもかかわらず、そのアプリケーションで使用されるデータの規模をさらに拡大するには、依然として多くの課題に直面しています。 まず、既存のモデル学習は主にシングルモーダルデータ(主にX線などの2D画像)に依存しており、これはマルチモーダル画像(CT画像やMRI画像などの2Dおよび3D画像を含む)を含む実際の医療シナリオとは整合しません。次に、医用画像における異なるモダリティの本質的な異質性が、それらの効果的な連携と統合を妨げています。さらに、異なるモダリティの医用画像データは次元の違いやペアデータの不足が見られます。そのため、統一モデルを構築し、これらの異なるモダリティデータを共通空間に効果的にマッピングして共同学習を実現することは、非常に困難な課題となっています。 上記の問題に対処するため、浙江大学のHaoji Hu氏が率いるチームは、Microsoft Research AsiaのLili Qiu氏のチームと共同で、画期的な統合型医用画像事前学習フレームワーク「UniMedI」を提案しました。UniMedIは、診断レポートを共通の意味空間として活用し、異なるモダリティの医用画像に統一的な表現を作成します。さらに、「疑似ペア」を作成する技術も導入されており、テキストをガイドとして、複雑な3D画像からテキストに関連する2Dスライスを選択できます。これらのスライスは、2Dデータと3Dデータを橋渡しする疑似ペアとして機能し、様々な医用画像モダリティ間の一貫性を高め、マルチモーダル医用画像を効果的に統合します。 「言語誘導共通意味空間における統合医療画像事前トレーニング」と題された関連研究成果は、コンピュータービジョンと機械学習の分野におけるトップカンファレンスであるECCV 2024で採択されました。 トップカンファレンスの詳細については、以下のリンクをクリックしてください。 https://go.hyper.ai/0wtVi 研究のハイライト:
論文の宛先: オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。 実際の医療データ、効果的な検証フレームワーク事前トレーニング UniMedI フレームワークに使用されるデータは、2D X 線データセット MIMIC-CXR 2.0.0 と 3D CT スキャン データセット BIMCV の JPG バージョンから取得されます。 本研究では、研究者らは、正面画像のみを使用する下流タスクと整合させるため、2Dデータセットから側面画像をすべて削除する前処理を行いました。さらに、データセットの整合性を維持するため、2Dデータセットと3Dデータセットの両方において、3文未満の短いレポートは実験では使用しませんでした。 画像でいうと、2D画像のサイズは224×224、3D画像のサイズは128×128×32です。 研究チームは、バッチサイズ 144 の 8 つの Tesla V100 GPU で UniMedI フレームワークを 50 回事前トレーニングしました。 実験評価では、まず2Dおよび3Dデータセットの医療画像分類を行いました。代表的な2Dデータセットは3つあり、191,229枚の正面胸部X線写真を含むCheXpert、約29,700枚の正面胸部X線写真を含むRSNA肺炎ステージ2版、そして2,800人以上の患者から得られた16,490枚のCOVID-19陽性画像です。 研究チームは、代表的な3DデータセットをCC-CCIIとLUNA 16の2つに分類しました。CC -CCIIでは、2,698人の患者を対象とした3,993回のスキャンから得られた340,190枚のスライスを含むClean-CC-CCIIバージョンを使用しました。LIDC-IDRIをベースにしたLUNA 16には、注釈付きのCTスキャンが888枚含まれています。実験中、スライス厚が3mmを超えるCTスキャンはLIDC-IDRIデータベースから削除されました。 階層化されたコラボレーションメカニズムがデータの障壁を打ち破る本研究では、視覚言語事前学習フレームワークであるUniMedIを提案する。医用画像とそのテキストレポートは、それぞれビジョンエンコーダとテキストエンコーダの2つのエンコーダでエンコードされ、VL(Vision-Language)対照学習によって統合学習される。UniMedIのユニークな特徴は、2D画像と3D画像を統合的に効率的に取得できることであり、医療分野におけるデータ不足の問題を解決できる。UniMedIの全体的なフレームワークは、下図の左側に示されている。 UniMedI 全体フレームワーク: 左側には全体的なプロセスが表示され、右側には主要な設計が表示されます。 実験では、ビジュアルエンコーダーとしてViT-B/16を使用しました。これは主に2Dおよび3Dビジュアルデータの共通特徴空間から表現を抽出するものです。テキストエンコーダーでは、BioClinicalBERTを使用してテキスト特徴をエンコードしました。ビジュアルエンコーダーとテキストエンコーダーは、2Dデータと3Dデータの両方で互換性があります。 ペアになった 2D および 3D 画像データの不足という課題を克服するために、研究チームは、新しい言語誘導型の注目スライス選択戦略に基づいて設計された「疑似ペア」を作成するための手法を UniMedI に導入しました。 例えば、入力が3D画像の場合、レポートに最も関連性の高い2Dスライスが抽出されます。選択されたスライスは2D画像として扱われ、2D画像と3D画像の間に擬似的なペアリング関係が作成されます。その後、選択された2Dスライスと元の3D画像をネットワークに入力することで、ネットワークは自身とレポートの関係を学習し、最終的に統一された特徴空間を形成します。入力が2D画像の場合、スライス選択プロセスは省略されます。 次に、ビジュアルエンコーダがすべてのマルチモーダル画像(元の2D画像と3D画像、および選択された2Dスライスを含む)を表現空間にマッピングします。このビジュアルエンコーダは、2D画像と3D画像それぞれに個別のトークナイザーT2DとT3Dを備え、より優れたアンサンブル処理のために共有バックボーンEvを備えています。ビジュアルエンコーダとテキストエンコーダEₗで構成されるモデルは、対照学習損失Lᵥₗを用いてVLPでエンドツーエンド学習されます。このプロセスでは、2D画像と3D画像の両方を、レポートの言語情報によって管理される共通の意味空間にエンコードできます。 本研究では、医用画像に内在するマルチモーダルデータと一部の公開情報を最大限に活用するため、マスキングと復元という補助的なタスク設計を導入し、自己蒸留法を用いてタスクを完了します。これにより、2D画像と3D画像のトークンが相互に通信できるようになり、次元間の相互作用とマルチモーダル画像の統合が強化されます。 UniMedI の主なハイライトは、注目に値するのは、注意スライス選択戦略と VL 対照学習の相乗効果です。
多面的な実験評価により、UniMissを上回るパフォーマンスが示されたUniMedI の包括的かつ効果的な評価を行うために、本研究では多面的な観察を採用し、そのパフォーマンスと有効性をさまざまな医療 VLP 方法と比較しました。 まず、研究チームはUniMedIを、ConVIRT、GLoRIA、MGCA、LOVT、そしてX線写真とそれに対応する医療報告書に特化したPRIORなどの手法と比較しました。次に、UniMedIをUniMissやJointを含む複数の2Dおよび3D共同学習手法と比較しました。 線形分類実験の結果、 2D 医療画像分類実験 (下図参照) では、ViT を視覚エンコーダーとして使用する最先端の MGCA (ViT-b/16) 方式と比較して、UniMedI が、異なるトレーニング データ (1%、10%、100%) での 3 つの 2D 医療画像分類で最高のパフォーマンスを発揮することが示されました。
UniMedIは、対応するアルゴリズムと比較して、CheXpertデータセットで+0.6%、+0.6%、+0.8%、RSNAデータセットで+0.9%、+0.5%、+0.7%、COVIDデータセットで+5.5%、+7.6%、+2.3%のAUROC改善を達成しました。実験結果は、提案アルゴリズムの有効性を実証しています。 1%、10%、100% のトレーニング データを使用した CheXpert、RSNA、COVID データセットの 2D 線形分類結果。 3D医用画像分類実験(下図参照)において、UniMedIは最先端のUniMissと比較して、CC-CCIIデータセットにおいてそれぞれ+22.6%、+2.0%、+0.8%のACCゲインを達成しました。これらのデータは、UniMedIのデータ効率と有効性を実証しています。 1%、10%、100% のトレーニング データを使用した CC-CCII の 3D 線形分類結果。 一方、完全なトレーニング データを使用してフル ビジョン エンコーダーを微調整すると、UniMedI は、CC-CCII や LUNA などの複数の 3D 医療画像データセットで他の方法よりも優れたパフォーマンスを発揮します。 下図に示すように、UniMedIはCC-CCIIデータセットで93.8%、LUNA2016-v2データセットで95.9%のACCを達成しています。これは、2Dおよび3D医用画像分類タスクにおける優れた汎化能力を示しており、このフレームワークが3D CT画像から一般的な特徴を抽出できることを示しています。 完全なトレーニングデータを使用したCC-CCIIおよびRICORDデータセットの3D微調整結果 医療セマンティックセグメンテーションの実験結果によると、 2D医療セマンティックセグメンテーションにおいて、UniMedIは最先端のMGCAアルゴリズムを大幅に上回り、トレーニングデータのわずか1%でDiceスコア67.8%を達成しました。BCVデータセットにおける3D医療セマンティックセグメンテーションでは、利用可能な有限ラベルがそれぞれ40%と100%の場合、UniMedIはUniMissと比較して精度を0.6%と0.4%向上させました(下図参照)。
これらの結果は、意味のある特徴を抽出し、限られた注釈付きデータを効果的に活用する上での UniMedI の優位性を検証し、ローカル表現を使用したセマンティック セグメンテーション タスクにおけるその優れた能力を実証しています。 テクノロジーはVLPと医療画像とのつながりを深めるのに役立ちます視覚言語事前学習モデルは、特に医用画像処理分野において、コンピュータービジョンと自然言語処理を繋ぐ重要な架け橋となりつつあります。大規模な視覚データと言語データを用いた事前学習により、複雑な医用画像とテキスト間の複雑な関係性を容易に捉えることができ、医師の画像診断支援、企業の医薬品開発支援、あるいはインテリジェントな医用画像管理の実現に貢献します。 この研究がトップクラスの国際会議に選ばれたことは、人工知能と医用画像の融合分野におけるVLPの計り知れない可能性をさらに示しています。実際、浙江大学とマイクロソフトリサーチアジアとの連携に加え、既に多くの研究室がこの分野で画期的な成果の創出に取り組んでいます。 例えば、上記の研究で言及された先進的手法の一つであるUniMissについては、オーストラリアのアデレード大学とノースウェスタン工科大学コンピュータサイエンス学部のチームによって、2022年にECCVに「UniMiss: 次元障壁を打ち破る普遍的な医療自己教師学習」と題された関連結果が発表されました。 論文の宛先: 本研究では、著者らは3Dデータの不足を補うために大量の2D画像を用いることを提案し、汎用的な医療用自己教師あり表情学習フレームワーク「UniMiss」の構築を目指しています。実験結果によると、UniMissはImageNet事前学習やその他の高度なSSL(自己教師あり学習)の競合製品と比較して大きな優位性を示し、2D/3D医療画像解析におけるセグメンテーションと分類の両方のタスクで満足のいく結果を達成しました。 さらに、今年7月には、研究チームはUniMissに関する新たな研究ラウンドを実施し、UniMiss+を提案しました。現在、その成果は「UniMiSS+: Universal Medical Self-Supervised Learning From Cross-Dimensional Unpaired Data」というタイトルで、著名な国際誌「IEEE Transactions on Pattern Analysis and Machine Intelligence」に掲載されています。 論文の宛先: 最新の研究では、研究チームはUniMiss+にデジタル再構成X線技術を導入し、CTスキャンX線画像をシミュレートすることで、CT画像とX線画像のペアデータへのアクセスを可能にしました。これは、前世代のUniMissに比べて大幅な改良です。 結論として、人工知能と医用画像処理の統合に関する研究は依然として盛んに行われています。これらの成果は、やがて応用へと発展し、実際の医療現場に導入され、医療従事者、患者、そして企業に利益をもたらす新たなツールとなるでしょう。 |
ECCV 2024に選出されました!浙江大学は、Microsoft Research Asiaと共同で、異種医療データの障壁を打ち破る統合医療画像事前トレーニングフレームワーク「UniMedI」を提案しました。
関連するおすすめ記事
-
Alipay は大規模な医療アプリケーションに進出しており、同社のトップ技術専門家は次のように語っている。「当社には 4 つのエントリー ポイントがあります。」
-
ファーウェイの元幹部である蘇静氏がホライゾン・ロボティクスに登場し、4年ぶりに再びこう語った。「自動運転は宣伝文句だけでは生き残れない。」
-
王伝福は1日あたり1億元を費やし、インテリジェント運転に多額の投資を行っている。
-
すごい!ビッグランゲージ拡散モデルが登場。なぜ次のトークンを予測するだけなの? | 人民大学、ヒルハウスキャピタル、アントファイナンシャル
-
Ant Financial の革新的なクロスドメイン微調整フレームワーク ScaleOT が、世界トップクラスの AI カンファレンスである AAAI 2025 に選ばれました。
-
PLMにおける大きな進歩!上海交通大学と上海AIラボの最新の成果がNeurIPS 24に選出されました。ProSSTはタンパク質構造情報を効果的に統合します。