|
2023年4月、Metaは「あらゆるものをセグメント化できる」と主張するSegment Anything Model(SAM)を発表しました。これはコンピュータービジョンの分野全体を揺るがす爆弾のようなものであり、従来のコンピュータビジョンのタスクを根底から覆す研究だと多くの人に考えられました。 それから1年以上経ち、 Metaは新たなマイルストーンアップデートであるSAM 2をリリースしました。SAM 2は、静止画と動画コンテンツの両方において、リアルタイムのキューベースのオブジェクトセグメンテーションを提供し、画像と動画のセグメンテーション機能を単一のシステムに統合しています。当然のことながら、この強力な機能により、業界は様々な分野、特に医療画像セグメンテーションにおいてSAMの応用研究を加速させており、多くの研究室や学術研究チームが既にSAMを医療画像セグメンテーションモデルの最適な選択肢と見なしています。 医用画像のセグメンテーションとは、特別な意味を持つ医用画像の部分をセグメント化し、関連する特徴を抽出するプロセスを指し、それによって臨床診断、病理学的研究、およびその他の研究のための信頼できる基盤を提供します。 近年、ディープラーニング技術の継続的な進歩により、ニューラルネットワークモデルに基づくセグメンテーションが医療画像セグメンテーションの主流となり、自動化されたセグメンテーション手法によって効率と精度が大幅に向上しました。しかし、医療画像セグメンテーション分野の特殊な特性を考慮すると、依然として解決すべき課題がいくつかあります。 まず、モデルの一般化の問題があります。特定のターゲット(臓器や組織など)向けに学習したモデルは他のターゲットへの適応が難しく、異なるセグメンテーションターゲットに合わせて対応するモデルを再開発する必要があることがよくあります。次に、データの不一致の問題があります。コンピュータービジョン向けに開発された標準的なディープラーニングフレームワークの多くは2D画像用に設計されていますが、医用画像処理では、CT、MRI、超音波画像など、データは通常3D形式です。この不一致は、モデルの学習に大きな問題を引き起こすことは間違いありません。 これらの課題に対処するため、オックスフォード大学のチームはMedical SAM 2(MedSAM-2)と呼ばれる医用画像セグメンテーションモデルを開発しました。SAM 2フレームワークをベースとしたこのモデルは、医用画像を動画として扱い、3D医用画像セグメンテーションタスクにおいて卓越した性能を発揮するとともに、ワンタイムキューセグメンテーションという新たな機能を実現します。ユーザーは特定の新しいオブジェクトに対するキューを提示するだけで、モデルは追加の入力なしに、後続の画像で類似のオブジェクトを自動的にセグメンテーションできます。 「Medical SAM 2: Segment Anything Model 2 による医療画像をビデオとしてセグメント化する」と題された関連論文と調査結果が、プレプリント プラットフォーム arXiv で公開されました。 研究のハイライト:
論文の宛先: SA-V ビデオ セグメンテーション データセットは直接ダウンロードできます。 https://go.hyper.ai/e1Tth Medical SAM 2 医療セグメンテーションデータセットの例: https://go.hyper.ai/TZZBj オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。 データセット: 分類設計、包括的評価研究チームは、自動生成されたマスキングヒントを使用して、2 つのカテゴリに分類された 5 つの異なる医療画像セグメンテーション データセットで実験を実施しました。 最初のカテゴリーは、一般的なセグメンテーション性能を評価することを目的としています。チームは腹部多臓器セグメンテーションタスクを選択し、12の解剖学的構造を含むBTCVデータセットを使用しました。 2つ目のカテゴリーは、異なる画像モダリティにおけるモデルの一般化能力を評価することを目的としています。研究者らは、眼底画像における視神経乳頭および眼杯のセグメンテーションにはREFUGE2データセット、MRIスキャンにおける脳腫瘍のセグメンテーションにはBraTs 2021データセット、超音波画像における甲状腺結節のセグメンテーションにはTNMIXベンチマーク(TNSCUIの4,554枚の画像とDDTIの637枚の画像で構成)、皮膚病変画像における黒色腫または母斑のセグメンテーションにはISIC 2019データセットを使用しました。 さらに、研究チームは10個の2D画像セグメンテーションタスクを追加設定し、異なる種類の手がかりを用いたモデルの単一手がかりセグメンテーション能力をさらに評価しました。具体的には、KiTS23、ATLAS23、TDSC、WBCなどのデータセットではドット手がかり、SegRap、CrossM23、REFUGEなどのデータセットではバウンディングボックス手がかり、CadVidSet、STAR、ToothFairyなどのデータセットではマスク手がかりを使用しました。 モデルアーキテクチャ:異なる次元の医用画像に対する効果的なセグメンテーション処理MedSAM-2 のアーキテクチャは基本的に SAM 2 に似ていますが、研究チームは信頼性メモリ バンクと重み付けピックアップ戦略を組み合わせてモデルの機能を技術的に保証する、独自の効率的な処理モジュールとパイプラインも構築しました。 具体的には、 MedSAM-2 のアーキテクチャは次の図に示されており、次のものが含まれます。
MedSAM-2 フレームワーク図 ネットワーク内のエンコーダとデコーダはSAMのものと類似しています。エンコーダは階層的なビジュアルトランスフォーマーで構成され、デコーダにはキュー埋め込みと画像埋め込みを統合する軽量な双方向トランスフォーマーが含まれています。キュー埋め込みはキューエンコーダによって生成されます。メモリアテンションコンポーネントは、積み重ねられたアテンションブロックの列で構成され、各ブロックには自己アテンションブロックとクロスアテンションメカニズムが含まれています。 MedSAM-2の重要な革新点は、医用画像処理をビデオセグメンテーションとして扱う点です。これは、3D医用画像セグメンテーションの性能向上と「シングルプロンプトセグメンテーション機能」の実現の鍵となります。この目的のため、チームは2Dおよび3D医用画像用の2つの異なるワークフローを開発し、異なる次元の医用画像を効果的にセグメンテーションしました。 3D医用画像処理では、隣接するスライス間に強い時間的相関があるため、ビデオデータと同様の処理方法が採用されています。SAM2独自のストレージシステムを用いて、過去のスライス画像とそれに対応する予測値を取得し、連続スライス分割を行います。その後、メモリアテンション機構によって入力画像の埋め込みが強化され、分割結果がストレージ領域に再追加され、後続のスライスの分割を支援します。 2D医用画像処理では、 SAM 2で使用されている時間的先入先出キューとは処理方法が異なります。同じ臓器または組織を含む医用画像群を「医用画像ストリーム」にグループ化し、「信頼度優先」ストレージ領域を使用してモデルのテンプレートを保存します。信頼度はモデルの予測確率に基づいて計算され、画像多様性制約が実装されます。入力画像の埋め込みとストレージ領域情報をマージする際には、重み付け選択戦略が使用されます。トレーニングフェーズでは、キャリブレーションヘッドを使用することで、より正確なモデル予測が保証されます。最終的には、時間的相関がなくても、単一のサンプルキューのみで自動ターゲットセグメンテーションを実現します。 実験結果: MedSAM-2 はパフォーマンスと一般化能力の両方で優れています。研究チームは、IoU (Intersection over Union) と Dice Score を使用して医療画像セグメンテーションにおけるモデルのパフォーマンスを評価し、同時にハウスドルフ距離 (HD95) メトリックを導入してパフォーマンス評価の精度を確保しました。
まず、研究チームはMedSAM-2を、2Dおよび3D医用画像のセグメンテーションタスクを含む、様々な最先端(SOTA)医用画像セグメンテーション手法と比較しました。3D医用画像の場合、キューは0.25の確率でランダムに提供され、2D医用画像の場合、キューの確率は0.3でした。 提案モデルの3D医用画像における総合的な性能を評価するため、研究チームはMedSAM-2をBTCV多臓器セグメンテーションデータセット上に構築された最先端のセグメンテーション手法と比較しました。これらの手法には、nnUNET、TransUNet、UNetr、Swin-UNetrといった著名なモデルや、拡散ベースのモデル(EnsDiff、SegDiff、MedSegDiffなど)が含まれます。さらに、研究チームはオリジナルのSAM、完全に微調整されたMedSAM、SAMed、SAM-Med2D、SAM-U、VMN、そしてFCFIなどのインタラクティブセグメンテーションモデルとの比較評価も行いました。性能はDice Scoreを用いて定量化され、その結果は下の図に示されています。 BTCV データセットにおける MedSAM-2 と高度なセグメンテーション手法の比較は、Dice Score 評価によって定量化されました。 結果は、MedSAM-2が従来のSAMおよびMedSAMモデルと比較して大幅な改善を示していることを示しています。BTCVデータセットでは、MedSAM-2は多臓器セグメンテーションタスクで優れたパフォーマンスを発揮し、最終Diceスコアは88.57%に達しました。インタラクティブモデルでは、MedSAM-2はトップの座を維持し、従来のトップインタラクティブモデルであるMed-SAを2.78%上回りました。これらのインタラクティブモデルはすべてフレームごとにプロンプトを必要としますが、MedSAM-2はより少ないプロンプトでより良い結果を達成しています。 2D医用画像セグメンテーションタスクにおいて、研究チームはMedSAM-2を、様々な画像モダリティ向けにカスタマイズされたタスク固有の手法と比較しました。具体的には、眼杯セグメンテーションではResUnetおよびBEAL、脳腫瘍セグメンテーションではTransBTSおよびSwinBTS、甲状腺結節セグメンテーションではMTSegおよびUltraUNet、皮膚病変セグメンテーションではFAT-NetおよびBATと比較しました。さらに、研究チームはインタラクティブモデルのベンチマークテストを実施し、その結果を下図に示します。 異なる画像モダリティにおける MedSAM-2 と高度なセグメンテーション手法の比較 結果は、MedSAM-2が5つの異なるタスクにおいて他のすべての手法を上回る性能を示し、様々な医用画像セグメンテーションタスクにおいて優れた汎化能力を発揮していることを示しました。具体的には、MedSAM-2は眼杯で2.0%、脳腫瘍で1.6%、甲状腺結節で2.8%の改善を達成しました。インタラクティブなモデル比較においても、MedSAM-2は引き続きトップクラスの性能を維持しています。 最後に、研究チームは、連続画像間の明確な関連性を示さずに、1つの手がかりのみを与えた場合のMedSAM-2のパフォーマンスを評価し、MedSAM-2の単一手がかりセグメンテーション能力をさらに検証しました。具体的には、研究チームはMedSAM-2をPANet、ALPNeu、SENet、UniverSeg(いずれも1つの手がかりのみでテストされたモデル)と比較しました。さらに、研究チームはMedSAM-2をDAT、ProbONE、HyperSegNas、One-promptなどのシングルショットモデルと比較しました。 異なるキューを持つ 10 個のデータセットでの単一キュー セグメンテーションにおける MedSAM-2 モデルとシングルショット モデルの比較。 結果は、MedSAM-2が様々なタスクにおいて堅牢な汎化能力を示し、高度に訓練されたOne-prompt法でさえも凌駕し、10タスク中1タスクのみで遅れをとっていることを示しています。さらに、すべての手法がマスクを提供するシナリオでは、MedSAM-2はさらに顕著な優位性を示し、典型的には2位の手法を平均3.1%上回り、これはすべてのキュー設定の中で最大の差となりました。 SAM は医療画像セグメンテーション研究の急速な進歩を推進しています。本論文の発表は、医療分野におけるSAMおよびSAM 2の可能性をさらに深く探求したものであり、医用画像セグメンテーションのための全く新しいアプローチと手法を提供しています。特に、臨床応用において大きな可能性と価値を示し、医用画像セグメンテーションの作業負荷を大幅に軽減し、効率と精度を向上させています。 さらに重要なのは、記事の冒頭で述べたように、多くの研究室や学術チームが SAM の可能性を探求しており、本稿で言及したオックスフォード大学のチームだけが医療画像セグメンテーションの分野における唯一のチームではないということです。 偶然にも、SAMのリリース直後、深圳大学医学部バイオメディカル工学学院の倪東教授率いるチームは、オックスフォード大学、チューリッヒ工科大学、浙江大学、深圳人民病院、都英医療と共同で、SAMの医用画像処理への応用に関する包括的かつ多面的な実験と評価を開始しました。「医用画像のためのセグメント化モデル?」と題された関連論文と結果は、医用画像解析分野の国際トップジャーナルである「Medical Image Analysis」に掲載されました。 本研究論文では、研究チームは最終的に、18種類の画像モダリティ、84種類の生物医学的セグメンテーションターゲット、105万枚の2D画像、そして6033万枚のセグメンテーションマスクを含む大規模な医療画像セグメンテーションデータセット「COSMOS 1050K」を構築しました。このデータセットに基づき、研究者らはSAM(セグメンテーション認識モデル)の包括的な評価を行い、医療ターゲット認識におけるSAMの能力を向上させる方法を検討しました。 COSMOS 1050K 医療画像セグメンテーションデータセットの直接ダウンロード:https://go.hyper.ai/zFpIE さらに、復旦大学ビッグデータ学院と上海交通大学バイオメディカル工学学院のチームも、医療画像セグメンテーション分野におけるSAMに関する一連の研究を実施しています。関連論文「医療画像セグメンテーションのためのあらゆるものをセグメント化するモデル:現在の応用と将来の方向性」は、arXivやComputer in Biology and Medicineなどの著名な学術ウェブサイトやジャーナルに掲載されています。 本論文では、自然画像セグメンテーションにおいて顕著な成功を収めているSAMの、医用画像セグメンテーション分野における潜在的な応用に焦点を当てています。また、SAMモジュールの微調整と、医用画像セグメンテーションに適応するための類似アーキテクチャの再学習についても検討します。 論文の宛先: https://www.sciencedirect.com/science/article/abs/pii/S0010482524003226 結論として、上記の論文で議論されているように、科学者たちはSAMの可能性を探求することで、医用画像の処理と分析をよりシンプルかつ効率的にしてきました。これは、学術界、医療界、そして患者にとってさえも有望な成果です。さらに、SAMのような汎用的な画像セグメンテーションモデルの登場は、様々な分野に魔法のような扉を開き、医用画像だけでなく、自動運転、ニューメディア、AR/VRなどの分野も将来的に大きな恩恵を受けると期待されています。 本のプレゼント HyperAIは、Electronic Industry Pressと共同で、非常に有益な科学書籍「AI for Science: Artificial Intelligence Driving Scientific Innovation」を5名様にプレゼントいたします。抽選にぜひご参加ください! 参加方法 HyperAI WeChat公式アカウントをフォローし、バックグラウンドで「AI4S Book Giveaway」と返信してください。抽選ページをクリックしてプレゼントにご参加ください。5冊の書籍を無料でご自宅までお届けします。ぜひご参加ください! 本の紹介 タンパク質構造の予測から遺伝子変異の病原性の推論まで、AIが主導する新しいパラダイムは、生命科学を含むさまざまな科学分野に新たな機会をもたらしています。 『AI for Science: 人工知能による科学イノベーションの推進』は、材料科学、生命科学、電子科学、エネルギー科学、環境科学という5つの主要分野における人工知能の学際的統合に焦点を当てています。本書は、分かりやすい言葉を用いて、基本概念、技術原理、そして応用シナリオを包括的に解説し、読者がAI for Scienceの基礎を迅速に理解できるよう支援します。さらに、それぞれの学際分野において、詳細なケーススタディ、業界動向の概要、そして関連する政策的知見を提供しています。 |
SAM 2の最新アプリケーションが開発されました!オックスフォード大学のチームが医療用SAM 2をリリース。医療画像セグメンテーションにおける評価の新たな境地を切り開きます。
関連するおすすめ記事
-
37 Interactive Entertainmentの上半期の売上高は92億3200万元に達し、前年同期比18.96%増となり、新記録を樹立した。
-
網膜に埋め込まれた2mmのチップにより、目の不自由な人が読書能力を取り戻し、トランプゲームもできるようになる。元マスク従業員の起業家としての功績がここにある。
-
25万!BYDはHuaweiとの「提携」に成功したその日に、LIDAR技術を撤去した!
-
Yan Shuicheng と Yuan Li が新世代の MoE アーキテクチャを提案: エキスパートのスループット速度が最大 2.1 倍向上!
-
1km×1km×1時間の最高精度!DAMOアカデミーが大規模気象モデルをリリース、山東省で導入予定。
-
Phi 3.5 mini+vision をワンクリックで導入! マルチモーダル読解ベンチマークデータセット MRR-Benchmark がオンラインになりました。550 組の質問と回答が含まれています。