618ZXW

ECCV 2024に選出!MITは54,000枚以上の画像をカバーし、SAMを上回る医用画像セグメンテーションの汎用モデルであるScribblePromptを提案しています。

「素人は全体像を見るが、専門家は細部を見る」という格言は、医用画像分野においてまさに真実です。さらに、専門家であっても、X線、CTスキャン、MRIといった複雑な医用画像におけるニュアンスを正確に見分けることは容易ではありません。医用画像セグメンテーションは、複雑な医用画像から特定の意味のある部分を分離し、関連する特徴を抽出することで、医師が患者により正確な治療計画を立てるのを支援し、研究者が病理学的研究のためのより信頼性の高いデータを提供することを可能にします。

近年、コンピュータ技術とディープラーニング技術の発展により、医用画像のセグメンテーション手法は手作業から自動セグメンテーションへと急速に移行しており、訓練されたAIシステムは医師や研究者にとって重要な支援ツールとなっています。しかし、医用画像の複雑性と専門性ゆえに、システムのトレーニングの大部分は依然として経験豊富な専門家による手作業によるセグメンテーションとトレーニングデータの作成に依存しており、時間と労力を要するプロセスとなっています。一方、既存のディープラーニングベースのセグメンテーション手法は、適用性の問題や柔軟なインタラクションの必要性など、実用上多くの課題に直面しています。

既存のインタラクティブなセグメンテーションシステムの実用的応用における限界に対処するため、MITコンピュータサイエンス・人工知能研究所(MIT CSAIL)のチームは、マサチューセッツ総合病院およびハーバード大学医学大学院の研究者と共同で、インタラクティブな生物医学画像セグメンテーションのための汎用モデルであるScribblePromptを提案しました。このニューラルネットワークベースのセグメンテーションツールにより、アノテーターは、描画、クリック、バウンディングボックスなどの様々なアノテーション手法を用いて、学習されていないラベルや画像タイプであっても、生物医学画像セグメンテーションタスクを柔軟に実行できます。

「ScribblePrompt: あらゆる生物医学画像のための高速かつ柔軟なインタラクティブセグメンテーション」と題されたこの研究は、国際的に有名な学術プラットフォームarXivで公開され、最高峰の国際学術会議ECCV 2024に採択されました。

研究のハイライト:

  • このモデルは、特にトレーニングされていないラベル付きおよび画像タイプの場合、既存の最先端モデルに比べて優れた機能を備え、あらゆるバイオメディカル画像セグメンテーションタスクを迅速かつ正確に実行できます。
  • 落書き、クリック、境界ボックスなど、さまざまな柔軟な注釈スタイルを提供します。
  • 計算効率が向上し、単一の CPU でも高速な推論が可能になります。
  • 関連分野の専門家によるユーザー調査では、このツールにより SAM と比較して注釈作成時間が 28% 短縮されました。

論文の宛先:
https://arxiv.org/pdf/2312.07381

MedScribble データセットのダウンロード リンク:

https://go.hyper.ai/mLjNW

「ScribblePrompt 医療画像セグメンテーションツール」がHyperAIチュートリアルセクションに公開されました。ツールをクローンするだけで起動できます。チュートリアルへのリンク:

https://go.hyper.ai/nCq9M

大規模なデータセットは、モデルのトレーニングとパフォーマンス評価を包括的にカバーします。

本研究では、MegaMedical などの大規模なデータセット収集の取り組みを基に、トレーニングと評価のために 54,000 枚のスキャン画像、16 種類の画像、711 のラベルを網羅する 77 のオープン アクセス バイオメディカル画像データセットをまとめました。

これらのデータセットには、目、胸部、脊椎、細胞、皮膚、腹筋、首、脳、骨、歯、病変のスキャンを含む、生物医学の幅広い分野をカバーする画像が含まれています。画像の種類には、顕微鏡、CT スキャン、X 線、MRI、超音波、写真などがあります。

学習と評価の観点から、研究チームは77個のデータセットを65個の学習データセットと12個の評価データセットに分割しました。12個の評価データセットのうち、9個のデータセットのデータはモデル開発、モデル選択、最終評価に使用され、残りの3個のデータセットのデータは最終評価のみに使用されました。

各データセットは、下の図に示すように、6:2:2 の比率でトレーニング セット、検証セット、テスト セットに分割されます。

以下の2つの画像はそれぞれ「検証・テストデータセット」と「トレーニングデータセット」です。 「検証・テストデータセット」は、ScribblePromptモデルのトレーニング中は表示されません。

検証データセットとテスト データセットが表示されます。ラベルの付いた 3 つのデータセットは、完全なテストに使用されるデータセットです。

トレーニングデータセット

データセットの相対的なサイズに関しては、研究チームは各データセットに固有のスキャン数があることを確認しました。

高速推論を実現する高効率アーキテクチャにより、実用的なセグメンテーション ツールの構築が可能になります。

研究チームは、新しい生物医学的イメージング分野や関心領域に拡張できる、実用性の高い柔軟でインタラクティブなセグメンテーション手法を提案しました。

研究チームは、下図に示すように、トレーニング中にシミュレートされたインタラクションセグメンテーションの一連の手順を示しています。入力は、与えられた画像セグメンテーションペア (xᵗ, yᵗ) です。チームはまず、境界ボックス、クリック、落書きなどを含む可能性のある初期インタラクションセット u₁ をシミュレートし、その後、最初の予測ステップに進み、初期値を 0 に設定します。次のステップでは、エラー領域における以前の予測をシミュレートし、シミュレーション修正後の初期インタラクションセットに追加して u₂ を取得します。このプロセスを繰り返して、一連の予測を生成します。

トレーニング中、チームはインタラクティブなセグメンテーションの連続的なステップをシミュレートしました。

モデルの実用性と使いやすさを確保するため、研究チームはトレーニング中にアルゴリズムを使用して、医用画像のさまざまな領域に境界ボックスを描画、クリック、入力するという現実世界のシナリオをシミュレートしました。

模擬落書きとクリック

研究チームは、一般的にラベル付けされた領域に加えて、合成ラベルを生成するためのメカニズムを導入しました。スーパーピクセルアルゴリズムを適用して潜在的な合成ラベルのマッピングを生成し、次にラベルをサンプリングして画像に示すように「Ysynth」を生成し、最後にランダムデータ拡張を適用して最終結果を得ます。この手法は、類似した値を持つ画像領域を見つけ、それらをセグメント化するようにScribblePromtをトレーニングすることで、医療研究者にとって新たな関心領域を特定します。下の図を参照してください。

タスクのサンプリングと強化

この研究では、2 つの主要なネットワーク アーキテクチャを示します。1 つは、UNet に類似した効率的な完全畳み込みアーキテクチャを使用して ScribblePrompt を示すもので、もう 1 つはビジュアル コンバーター アーキテクチャを使用して ScribblePrompt を示すものです。

ScribblePrompt-UNetは8層CNNを採用しており、一般的なUNetアーキテクチャに類似したデコーダー構造を採用していますが、バッチ正規化は行いません。各畳み込み層は192個の特徴量を持ち、PReLU活性化法を使用しています。正規化層が省略されている理由は、初期実験において、正規化層を含めても検証データの平均サイコロロールの精度が正規化層を使用しない場合と比較して向上しないことが分かったためです(下図参照)。

異なる正規レイヤーでのScribblePrompt-UNetのトレーニング

ScribblePrompt-SAMは、最小SAMモデルViT-bを採用し、デコーダーを微調整しています。SAMアーキテクチャは、シングルマスクモードとマルチマスクモードで予測を実行できます。シングルマスクモードでは、デコーダーは入力画像とユーザーインタラクションに基づいて単一の予測セグメントを出力します。マルチマスクモードでは、デコーダーは3つの可能なセグメントを予測し、MLP出力を介してIoUが最も高いセグメントを予測します。アーキテクチャの表現力を最大限に高めるため、マルチマスクモードでのScribblePrompt-SAMの学習と評価を調査します。

ScribblePrompt は既存の方法よりも優れていることが実証されています。

この研究では、研究チームは、手動描画実験、シミュレートされたインタラクション、経験豊富な注釈によるユーザー調査を通じて、ScribblePrompt-UNet と ScribblePrompt-SAM を SAM、SAM-Med2D、MedSAM、MIDepSeg などの最先端の方法と比較しました。

手動落書き実験では、以下の表に示すように、実験的な手動落書きデータセットと ACDC 落書きデータセットでの 1 ステップの手動落書きにおいて、ScribblePrompt-UNet と ScribblePrompt-SAM が最も正確なセグメンテーションを生成することが結果から示されています。

手動描画実験の比較

SAMとSAM-Med 2Dは事前学習が不足しているため、落書き入力への一般化がうまくいきません。MedSAMはSAMアーキテクチャを用いた他のSAMベースラインよりも優れた予測を提供しますが、ネガティブな落書きを利用できないため、下図に示すように、穴のあるセグメンテーションを頻繁に見逃してしまいます。さらに、MIDEPEPSegネットワークによる初期の予測精度は低いですが、改良プロセスを適用することで改善されます。

予測の例: 上のものは手動で 1 ステップ描画した後の予測を示し、下のものはシミュレートされたインタラクションの 5 ステップ後の予測を示しています。

シミュレーションによるインタラクション実験の結果、すべてのインタラクションプロセスにおいて、ScribblePromptの両バージョンがベースライン手法よりも優れたパフォーマンスを示したことが示されました。下の図をご覧ください。

この実験では、3 つの落書きプロトコルと 3 つのクリック プロトコルを使用してクリックと落書きをシミュレートし、インタラクションをシミュレートしました。

ScribblePromptの実用性をさらに評価するため、チームは経験豊富な注釈者を対象としたユーザースタディを実施しました。この比較では、前述のクリック実験で最高のダイススコアを獲得したSAM (Vit-b) とScribblePrompt-UNetを比較しました。結果、以下の表に示すように、参加者はScribblePrompt-UNetを使用した場合により正確なセグメンテーションを作成したことが示されました。さらに、ScribblePrompt-UNetを使用した場合、セグメンテーション1つあたり平均約1.5分であったのに対し、SAMを使用した場合は1つあたり2分以上かかりました。

ユーザーリサーチ実験の比較

16名の参加者からの実験報告によると、ScribblePromptはSAMと比較してオブジェクトのセグメンテーションにおいて使いやすさが示され、15名がScribblePromptを好み、1名が好みではないと回答しました。さらに、SAMのベースラインと比較すると、参加者の93.8%が落書き修正における対応するセグメントの精度向上を理由にScribblePromptを好み、87.5%がクリックベースの編集においてScribblePromptの使用を好みました。

これらの結果は、参加者がScribblePromptを好む最も一般的な理由、すなわちその自動修正機能と豊富なインタラクティブ機能をさらに裏付けています。これは他の手法では実現できないものです。例えば、網膜静脈のセグメンテーションでは、SAMは複数回の修正を行っても正確な予測を行うのに苦労します。

パフォーマンス比較

さらに、ScribblePromptは低コストで導入が容易であることも実証されています。調査によると、単一CPUでScribblePrompt-UNetを実行すると、予測1回あたりわずか0.27秒、誤差は0.04秒以内です。上図に示すように、使用されているGPUはNvidia Quatro RTX8000 GPUです。一方、SAM (Vit-h)はCPUで予測1回あたり2分以上、SAM (Vit-b)は予測1回あたり約14秒かかります。これは、このモデルが極めて低リソース環境でも適用可能であることを実証しています。

医療従事者や研究スタッフを時間と労力のかかる作業から解放する

人工知能は、画像解析やその他の高次元データの処理において既に大きな可能性を示しています。医用画像のセグメンテーションは、生物医学画像解析・処理において最も一般的なタスクであるため、当然ながら人工知能の重要な試験場の一つとなっています。

本稿で紹介した研究に加え、前述の通り、SAMは近年、関連研究チームから最も注目を集めている主要ツールの一つです。HyperAIは以前から関連研究をフォローアップしており、例えば「SAM 2の最新アプリケーション!オックスフォード大学チームが医療用SAM 2をリリース、医用画像セグメンテーションの評価に新たな境地を開く」では、オックスフォード大学チームによる医用画像セグメンテーションにおけるSAMの可能性の探求について紹介しています。

この研究では、オックスフォード大学のチームが開発したMedical SAM 2と呼ばれる医用画像セグメンテーションモデルを紹介します。SAM 2フレームワークをベースとするこのモデルは、医用画像を動画として扱い、3D医用画像セグメンテーションタスクにおいて優れた性能を発揮し、単一キューによるセグメンテーションという新たな可能性を切り開きます。ユーザーは特定の新しいオブジェクトに対するキューを提供するだけで、モデルは追加の入力なしに、後続の画像で類似のオブジェクトを自動的にセグメンテーションできます。

もちろん、 SAM以外にも、ディープラーニングに基づく医用画像セグメンテーション手法に関する研究は数多く存在します。例えば、国際的に著名な学術誌「IEEE Transactions on Medical Imaging」に掲載された「Scribformer: Transformer Makes CNN Work Better for Scribble-based Medical Image Segmentation(Scribformer:TransformerはCNNのスクリブルベース医用画像セグメンテーションをより効果的に)」という研究があります。

この研究は、厦門大学、北京大学、香港中文大学、上海科技大学、英国ハル大学を含む複数の大学の研究者チームによって発表されました。この研究では、落書き教師あり医療画像セグメンテーションのための、CNNとTransformerを組み合わせた新しいソリューション「ScribFormer」が提案されています。

結論として、MIT の研究成果であれ、SAM に基づくイノベーションであれ、他の新しい方法であれ、目標は同じです。すべての道はローマに通じ、医療分野における人工知能の応用は、最終的には医療と社会の利益になります。

MITの博士課程の学生であり、ScribblePromptの論文の主著者であるハリー・E・ウォン氏は、 「インタラクティブなシステムを通じて、医療従事者の努力に取って代わるのではなく、強化したいと考えています」と述べています。

参考文献:
1.https://news.mit.edu/2024/scribbleprompt-helping-doctors-annotate-medical-scans-0909
2.https://arxiv.org/pdf/2312.0738