|
AI を活用した大規模モデルを使用して、MRI、CT、病理学を含む9 つの主要な生物医学画像モードを1 回のクリックで分析します。 複雑で不規則な形状の物体だけでなく、 さらに、オブジェクト認識しきい値を介してモデリングすることにより、モデルは無効なプロンプト要求を検出し、指定されたオブジェクトが画像内に存在しない場合にセグメンテーションを拒否することができます。 ユーザーは手動で注釈を付けたり境界ボックスを作成したりする必要がなくなりました。 「腫瘍の境界」や「免疫細胞」などの簡単な臨床言語プロンプトを使用して対象オブジェクトを指定するだけで、AI は画像内の関連領域を正確に識別、検出、セグメント化できます。 また、対象となるすべての生物医学的オブジェクトを一度にセグメント化してラベル付けすることもできます。 これは、マイクロソフト、ワシントン大学などの研究チームによってリリースされ、Nature Methodsに掲載された最新の基礎モデル「BiomedParse 」です。 医用画像は、その画像モダリティ(CT、MRI、病理切片、顕微鏡画像など)が大きく異なるため、従来、処理のために専門家のモデルをトレーニングする必要がありました。 BiomedParse は、テキスト駆動型画像解析を通じて 9 つの医用画像モードを統一モデルに統合し、オブジェクトの認識、検出、セグメンテーションのタスクを処理するために共同で事前トレーニングを行います。 画像レベルでの臓器スキャンでも、細胞レベルでの顕微鏡画像でも、BiomedParse は臨床用語を使用したクロスモーダル操作を可能にし、科学者や臨床医に、より統一されたインテリジェントなマルチモーダル画像解釈ソリューションを提供します。 BiomedParseは、不規則な形状の生物医学的オブジェクトのセグメンテーションにおいて、従来のモデルを凌駕する性能を発揮します。画像領域を臨床概念に関連付けることで、手動のバウンディングボックスと比較してセグメンテーション精度を39.6%向上させ、重要なタスクにおける信頼性を高めます。 現在、研究チームはBiomedParseをオープンソース化し、Apache 2.0ライセンスで提供しています。関連デモとAzure APIもご利用いただけます。 テキスト プロンプトのみで、精度は最先端 (SOTA) の標準を超えます。BiomedParse の事前トレーニングをサポートするために、研究チームはGPT-4を使用して、公開されている 45 の医療画像セグメンテーション データセットから、オブジェクトの認識、検出、およびセグメンテーション タスクをカバーする最初のデータセットである BiomedParseData を生成しました。 このデータセットには、CT、MRI、病理切片を含む 9 つの画像撮影法を含む、 64 の主要な生物医学的オブジェクト タイプと82 のサブカテゴリをカバーする、600 万を超える画像、セグメンテーション注釈、およびテキスト説明のトリプレットが含まれています。 GPT-4 の自然言語生成機能を活用することで、研究者は統一された医学的概念と言語記述を使用してさまざまな既存のデータセットに散在するセグメンテーション タスクを統合し、BiomedParse がより大規模で多様なデータセットからのデータをシームレスに統合できるようにしました。 テスト セットでは、BiomedParse は Dice 係数の点で現在の最先端手法である MedSAM および SAM を大幅に上回り、各オブジェクトに対して手動で境界ボックスのヒントを入力する必要がありません。 MedSAM および SAM の正確な境界ボックスが与えられた場合でも、BiomedParse のプレーンテキストヒントのセグメンテーション パフォーマンスは、5 ~ 15 パーセント ポイント上回ります。 さらに、BiomedParse は、特に複雑で不規則なオブジェクトの認識において、SEEM、SegVol、SAT、CellViT、Swin UNETR などの他のいくつかのモデルよりも優れています。 生物医学画像における不規則な物体は、従来のモデルにとって常に課題でした。しかし、BiomedParseは、物体認識と検出のタスクを連携させることで、テキスト理解を通して物体固有の形状モデリングを実現します。複雑な物体の認識精度は従来のモデルをはるかに上回り、その利点はマルチモーダルデータセットにおいてさらに際立ちます。 今後、BiomedParse はより多くの画像モードやオブジェクト タイプに拡張し、LLaVA-Med などの高度なマルチモーダル フレームワークと統合して会話型画像分析をサポートし、インタラクティブなデータ探索を可能にする大きな可能性を秘めているとチームは述べています。 著者について論文の共同筆頭著者と責任著者はともに、それぞれマイクロソフトとワシントン大学の中国人学者である。 論文の第一著者であるTheodore Zhao氏は、この研究に多大な技術的貢献をしました。 Microsoft の上級応用科学者。現在は、マルチモーダル医療 AI モデル、画像のセグメンテーションと処理、大規模モデルのセキュリティ分析を研究しています。 彼は復旦大学で物理学の学士号を取得し、ワシントン大学で応用数学の博士号を取得しました。ワシントン大学ではヒルベルト・ホアン変換、分数ブラウン運動のマルチスケール特性、医療分野における確率的最適化の応用を研究しました。 Aiden Gu氏がこの論文の第一著者である。 マイクロソフトの上級応用科学者。北京大学でマイクロエレクトロニクスと経済学の学士号を取得。 彼の研究は、ヘルスケア、バイオメディカル、マルチモーダルロボティクスモデルに焦点を当てています。注目すべき業績としては、医療分野に特化した初の大規模言語モデルであるPubMedBERTの開発や、患者ジャーニーシミュレーションモデルであるBiomedJourneyの開発などが挙げられます。 この論文の責任著者はHoifung Poon氏です。 マイクロソフトリサーチのヘルスフューチャーズ担当ゼネラルマネージャー。ワシントン大学(シアトル)でコンピュータサイエンスの博士号を取得。研究分野は、生成AIの基礎と精密医療への応用。複数のトップAIカンファレンスで最優秀論文賞を受賞。HuggingFaceで公開したオープンソースのバイオメディカルモデルは数千万回ダウンロードされている。世界初の全スライスデジタル病理モデル「GigaPath」を*Nature*に発表。研究成果の一部は、提携医療機関や製薬会社で応用され始めている。 Sheng Wang氏がこの論文の責任著者である。 ワシントン大学コンピューターサイエンスおよびエンジニアリング学部助教授、Microsoft Research 客員研究員。 彼は人工知能と医学の学際的研究に注力しており、生成AIを用いて生物医学的課題の解決に取り組んでいます。彼の研究成果は、*Nature*、*Science*、*Nature Biotechnology*、*Nature Methods*、*The Lancet Oncology*といったトップジャーナルに10本以上の論文として掲載されており、メイヨークリニック、チャン・ザッカーバーグ・バイオハブ、UWメディシン、プロビデンスなど、多くの著名な医療機関で広く応用されています。 Mu Wei氏がこの論文の責任著者である。 彼は Microsoft Health and Life Sciences の主任応用科学者であり、医療および金融分野で AI モデルの開発と展開に 10 年以上の経験を持っています。 彼のチームは健康分野のマルチモーダル AI モデルに焦点を当てており、その研究成果は、生物医学画像分析、基本的なデジタル病理学モデル、臨床文書構造化の大規模モデルアプリケーション、大規模モデルエラー率推定などの分野をカバーしています。 興味のある人は自分で調べてみてください。 論文リンク: https://www.nature.com/articl... プロジェクト Web ページ: https://microsoft.github.io/B... コード: https://aka.ms/biomedparse-re... Azure API Web ページ: https://ai.azure.com/explore/... |