618ZXW

オックスフォード、アマゾン、ウェストレイク大学、テンセントなどが、ゼロショット臨床診断に使用できるマルチモーダル、マルチドメイン、多言語医療モデルである M³FM を提案しています。

多くのマーベル映画ファンは、『アイアンマン2』のこのシーンに間違いなく驚嘆したことでしょう。AI執事ジャーヴィスがスタークの血液サンプルを採取し、ディープラーニングアルゴリズムを用いてサンプルデータを迅速にモジュール化し、スタークの体内のパラジウム含有量を正確かつ迅速に分析します。レポートは単にレポートを生成するだけでなく、「既存の元素ではパラジウムを代替できない。新しい元素を合成する必要がある」といった分野横断的な提案も提供します。このシーンはわずか数十秒ですが、スマートヘルスケアの自動化、インテリジェンス、そして合理化されたプロセスを完璧に示しています。

しかし実際には、同じ結果を得るためには、医療従事者は採血と検査、画像分析、データ比較、レポート作成、そして疾患分類といった複雑なプロセスを経る必要があります。そしてこれはマクロ的な視点に過ぎず、プロセスを細分化するとさらに複雑になります。例えば、臨床診断において最も一般的なツールである医用画像診断を考えてみましょう。医用画像は臨床所見を記述し、さらなる疾患診断の根拠を提供することができます。しかし、医用画像診断レポートを自然言語で正確、簡潔、完全、かつ首尾一貫して記述することは、多くの医療従事者にとって頭痛の種であり、退屈な作業です。データによると、経験豊富な医師でさえ、レポートを完成させるのに平均5分以上かかることが示されています。

幸いなことに、SFの世界はまだ完全には現実にはなっていませんが、暗闇の隙間から既に覗き込んでいます。人工知能とヘルスケアの学際的な分野では、ますます多くの研究者が広範な研究を行い、自動レポート生成手法の開発を進めています。これらの手法は、医療従事者が確認、修正、参照できるように、レポートの草稿を自動的に生成します。これは、医療従事者の時間と労力を要する作業を効果的に解決すると同時に、自動化によってヒューマンエラーの可能性を低減します。

権威ある*Nature Portfolio*傘下のジャーナル*npj Digital Medicine*に掲載された「ゼロショット臨床診断のためのマルチモーダル・マルチドメイン・マルチリンガル医療基盤モデル」と題された最近の研究では、マルチモーダル(画像とテキスト)、マルチドメイン(CTとCXR)、マルチ言語(中国語と英語)の医療基盤モデルであるM³FM(マルチモーダル・マルチドメイン・マルチリンガル基盤モデル)が紹介されています。このモデルは、ゼロショット臨床診断に使用でき、疾患報告と分類をサポートします。研究者らは、2つの感染症と14の非感染症をカバーする9つのベンチマークデータセットでこの手法の有効性を実証し、すべてのケースで従来の手法を上回りました。

この研究には、オックスフォード大学、ロチェスター大学、アマゾンなどのチームに加え、ウェストレイク大学医療人工知能研究所の鄭葉鋒博士、テンセントYouTuラボの天眼研究センター所長の呉賢博士など、豪華な著者陣が名を連ねている。

論文の宛先:
https://www.nature.com/articles/s41746-024-01339-7

オープンソース プロジェクト「awesome-ai4s」は、200 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

データのギャップは、既存の方法では解決が難しい根深い問題です。

医用画像は、医用画像レポートと疾患分類の基盤となり、その後の臨床診断において重要な役割を果たします。そのため、関連する自動化手法の研究は、当然のことながら科学研究の主要な焦点となっています。しかし、多大な研究成果があるにもかかわらず、実用的な観点からは多くの欠陥が残っており、データの不足、あるいは完全な欠如が大きな課題となっています。

一方、疾患レポート生成は画像ベースの言語生成タスクに似ており、その目的は入力画像を説明する説明文を生成することです。従来の基本的な手法は、臨床医によって注釈が付けられた大量の高品質な医療トレーニングデータに大きく依存することが多く、特に希少疾患や非英語圏の状況では、こうしたデータの収集には多大なコストと時間がかかります。

特に、2019年後半に世界を席巻し始めたCOVID-19パンデミックのように、初期段階ではトレーニングに有効なデータが不足していることが多い新興疾患や希少疾患の場合、当初は利用可能なデータが限られていたため、システムのトレーニング時間は過去のパンデミックの波の期間をはるかに超えていました。さらに、「2024年中国希少疾患産業動向観察レポート」によると、現在、世界では7,000以上の希少疾患が知られています。控えめなエビデンスに基づく推定では、人口における希少疾患の有病率は約3.5%から5.9%で、世界中で約2億6,000万人から4億5,000万人が罹患していると示唆されています。このように大規模で非定型的な疾患の状況は、前述の問題をさらに困難にしていることは間違いありません。

さらに、世界の医療システムは多様な地域、人口、言語を包含しています。英語以外の言語では、ラベル付きデータが不足している、あるいは全く存在しない場合がよくあります。ラベル付きデータの入手が限られているため、英語以外の言語で既存の手法を用いてシステムを学習させる場合、大きな課題が生じます。同時に、既存の手法では一般的でない言語への対応がさらに困難になり、AIの公平性という目標にさらなる影響を与え、過小評価されているグループに十分な恩恵をもたらせていないことになります。

一方、疾患を効果的に分類するために、BioViL、REFERS、MedKLIP、MRMなど、現在多くの最先端モデルがCLIPの成功に着想を得ています。これらはすべて、マルチモーダル医療データの理解を深めるために開発されました。これらの手法の実装では、対照学習、つまり医療データでCLIPモデルを事前学習する手法が用いられます。しかし、ほとんどのモデルは胸部X線(CXR)に特化しているため、通常、単一のフレームワーク内で複数領域、複数言語の医療画像とテキストを処理することはできません。さらに、これまでの研究では、異なる言語領域や画像に対してゼロショットの疾患報告を実現できていません。

* CLIPは、OpenAIが開発した対照言語と画像の事前学習済みモデルであり、自然言語教師からの学習に効果的な手法です。CLIPは主に、大規模な画像とテキストのペアを用いた対照学習を通じて画像とテキストの関連性を学習し、異なるモダリティからの情報を理解し、関連付けることを可能にします。

このような背景から、限られたサンプルデータ、あるいはサンプルデータが無い状況でも、マルチモーダル、マルチドメイン、多言語の臨床診断を可能にするモデルの開発が緊急に求められています。本研究では、以下の具体的なイノベーションを提案します。

* 提案された M³FM は、トレーニング用のラベル付きデータが不足しているか、まったく存在しない場合に、ゼロショットのマルチモーダル、マルチドメイン、および多言語の臨床診断を実行する最初の試みです。

* M³FM は、CXR と CT という 2 つの医療画像データ領域、中国語と英語という 2 つの異なる言語、病気報告と病気分類という 2 つの臨床診断タスク、および 2 つの感染症と 14 の非感染症を含む複数の病気を含む 9 つのデータセットでその有効性を検証しました。

M³FM: 複数のデータセットで検証された 2 つのメイン モジュールで構成されています。

本研究で提案されたM³FMの根底にある重要なアイデアは、モダリティ、ドメイン、言語を横断する公開医療データを用いてモデルを事前学習し、幅広い知識を学習させることです。そして、この知識を活用して、ラベル付きデータを必要とせずに下流のタスクを実行します。M³FMフレームワークの主要コンポーネントは、下図に示すように、MultiMedCLIPとMultiMedLMという2つの主要モジュールで構成されています

M³FMフレームワーク構造図

このプロセスでは、MultiMedCLIP が共有潜在空間内のさまざまな言語と画像を整合および橋渡しし、次に MultiMedLM が共有潜在空間内のテキスト表現に基づいてテキストを再構築し、最後に M³FM が統合潜在空間内のさまざまなドメインからの入力画像の視覚表現に基づいて直接多言語レポートを生成します。

具体的には、MultiMedCLIPは共同表現を学習するためのモジュールです。マルチドメイン視覚エンコーダと多言語テキストエンコーダを導入し、異なる医用画像領域および言語の視覚表現とテキスト表現を整合させるための共有潜在空間を構築することを目的としています。対照学習法に着想を得た研究者らは、InfoNCE(情報ノイズ対照推定)損失とMSE(平均二乗誤差)損失を学習目標として用い、正のサンプルペア間の類似性を最大化し、負のサンプルペアを最小化することを目指しました。これにより、異なる領域や異なる言語のテキスト表現にまたがる視覚表現の整合が実現され、下流のゼロショット推論のための強固な基盤が築かれます。

MultiMedLMは、多言語レポートを生成するためのモジュールです。多言語テキストデコーダーを導入し、MultiMedCLIPによって抽出された表現に基づいて最終的な医療レポートを生成することを学習することを目的としています。この部分は、自然言語生成損失(XE(クロスエントロピー)損失)を学習目標として、入力テキスト(中国語または英語)を再構成することで学習されます。注目すべきは、再構成学習は教師なし学習とみなすことができ、学習にはラベル付けされていないプレーンテキストデータのみが必要であるため、下流のタスクでタスクラベル付きデータの学習は不要であるということです。さらに、MultiMedLM学習の安定性を確保するために、研究チームはランダムドロップアウトとガウスノイズをさらに導入しました。

実験では、学習率 1e-4、バッチ サイズ 32 の AdamW オプティマイザーを使用しました。実験は、混合精度トレーニングを使用して、PyTorch と V100 GPU で実施されました。

データセットに関しては、 MIMC-CXRデータセットとCOVID-19-CT-CXRデータセットを用いて事前学習を実施しました。MIMC-CXRデータセットは、377,110枚のCXR画像と227,835件の英語の放射線レポートで構成されており、これまでに公開されたデータセットの中で最大のものです。COVID-19-CT-CXRデータセットには、1,000枚のCT/CXR画像と対応する英語のレポートが含まれています。さらに、研究者らは両データセットから英語コーパスの半分を抽出し、Google翻訳を用いて中国語-英語の学習チームを構築しました。その結果、この手法により機械翻訳テキストの翻訳結果が向上することが示されました。

評価フェーズでは、IU-Xray、COVID-19 CT、COV-CTR、深セン結核データセット、COVID-CXR、NIH ChestX-ray、CheXpert、RSNA肺炎、SIIM-ACR肺気腫などのデータセットが使用され、モデルのパフォーマンスを包括的に評価することができました。

* IU-Xray: 7,470枚のCXR画像と3,955枚の英語の放射線レポートが含まれています。データセットは、トレーニング、検証、テストのために、80% – 10% – 10%の割合でランダムに分割されました。

* COVID-19 CT: 1,104枚のCT画像と368件の中国の放射線レポートが含まれています。このデータセットは、学習、検証、テストのために、80% – 10% – 10%の割合でランダムに分割されました。

* COV-CTR: 726 枚の COVID-19 CT 画像が含まれており、中国語と英語の両方のレポートにリンクされています。

* 深セン結核データセット: 662 枚の CXR 画像が含まれており、トレーニング セット、検証セット、テスト セットが 7:1:2 の比率で分割されています。

* COVID-CXR: 900枚以上のCXR画像が含まれています。データセットは、トレーニング、検証、テストのために、80% – 10% – 10%にランダムに分割されました。

* NIH ChestX-ray: 112,120枚の胸部X線画像が含まれており、それぞれに14種類の一般的な放射線疾患の発生頻度がラベル付けされています。トレーニングセット、検証セット、テストセットの比率は7:1:2です。

* CheXpert: 22万枚以上のCXR診断画像を収録。前処理後、トレーニングセットとして218,414枚、検証セットとして5,000枚、テストセットとして234枚の画像を取得しました。

* RSNA 肺炎:約 3 万枚の放射線画像で構成され、トレーニング セット、検証 セット、テスト セットの比率は 85% – 5% – 10% です。

* SIIM-ACR 肺気腫: 12,047 枚の CXR 画像が含まれており、トレーニング、検証、テスト セットの比率は 70% – 15% – 15% です。

実験では、M³FMが従来の最先端手法を上回る優れた性能を発揮することが実証されています(下図参照)。例えば、疾患報告の結果では、従来の手法ではゼロショット設定で疾患報告タスクを処理できませんでしたが、M³FMは単一のフレームワーク内で多言語およびマルチドメインの疾患報告を同時に実行できます。下流ラベル付きデータのわずか10%をトレーニングに使用した数ショット設定では、M³FMは最高の結果を達成し、CTから中国語へのレポート生成において、完全教師あり方式のR2GenをCIDErで1.5%、ROUGE-Lスコアで1.2%上回りました。これは、M³FMがラベル付きデータが少ない場合でも正確で効果的な多言語レポートを生成できることを示しており、特に希少疾患や新規疾患の治療に役立ちます。

疾病報告結果の比較

さらに、研究者らは2名の臨床医をモデル評価に招き、その結果を下図に示します。トレーニング中にラベル付けされたデータがない場合でも、M³FMは理想的な多言語・多分野レポートを生成できます。ラベル付けされたデータ10%のみでトレーニングした場合、M³FMはCXRから英語、CTから中国語、CTから英語への変換タスクにおいて、完全教師あり学習法であるR2Genをそれぞれ6%、8%、8%上回りました。完全なトレーニングデータを使用した場合、M³FMは3つのタスクすべてにおいてR2Genを20%以上、XProNetをそれぞれ12%、10%、8%上回りました。これは、M³FMが臨床医を時間と労力のかかるレポート作成作業から解放する可能性を秘めていることを示しています。

臨床医による評価

疾患分類において、M³FMは感染症診断において優位性を示しました。深セン結核データセットとCOVID-CXRデータセットにおいて、トレーニングデータのわずか10%を使用した場合、M³FMのAUCスコアは、既存の最先端技術の結果よりもそれぞれ5.1%と3.9%高くなりました。トレーニングデータ全体を使用した場合、M³FMは両方の感染症において最先端技術の結果を達成しました。非感染症については、NIH胸部X線データセットを使用し、M³FMはトレーニングラベルのわずか1%で、完全教師あり手法Model Genesisと同等の結果を達成しました。10%では、M³FMは複数の疾患の診断においてベースライン手法MRMおよびREFERSを上回り、疾患診断におけるM³FMの有効性と一般化能力を裏付けました。

感染症分類結果の比較

AIがスマートヘルスケアをリード、鄭葉鋒のチームがその先頭に立つ

これまで、多くの研究室がこの分野に焦点を当てており、提案されたモデルはそれぞれ独自の重点と利点を持っていました。

例えば、レポートの自動生成に関して、大連海事大学情報科学技術学院は、医療画像解析専門フォーラムにおいて、医療・生物画像解析分野における「DACG:放射線レポート生成のための二重注意・文脈ガイダンスモデル」と題する研究を発表しました。この研究では、放射線レポートの自動生成に二重注意・文脈ガイダンス(DACG)モデルを提案し、画像とテキストデータ間のバイアスを軽減し、長文テキストの生成を促進します。

論文の宛先:

https://www.sciencedirect.com/science/article/abs/pii/S1361841524003025

複数の言語向けに設計されたモデルも存在します。例えば、上海交通大学の王延鋒教授と謝衛迪教授のチームは、255億トークンを含む多言語医療コーパスMMedCを作成し、6言語をカバーする多言語医療質問応答ベンチマークMMedBenchを開発し、8ビットベースモデルMMed-Llama 3を構築しました。これらのモデルは、複数のベンチマークテストで既存のオープンソースモデルを上回り、医療用途により適しています。「医療のための多言語モデルの構築に向けて」と題された関連研究成果は、Nature Communicationsに掲載されました。

詳細レポートを見るにはクリックしてください: 上海交通大学のチームが多言語医療モデルをリリースし、医療ベンチマークテストで Llama 3 を上回り GPT-4 に近づき、6 つの言語をカバーしました。

対照的に、M³FMのマルチモーダル、マルチドメイン、そして多言語における卓越したパフォーマンスは、人工知能とヘルスケアの交差点に新たな活力をもたらすことは間違いありません。もちろん、この研究について議論する際には、本論文の著者の一人である鄭葉鋒博士に言及しなければなりません。

実際、この論文は鄭葉鋒博士にとって新たな成果であり、出発点と言えるでしょう。IEEEフェロー、AIMBEフェロー、そして医療AI科学者である鄭葉鋒博士は、2024年7月29日、ウェストレイク大学工学部の教授として着任し、医療AI研究所を設立しました。研究所の研究分野は、医療画像解析、医療自然言語理解、バイオインフォマティクスなどです。本論文は、研究所設立1周年における重要な成果の一つです。

この成果に加え、当研究室は医療・健康分野において複数の論文を発表しており、例えば「弱ラベルデータの潜在能力を解き放つ:異常検知とレポート生成のための共進化学習フレームワーク」では、異常検知とレポート生成のための共進化学習フレームワーク(CoE-DG)を紹介しています。このフレームワークは、完全ラベルデータと弱ラベルデータを活用し、異常検知とレポート生成のためのCXR(Collat​​eralized Learning Recognition)タスクの相互発展を促進します。この研究はIEEE Transactions on Medical Imagingに掲載されました。

もちろん、当研究室は、EMNLP 2024で発表された「医療情報抽出における大規模言語モデルの幻覚をコントラストデコーディングで軽減する」という研究のように、現在急成長を遂げている大規模言語モデルに関する研究成果も有しています。この論文は、LLMの医療シナリオにおける「幻覚」現象に対する解決策として、「代替コントラストデコーディング」(ALCD)を提案しています。この手法は、モデルの認識機能と分類機能を分離し、予測時にそれらの重みを動的に調整することで、エラーを大幅に削減します。この技術は、複数の医療タスクにおいて優れた性能を発揮しています。

現在、これらの成果はまだ研究段階、あるいは実用化の兆しを見せている段階かもしれませんが、AIは医療分野をインテリジェンス化、自動化、そしてその他の進歩へと導くでしょう。鄭葉鋒博士は次のように述べています。「医療用人工知能は急速に発展している分野です。10~15年後には、AIは医師の診断精度を達成し、広く利用されるようになると予測しています。」

参考文献:
1.https://www.nature.com/articles/s41746-024-01339-7
2.https://mp.weixin.qq.com/s/pMNXAvzgGRpPwqVtCWjXbA
3.https://mp.weixin.qq.com/s/6hw6EJY6slAIRbGGN9XY9g

4.https://www.westlake.edu.cn/faculty