618ZXW

MedFoundは、1760億のパラメータを持つオープンソースの汎用医療言語モデルで、北京郵電大学、北京大学、中国三峡大学によって開発されました。その推論能力は熟練した医師に匹敵します。

「完璧な人間などいない」という古い諺がありますが、医療現場では誤診のようなミスが壊滅的な結果をもたらす可能性があります。患者にとっては、誤報から診断の遅れまで、精神的、経済的、そして生命に関わる損失に繋がりかねません。医師にとっては、誤診は思いやりのある治療者というイメージを損ない、医療制度全体の信頼性を揺るがす可能性があります。残念ながら、誤診は国内外で依然として頻繁に発生しています。

医学雑誌『臨床誤診と誤診』の元編集長であり、医学モノグラフ『誤診』の著者でもある陳暁紅氏は、インタビューの中で、国内外の文献に記載されている誤診率は概ね20%から40%であると述べています。さらに、彼女の著書『誤診』には関連統計も掲載されており、例えば、1973年から1980年にかけて、国内の代表的な医学雑誌が発表した200件の臨床病理学に関する議論データでは、誤診率が48%にも達していたことが挙げられています。誤診は、人類医学の進歩における大きな障害の一つになりつつあると言えるでしょう。

誤診の問題に対し、古代の医学書である『中西医合医録』『医過』『医過訂正』は、誤診事例から得られた教訓をまとめ、後世への警鐘を鳴らしてきました。現代では、超音波、CTスキャン、MRIといった最新医療技術の発展により、臨床診断方法はますます高度化・多様化しています。しかし、実用的かつ探究的な科学である医学は、誤診を完全に避けることはできません。したがって、誤診率をさらに低減し、疾病診断の精度とアクセス性を向上させることによってのみ、医学のさらなる発展への道を切り開くことができます。

AI for Scienceを新たなパラダイムとして活用することで、上記の問題を解決するための新たなアイデアが提示されています。最近、北京郵電大学の王光宇教授、北京大学第三病院の宋春麗教授、三峡大学の楊建教授からなる医療工学の学際チームは、これまでで最大のパラメータ数を誇るバイオメディカル大規模言語モデルであるMedFound(176B)を導入・検証しました。さらに、専門家に近い知識と推論能力を備え、医療のあらゆる場面で効率的かつ正確な診断支援を提供できる、医療ジェネラリスト向けの診断用大規模言語モデルであるMedFound-DX-PAを開発しました。

「病気の診断を支援するジェネラリスト医療言語モデル」と題されたこの研究結果は、ネイチャー・メディシン誌に掲載された。

論文の宛先:
https://www.nature.com/articles/s41591-024-03416-6

オープンソース プロジェクト「awesome-ai4s」は、200 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

MedFound の革新的な側面は何ですか?

最も多くのパラメータを持つ最大のオープンソース生物医学言語モデル

研究チームは、実臨床環境に特化した、適切に設計され、公開されているLLMの不足が、バイオメディカルにおけるLLMの応用が未だ初期段階にある主な理由であると述べています。MedFoundは、1760億のパラメータを持つ一般医療用大規模言語モデルであるBLOOM-176Bをベースとしており、事前学習済みです。

モデルが包括的な一般医学知識を獲得できるよう、研究チームは膨大な量の医学知識と臨床実践を統合した医療コーパスデータセット「MedCorpus」を構築しました。このデータセットは、MedText、PubMed Central Case Report(PMC-CR)、MIMIC-III-Note、MedDX-Noteの4つのデータセットから抽出された63億のテキストタグで構成されています。これらのデータセットは、中国語と英語の医学文献、専門書、そして870万件の実際の電子医療記録を網羅しており、様々な分野の診断へのモデル適用性にとって重要な基盤となっています。

研究チームによれば、MedFound は現在オープンソースであり、世界中の研究者、臨床医、医療機関に基盤となる基本的な大規模モデル サービスを提供できることは特筆に値します。

プロジェクトアドレス:

https://github.com/medfound/medfound?tab=readme-ov-file

革新的な臨床診断推論能力により、彼は「生きた医者」へと変貌を遂げました。

機械と人間のもう一つの重要な違いは、人間の医師は経験と知識に基づいて患者の真の状態について合理的な推論を行い、差別化された治療を提供できることです。研究チームは、現在の研究では、医学的な質問への回答や対話のために臨床知識をLLMに統合しているだけで、臨床診断推論を行う能力は実証されていないと説明しています。

例えば、Sainan Zhang氏とJisung Song氏がNature誌に発表した研究では、ユーザーが記述した症状に基づいて慢性疾患の補助診断を行うためのチャットボットベースの質疑応答システムを開発しました。「Chat Ella」と名付けられたこのシステムは、転移学習とGPT-2のファインチューニングを用いて開発されました。しかし、研究者らは論文の中で限界についても言及し、推論プロセスにおける制約、例えば推論の解釈が不可能な点などを指摘しています。論文のタイトルは「大規模言語モデルに基づく慢性疾患の補助診断のためのチャットボットベースの質疑応答システム」です。

論文の宛先:

https://www.nature.com/articles/s41598-024-67429-4

したがって、厳密な疾患診断を実現するには、大規模モデルには広範な学際的な医学知識だけでなく、複雑な推論能力も必要です。研究チームはMedFoundモデルをベースに、2段階の学習と最適化を経て、専門家に近い知識と推論能力を備えた包括的な医療診断言語モデルMedFound-DXを開発しました。下の図をご覧ください。

MedFound の事前トレーニング プロセス、および微調整と設定調整の手順。

具体的には、第一段階では、研究チームは自己誘導戦略に基づく思考連鎖(CoT)アプローチを用いて、大規模モデルが医療専門家のように診断基準と推論プロセスを自動生成できるようにしました。しかし、生成型LLMは「錯覚」を生み出したり、誤った事実を捏造したりする可能性があり、これらの診断が採用された場合、結果は悲惨なものとなるでしょう。

そのため、第2フェーズでは、研究チームはLLMを専門分野の知識体系や臨床診断の嗜好と整合させるための統一的な嗜好整合フレームワークも導入しました。これにより、モデルは診断において科学的に健全であるだけでなく、臨床現場における医療専門家の論理と価値観にも適合することが保証されます。このフレームワークは、「診断階層の嗜好」と「役立つ嗜好」を統合し、どちらも強化学習を必要としないシンプルなアルゴリズムである直接嗜好最適化(DPO)アルゴリズムを採用しています。これにより、モデルは疾患同定のきめ細かな精度を向上させる一方で、モデル推論の有効性と信頼性を高め、誤解を招く情報や誤ったデータのリスクを軽減します。

注目すべきは、この微調整とアライメントのセクションで、研究チームがMedDX-FTと呼ばれるデータセットも構築したことです。このデータセットには、実際の医療記録に基づいて医師が手書きで記述した推論プロセスのデモンストレーションが含まれており、微調整のトレーニングに使用されます。このデータセットは、手書きのデモンストレーションと109,364件の電子医療記録メモに基づくシードセットをカバーしています。

印象的なデモンストレーション結果は、その潜在的な用途を実証しています。

評価フェーズでは、研究チームは MedDX-Bench と呼ばれるデータセットも構築しました。これには、MedDX-Test、MedDX-OOD、MedDX-Rare の 3 つの臨床データセットが含まれています。

  • MedDX-Testデータセットは、様々な分野におけるMedFound-DX-PAの診断性能を評価するために使用されます。このデータセットには、トレーニングデータセットと同じ分布を持つ11,662件の医療記録が含まれています。
  • MedDX-OODとMedDX-Rareは外部検証セットです。前者には一般的な疾患に関する23,917件のレコードが含まれており、後者には2,105の希少疾患に関する20,257件のレコードが含まれており、これらはロングテール状に分布しています。

評価実験は、分布内(ID)評価、分布外(OOD)評価、そしてロングテール疾患分布評価の3つのフェーズで構成されました。比較対象には、MEDITRON-70B、Clinical Camel-70B、Llama 3-70B、GPT-4oといった主要なオープンソースおよびクローズドソースのLLMが含まれていました。

結果は、そのパフォーマンスが他の主要なLLMよりも優れていることを示しました。例えば、一般的な疾患の診断において、MedFound-DX-PAは平均でトップ3の精度が84.2%(ID設定)であったのに対し、GPT-4oの診断精度はわずか62%でした。希少疾患の診断において、MedFound-DX-PAは8つの専門分野全体で平均トップ3の精度が80.7%であったのに対し、GPT-4oは平均59.1%で2位でした。

注目すべきは、MedFound-DX-PAが内分泌専門医および呼吸器専門医との比較においてそれぞれ74.7%と72.6%の診断精度を達成したことです。これは、若手・中堅医師の能力を上回り、上級医師に匹敵するものです。診断支援の点では、この2つの専門分野の医師の診断精度をそれぞれ11.9%と4.4%向上させるのに役立ちます。下の画像は、このモデルの診断能力を視覚的に示しています。

下の図に示すように、医師は当初、急性気管支炎と診断しました。MedFoundモデルは、患者の再発性気管支炎の病歴を強調表示しました。モデルのガイダンスに従い、医師は診断を慢性気管支炎の急性増悪に修正しました。

下の図に示すように、医師は当初、潜在性甲状腺機能低下症と診断しました。MedFoundモデルは、基礎に自己免疫性甲状腺疾患が存在する可能性を示唆し、医師はその示唆に基づいて結果を自己免疫性甲状腺炎に修正しました。

したがって、MedFound は診断の効率と精度を向上させる可能性だけでなく、臨床医の診断アシスタントになる可能性もあり、将来のインテリジェントな臨床診断と個別化医療の発展を強力にサポートします。

AI4S が継続的に勢いを増すにつれ、「実装が重要」な時代が到来しました。

王光宇率いるチームは前進を続けている。

この共同研究において、各チームはそれぞれの専門知識を結集し、最大限の貢献をして本研究を完成させました。特に、北京郵電大学の王光宇教授は、本研究の責任著者の一人です。

実は、王光宇教授のチームがAIとバイオメディシンを融合させたのは今回が初めてではありません。 1990年代生まれで初めて科学探究賞を受賞した王光宇教授は既に著名な研究者であり、Cell、Nature Medicine、Nature Biomedical Engineeringといった一流国際学術誌に論文が掲載されるなど、一連の最先端の学術成果を発表しています。

例えば、2020年には、王光宇教授が筆頭責任著者として、「コンピューター断層撮影を用いたCOVID-19肺炎の正確な診断と予後のための臨床応用可能なAIシステム」と題する論文を国際トップジャーナル「Cell」に発表しました。当時猛威を振るっていたCOVID-19に焦点を当て、この研究では合計53万枚以上のCT画像を用いて病変セグメンテーションに基づくAI診断モデルを構築し、診断精度は最大92.49%に達しました。

論文の宛先:

https://www.cell.com/pb-assets/products/coronavirus/CELL_CELL-D-20-00656.pdf

2023年、王光宇率いるチームはNature Medicine誌にさらに2本の論文を発表しました。そのうちの1本は「SARS-CoV-2の感染性と変異体の進化を予測するためのディープラーニングを活用したタンパク質間相互作用解析」と題され、SARS-CoV-2のスパイクタンパク質変異体がヒトに与える影響を効果的かつスケーラブルに予測できる「UniBild」と呼ばれる人工知能フレームワークを提案しました。

論文の宛先:

https://www.nature.com/articles/s41591-023-02483-5

「強化学習による2型糖尿病の最適化された血糖コントロール:概念実証試験」と題された別の論文では、モデルベースの強化学習フレームワークであるRL-DITRが提案されています。このフレームワークには、個人の血糖値状態を追跡する患者モデルと、長期ケアの多段階計画のためのポリシーモデルが含まれています。このフレームワークは、医師と患者が動的かつ柔軟なインスリン治療レジメンを決定するのに役立ちます。

論文の宛先:

https://www.nature.com/articles/s41591-023-02552-9

王光宇氏は、「私たちはこれに大きな期待を抱いています。個人的には、より強力なAI手法を開発し、突発的な疫病やがんへの対処など、多くの重要な生物医学的問題の解決に役立てたいと考えています」と述べました。

AIとバイオメディカルの統合は急速に進んでいます。

実際、AIとバイオメディシンの融合は、長年にわたり主要な研究室の焦点となってきました。医療分野の特殊性により、AIがこの分野で活躍する機会はより多く、より多くのチームがこの分野への進出を模索しています。

例えば、2024年には香港中文大学のチームも、LLMを基盤とした多段階の診察が可能なバーチャルドクターシステム「DrHouse」を開発しました。このシステムは、スマートデバイスの活用により診断の精度と信頼性を向上させることができ、継続的に更新される医療知識ベースと高度な診断アルゴリズムにより、非常に長い耐用年数を誇り、インテリジェントで信頼性の高い医療評価を提供します。関連論文のタイトルは「DrHouse:センサーデータと専門知識を活用したLLMを活用した診断推論システム」です。

論文の宛先:

https://arxiv.org/abs/2405.12541

さらに、上海交通大学の王延鋒氏と謝偉迪氏のチームも2024年に関連する研究成果を発表しました。彼らの研究によると、約255億トークンを含み、6つの主要言語を網羅する多言語医療コーパス(MMedC)を構築したとのことです。また、多言語医療多肢選択問題ベンチマークであるMMedBenchも提案しました。研究チームの最終モデルであるMMed-Llama 3は、パラメータ数はわずか80億ですが、MMedBenchと英語ベンチマークにおけるパフォーマンスはGPT-4に匹敵します。

*クリックして詳細レポートを表示: 上海交通大学のチームが多言語医療モデルをリリース。医療ベンチマークテストでLlama 3を上回り、GPT-4に迫り、6つの言語をカバーしています。

AIとバイオメディシンの融合の嵐が激しさを増していることは明らかです。強力なコンピューティング能力、革新的なアルゴリズム、そして膨大なデータへの容易なアクセス能力を備えたAIは、従来の科学研究をより効率的かつインテリジェントなものにしています。さらに注目すべきは、これらの進歩的な成果が最終的にアプリケーションの実装を加速させ、実装が最重要課題となる時代が静かに到来したように見えることです。

参考文献:

1.https://mp.weixin.qq.com/s/9mhp6luTzQeNhqpEKw9CWQ

2.https://mp.weixin.qq.com/s/WlamJ7N9YKrOJljvEvE9cA

3.https://mp.weixin.qq.com/s/r-S9qkVU645K-ZdaLGYhBA

4.https://mp.weixin.qq.com/s/BfByFCWC9VN6iABnPq1iDw