618ZXW

上海交通大学の謝衛迪氏は、コンピュータービジョンから医療AIまで、Natureサブジャーナル、NeurIPS、CVPRなどのジャーナルに複数の研究成果を発表しています。

近年、AI for Scienceの開発は加速しており、科学研究分野に革新的な研究アイデアをもたらすだけでなく、AIの実装への道筋を広げ、より挑戦的な応用シナリオを提供しています。この過程で、ますます多くのAI研究者が、医学、材料科学、生物学といった伝統的な研究分野に焦点を当て、それぞれの研究上の困難や産業界の課題を探求し始めています。

上海交通大学の終身在職権を持つ准教授である謝衛迪氏は、コンピュータービジョンの分野で深い専門知識を有しています。2022年に中国に戻り、医療用人工知能の研究に専念しました。HyperAIが共催したCOSCon'24 AI for Scienceフォーラムにおいて、謝教授は「ヘルスケアのためのジェネラリストモデルの開発に向けて」と題した講演を行い、オープンソースデータセットの構築やモデル開発など、多角的な視点からチームの成果を共有しました。

上海交通大学テニュアトラック准教授 謝 衛迪

HyperAIは、原文の意味を変えることなく、詳細な共有内容をまとめ、要約しました。以下はスピーチの要点の書き起こしです。

ヘルスケアにおける人工知能は避けられないトレンドです。

医学研究は、すべての人の生命と健康にとって不可欠です。同時に、医療資源への不平等なアクセスという問題は長らく解決されていません。そこで私たちは、国民皆保険を推進し、誰もが質の高い医療を受けられるよう支援したいと考えています。

ChatGPTをはじめとする近年リリースされた大規模モデルは、いずれも医療分野を主なパフォーマンステストの場としています。下図に示すように、2022年以前は、大規模モデルは米国医師免許試験で50点台を達成できるのに対し、人間は70点台しか達成できませんでした。そのため、AIは医師からそれほど注目を集めていませんでした。

GPT 3.5のリリースにより、スコアは60.2に達し、大幅な向上を見せました。その後、GoogleはMed-PaLMとそのアップデート版をリリースし、最高スコア86.5を達成しました。現在、GPT-4は90点に達する可能性があります。この高いパフォーマンスと迅速なイテレーションにより、医師たちはAIに注目し始めており、多くの医学部では「インテリジェント医療」という新たな分野を確立しています。

同様に、医学生だけでなくAIを学ぶ学生も最終学年で医学知識を学ぶことができます。ハーバード大学などの大学では、すでにAIプログラムに関連コースを設けています。

しかし、*Nature Medicine*などの学術誌に掲載された研究によると、大規模言語モデルは実際には医学を理解していないことが示されています。例えば、大規模モデルは現在、ICDコード(国際疾病分類における診断コード)を理解できず、医師とは異なり、患者の検査結果に基づいた適切なタイミングでの更なる医療アドバイスの提供に苦労しています。大規模モデルには医療分野において依然として多くの限界があることは明らかであり、医師に取って代わることは決してできないと考えています。私たちのチームが目指すのは、これらのモデルが医師をより良く支援できるようにすることです。

チームの当初の目標: 汎用医療人工知能システムを構築する。

2022年に医療用人工知能の研究を始めるため中国に戻りました。そこで今日は、主に過去2年間のチームの成果についてお話ししたいと思います。医療業界は非常に広範囲にわたるため、私たちが開発したモデルが普遍的に適用可能であるとは言えませんが、可能な限り多くの重要なタスクをカバーできることを願っています。

下の図に示すように、入力側では、画像、音声、患者の健康記録など、複数のモダリティをサポートすることを目指しています。マルチモーダルジェネラリスト医療モデルに入力された後、医師はモデルと対話することができます。モデルの出力は少なくとも2つの形式があります。1つは視覚的な形式で、セグメンテーション、検出、その他の手法を用いて病変の位置を特定します。もう1つはテキスト形式で、診断結果やレポートを出力します。

私自身、コンピュータービジョンのバックグラウンドを持っています。私の観察からすると、視覚と医学の大きな違いは、医学知識、特にエビデンスに基づく医療は、主に人間の経験から得られるということです。あらゆる医学書を網羅的に勉強できる初心者でも、少なくとも理論的な医学の専門家になることができます。そのため、モデルのトレーニングにおいては、あらゆる医学知識を取り入れたいと考えています。モデルに基礎的な医学知識が欠けていると、医師や患者の信頼を得るのは難しいからです。

したがって、要約すると、私たちのチームの主な目標は、マルチモーダルな一般医療モデルを構築し、そこに可能な限り包括的に医療知識を取り入れることです。

当初は汎用モデルの定義から始めましたが、GPT-4のような包括的な医療モデルを構築するのは現実的ではないことが徐々に明らかになりました。病院には多くの部門があり、それぞれが異なる業務を担当しているため、汎用モデルで全ての業務をカバーすることは困難です。そこで、エージェントを用いて実装することにしました。図に示すように、中央の汎用モデルは複数のサブモデルで構成されており、それぞれが本質的にエージェントとして動作し、最終的にはマルチエージェント方式で汎用モデルを構築しています。

その利点は、異なるエージェントが異なる入力を受け入れることができるため、モデルの入力側をより複雑で多様化できることにあります。また、複数のエージェントが異なるタスクを段階的に処理しながら思考の連鎖を形成することもできます。出力側もより豊富で、たとえば、1 つのエージェントで CT や MRI などの複数種類の医療画像のセグメンテーションを完了できます。同時に、スケーラビリティも向上します。

高品質なオープンソースデータセットを提供する

マルチモーダルな総合医療モデルの構築という包括的な目標を掲げ、オープンソースデータセット、大規模言語モデル、疾患診断エージェントなど、さまざまな観点からチームの成果を紹介します。

まず、オープンソース データセットへの当社の貢献についてお話しします。

医療分野にはデータセットが不足しているわけではありませんが、プライバシーへの懸念から、高品質で公開されているデータは比較的不足しています。学術チームとして、より多くの高品質なオープンソースデータを医療業界に貢献したいと考えています。そのため、中国に帰国後、大規模な医療データセットの構築に取り組み始めました。

テキストに関しては、40億トークンを含む3万冊以上の医学書を収集しました。また、PubMed Central(PMC)にある480万件の論文と750億トークンを含むすべての医学文献をクロールし、インターネットから中国語、英語、ロシア語、日本語を含む8言語の医学書を収集してテキストに変換しました。

さらに、私たちは医療分野向けのスーパーインストラクションを構築しました。これは、タスクの多様性を考慮し、1,350万のサンプルを含む124の医療タスクをリスト化しています。

テキストデータは比較的入手しやすいですが、Vision-Language(画像とテキストのペア)は入手が困難です。Radiopaediaウェブサイトから約20万件の症例をクロールし、論文から画像とそのキャプションを収集し、基本的な放射線学報告書から3万冊以上の資料を入手しました。

現在、当社のデータのほとんどはオープンソース化されています。

上の画像の右側には、UK Biobank などの他の公開データセットが表示されています。UK Biobank では、10 年間にわたって英国の約 10 万人の患者からデータを購入しました。さらに、Pathology Outlines では包括的な病理学的知識を提供しています。

先ほど述べたセグメンテーションデータと検出データを含むグラウンディングデータに関しては、公開されている約120の放射線画像データセットを単一の標準に統合し、 MR、CT、PET、USの4つのモダリティをカバーする35,000枚以上の2D/3D放射線スキャン画像と、40万件の詳細な注釈を作成しました。このデータは、人体500の臓器をカバーしています。同時に、病変の記述を拡張し、これらのデータセットをすべてオープンソース化しました。

プロフェッショナルな医療ビッグデータモデルを作成するための継続的な反復

言語モデル

学生や研究者がより効果的にモデルを訓練するには、高品質なオープンソースデータセットが不可欠です。次に、モデル開発におけるチームの成果をご紹介します。

まず、言語モデルです。これは、人間の知識をモデルに迅速に注入する方法です。昨年4月にPMC-LLaMAというモデルを公開し、関連する研究は「Towards Building Open-source Language Models for Medicine」というタイトルでJAMIAに掲載されました。

論文の宛先:

https://academic.oup.com/jamia/article/31/9/1833/7645318

これは、私たちが開発した医療分野における初のオープンソース大規模言語モデルです。このモデルは、すべての医療データと前述の論文データを用いて学習し、自己回帰学習を行った後、データを質問と回答のペアに変換する指示を与えて微調整しました。

イェール大学の研究者たちは論文の中で、 PMC-LLaMAがこの分野で最初に公開されたオープンソースの大規模医療モデルであり、多くの研究者がそれをベースラインとして使用していると述べています。しかし、私見では、PMC-LLaMAはクローズドソースのモデルと比較してまだギャップがあるため、このモデルは今後も改良とアップグレードを続けていく予定です。

その後、Nature Communications誌に「医療のための多言語モデルの構築に向けて」と題した論文を発表し、英語、中国語、日本語、フランス語、ロシア語、スペイン語の6言語を網羅し、250億の医療関連トークンを用いて学習した大規模な多言語医療モデルを紹介しました。現在、統一された多言語標準テストセットが存在しないことから、テスト用に関連ベンチマークも構築しました。

詳細レポートを見るにはクリックしてください: 上海交通大学のチームが多言語医療モデルをリリースし、医療ベンチマークテストで Llama 3 を上回り GPT-4 に近づき、6 つの言語をカバーしました。

実際には、ベースモデルがアップグレードされ、そこに医学的知識が注入されると、結果として得られる大規模医療モデルのパフォーマンスも向上することがわかりました。

上記のタスクのほとんどは多肢選択式ですが、医師が実際の業務において多肢選択式だけに頼ることはできないことは周知の事実です。そのため、大規模言語モデルを自由記述テキストの形で医師のワークフローに組み込むことができることを期待しています。この目的のため、私たちの新たな研究では、臨床タスクに重点を置き、関連データセットを収集し、臨床応用に向けたモデルのスケーラビリティを向上させています。

関連する論文はまだ審査中です。

視覚言語モデル

同様に、私たちは医療分野において視覚言語モデルの研究をいち早く開始したチームの一つでした。上記のデータに基づいて、 3つのオープンソースデータセットを構築しました。

  • PMC-OA データセットは、PubMed Central から 160 万件の大規模な画像とキャプションのペアを収集することによって構築されました。
  • PMC-OA から 227,000 件の医療視覚的質問と回答のペアが生成され、PMC-VQA が形成されました。
  • Rad3D データセットは、Radiopaedia 種から 53,000 件のケースと 48,000 件の複数の画像とタイトルのペアを収集して構築されました。

これらのデータセットに基づいて、すでにトレーニング済みの言語モデルを組み合わせて、視覚言語モデルの 3 つのバージョン (PMC-CLIP、MedVInT、RadFM) をトレーニングしました。

PMC-CLIPは、医療用人工知能イメージング分野のトップカンファレンスであるMICCAI 2023で発表した成果です。最終的に「Young Scientist Publication Impact Award, Final List」を受賞しました。この賞は、過去5年間に発表された論文の中から3~7件の受賞論文を選出するものです。

RadFM(Radiology Foundation Model)は現在非常に人気があり、多くの研究者がベースラインとして利用しています。学習時には、テキストと画像のインターリーブをモデルに入力することで、質問に基づいた回答を直接生成できます。

ドメイン固有の知識を強化してモデルのパフォーマンスを向上させる

いわゆる知識強化表現学習は、医学的知識をモデルに注入する方法という問題を解決することを目的としており、私たちはこの課題をめぐって一連の研究を行ってきました。

まず、この「知識」がどこから得られるのかを考える必要があります。一つには、インターネットや、医療分野最大のナレッジグラフであるUMLSが販売する関連論文や書籍などから得られる一般的な医学知識があります。もう一つには、症例研究、放射線画像、超音波検査といった分野特有の知識があります。解剖学的な知識もあり、これらはいずれも様々なウェブサイトから入手できます。ただし、ウェブサイトによってはコンテンツが利用できない場合があるため、著作権の問題に注意することが重要です。

この「知識」が得られれば、病気、薬物、タンパク質の関係を具体的な説明とともに確立するナレッジ グラフを作成できます。

上の画像の左側は、主にがん診断のために作成した病理学ナレッジグラフとナレッジツリーを示しています。がんは体の様々な臓器に発生し、また様々なサブタイプに分類されるため、ツリー構造が適しているからです。同様に、マルチモーダル病理学に加えて、マルチモーダル放射線学やマルチモーダルX線に関する関連研究も行っています。

次のステップは、この知識を言語モデルに注入し、モデルがグラフとその中の点間の関係を記憶できるようにすることです。言語モデルの学習が完了したら、視覚モデルはそれに合わせて調整するだけです。

我々の結果をマイクロソフトとスタンフォード大学の結果と比較したところ、ドメイン知識が追加されたモデルは、ドメイン知識のない他のモデルよりも大幅に優れたパフォーマンスを発揮することが示されました。

病理学分野では、私たちの論文「計算病理学のための知識強化型視覚言語事前学習」が、機械学習の最高峰カンファレンスであるECCV 2024(口頭発表)に選出されました。この研究では、知識ツリーを構築し、それをモデルの学習に投入することで、視覚と言語を整合させます。

さらに、同様の手法を用いてマルチモーダル放射線画像モデルを構築し、その成果は「放射線画像における大規模ロングテール疾患診断」というタイトルでNature Communications誌に掲載されました。このモデルは、患者の放射線画像に基づいて、対応する疾患を直接出力することができます。

要約すると、私たちの作業は完全なワークフローを実現しました。まず、930 種類の疾患などを網羅した 41,000 人の患者からの 200,000 枚の画像を含む、最大のオープンソースの放射線画像データセットを構築しました。次に、ドメイン固有の知識を強化するために、マルチモーダルおよび多言語モデルを構築しました。最後に、対応するベンチマークを構築しました。

謝偉迪教授について

彼は上海交通大学の終身在職権を持つ准教授であり、国家(海外)ハイレベル若手人材育成プログラム、上海海外ハイレベル人材育成プログラム、上海ライジングスタープログラムの受賞者であり、科学技術部の科学技術イノベーション2030-「次世代人工知能」主要プロジェクトの青年プロジェクトリーダー、中国国家自然科学基金の総合プログラムのプロジェクトリーダーです。

彼はオックスフォード大学ビジュアルジオメトリグループ(VGG)で博士号を取得し、アンドリュー・ジッサーマン教授とアリソン・ノーブル教授の指導を受けました。彼は、Google-DeepMind全額奨学金、中国-オックスフォード奨学金、そしてオックスフォード大学工学部優秀奨学金の初期受賞者の一人です。

主な研究分野はコンピュータビジョンと医療人工知能です。CVPR、ICCV、NeurIPS、ICML、IJCV、Nature Communicationsなど60以上の論文を発表し、Google Scholarでは12,500回以上引用されています。トップクラスの国際会議やワークショップで、最優秀論文賞、最優秀ポスター賞、最優秀ジャーナル論文賞など、数々の賞を受賞しています。MICCAI Young Scientist Publication Impact Awardのファイナリスト、Nature MedicineおよびNature Communicationsの招待査読者、そしてCVPR、NeurIPS、ECCVなど、コンピュータビジョンと人工知能の主要会議のエリアチェアを務めています。

  • 個人ホームページ:

https://weidixie.github.io