618ZXW

コンピュータビジョンから医療AIへ:上海交通大学の謝偉迪氏との対話:問題解決よりも問題定義が重要

2012年、いわゆる「終末の年」に、モバイルインターネットは爆発的な成長を遂げました。3Gネットワ​​ークの普及、スマートフォンの価格低下、WeChatやMiTalkといったコミュニケーション系アプリケーション、そして電子商取引や決済アプリケーションの急速な台頭により、モバイルインターネットは新たな成長段階を迎えました。様々な革新的なアプリケーションの基盤として、通信業界の発展見通しは非常に有望です。

「当時の私の理解では、通信技術はすでに非常に成熟しており、中国は技術面で世界の最先端を走っていました。両国間の争いは主に通信プロトコルに関するもので、それは技術の領域を超えていました。」謝衛迪は北京郵電大学で4年間の学部課程を修了していました。人生の岐路に立たされた彼は、「この専攻はあまり好きではありませんでした。もちろん、理解していなかった可能性もあります」と認めました。

その後、彼は海外でさらなる研究を続け、キャリアパスを変えることを選択しました。ユニバーシティ・カレッジ・ロンドン(UCL)とオックスフォード大学でコンピュータービジョン分野の修士課程、博士課程、そしてポスドク研究を修了しました。2022年に中国に戻り、上海交通大学に着任しました。コンピュータービジョン分野での経験を医療人工知能分野に活かし、新たな戦場を開拓しようとしています。

謝衛迪教授にとって、通信からコンピュータビジョンへ、そしてコンピュータビジョンから医療用人工知能へと二度にわたる転換は、まさに重要な節目と言えるでしょう。これらの選択における躊躇、新たな分野への挑戦、そして成果を発表した後の達成感は、いずれも彼の経歴のハイライトと言えるでしょう。

最近、HyperAIは謝偉迪教授に詳細なインタビューを行う機会を得ました。教授は自身の経験を踏まえ、コンピュータービジョンからヘルスケアにおけるAIへの変革に関する洞察を共有し、業界の発展動向についても詳細な分析を行いました。

汎用医療AIシステムは「知能の創発」を生み出すことができます。

「特定の疾患の診断・治療モデルの方が明らかに実用的であるにもかかわらず、なぜ私が汎用医療AIシステムを開発したいのか、多くの人は理解してくれません。」大規模モデルが様々な産業に力を与えている今日において、特化型モデルと汎用型モデルの区別は、業界内で依然として重要な議論の焦点となっています。特化型モデルは特定の領域において高い精度と実用性を発揮しますが、その汎用化能力には限界があります。広範な知識ベースを持つ汎用型モデルは、異なる領域を結びつけることができますが、特定の領域における能力は、特化型モデルに匹敵しないことがよくあります。

謝衛迪氏によると、特化型モデルと汎用型モデルにはそれぞれ長所と短所があるものの、「汎用医療AIシステムの開発は必須です」と述べています。彼は、汎用性とは、モデルが異なるモダリティのデータ間に隠れたつながりを構築し、いわゆる「インテリジェントな創発」を生み出すことができることを意味すると考えています。これは、特に原因不明の疾患の診断に不可欠です。例えば、肺炎Aと肺炎Bの分類問題において、画像とテキストを学習に使用すれば、これらのマルチモーダルデータを最下層で連結することで、2種類の肺炎の症状の類似点と相違点を識別し、分類目標を達成できます。しかし、画像のみを学習に使用した場合、ネットワークはこの関係性を学習できない可能性があります。 「したがって、科学的発見の観点から、汎用型モデルの価値は非常に重要です。」

マルチモーダルで汎用的な医療モデルを構築するには、可能な限り多くの医学的知識を取り入れることが不可欠です。しかし、医療データは倫理、セキュリティ、品質上の懸念から、入手と利用が困難な場合が多くあります。この課題に対処するため、謝偉迪氏はコンピュータービジョンから医療分野へのデータ収集手法、つまりインターネットからのデータスクレイピングを選択しました。「もちろん、このように訓練された大規模モデルを臨床応用することはできないことは承知していますが、データの収集、整理、クレンジングなど、ビッグデータを扱う能力を持つ人材を育成し、チームの能力を鍛えることができます。」

例えば、チームは3万冊以上の医学書を収集し、PubMed Centralから400万件の医学記事をクロールしたほか、インターネットから中国語、英語、ロシア語、日本語を含む8つの言語の医学論文や書籍を収集し、言語モデルのトレーニングに使用できるコーパスに変換しました。

チームが構築したデータセット

さらに、チームはインターネット上で公開されている画像テキストデータをマイニングし、25万枚以上の3Dスキャン画像と100万枚以上の医学論文からの2D画像を集約しました。さらに、汎用的なセグメンテーションモデルを学習するために、MR、CT、PETといった様々な一般的な放射線画像モダリティを網羅し、3万枚以上の2D/3D画像と数百万のピクセルレベルの注釈を含む、約120の公開されている放射線画像セグメンテーションデータセットを標準化しました。医療AI研究における医療データセットの重要性を認識し、チームは取得したデータセットのほとんどをオープンソース化しました

汎用モデルの構築にあたり、チームは画像、テキスト、ゲノミクス、心電図信号など、取得したすべてのマルチモーダルデータを用いてモデルを共同で学習させることを目指しました。画像上の病変部位の特定とテキストレベルの診断・レポートを最も基本的な出力としました。学習中に医学知識を組み込むことも、汎用機能の実現に不可欠な要素でした。謝偉迪氏は、「病院内の各科にはそれぞれ異なる業務があり、医師は自分の担当業務に集中しがちです。汎用モデルがすべての検査情報を網羅し、鑑別診断などのタスクを完了するための段階的な思考プロセスを形成することを期待しています」と説明しました。

マルチモーダル汎用AI医療ビッグデータモデルのコンセプト

メンターが「無関心」の時は、静かに力を蓄えてください。

前述の通り、汎用医療AIシステムの開発において、謝衛迪氏はコンピュータービジョン分野の手法を医療分野に応用するというアプローチをとった。これは、彼が10年近くコンピュータービジョンの研究に携わり、豊富な知識を有していたためである。しかし、この専攻を選んだのは、彼にとって「偶然の産物」だった。

謝衛迪さんは学部時代、北京郵電大学で学びました。「通信分野に興味がなかったため、学部時代の成績は非常に悪く、就職できないのではないかと不安になり、留学を選びました」と、彼は笑顔で語りました。

2012年、謝衛迪はコンピュータービジョンの修士号取得を目指してロンドン大学に入学しました。この時、彼は自分が興味を持てる分野を見つけ、非常に真剣に研究に取り組みました。「指導教官は私がこの分野の研究に非常に適していると感じ、博士号取得を勧めてくれました。」当時、英国では博士号取得のための奨学金が限られていたため、彼は研究を続けるために自費で博士号を取得すべきかどうかという問題に直面しました。「指導教官は私にオックスフォード大学を勧めてくれました。たとえ自費で学費を支払わなければならなかったとしても、その投資はより価値があると思ったのです。」

幸運なことに、2014年、DeepMindはAlphaGoプロジェクトの推進を強化するため、AI人材育成への投資を増額し、オックスフォード大学と提携して奨学金プログラムを設立しました。謝衛迪はオックスフォード大学とGoogle DeepMindの全額奨学金の最初の受給者となりました。DeepMindからの約100万元の奨学金は彼の経済的負担を適時に解消しましたが、彼が直面した真の問題は、2人の指導者の放任主義的な態度が彼を卒業の妨げにしかけたことでした。

「博士課程在学中、私には二人の素晴らしい指導者がいました。一人はコンピュータービジョン分野のアンドリュー・ジッサーマン教授で、王立協会フェローであり、コンピュータビジョンの創始者の一人とされています。もう一人は、医用画像処理を研究し、王立協会と工学アカデミーの両方のフェローを務めていたJ・アリソン・ノーブル教授です。当時、二人は私がお互いの研究に深く関わるだろうと考えていたため、私は一人きりで研究を進めるしかありませんでした。」オックスフォード大学視覚幾何学グループ(VGG)の謝衛迪のグループは、畳み込みニューラルネットワークVGGNetの開発で高く評価され、そのメンバーは国際的な学術界で概して非常に高い評価を得ていました。謝は、それぞれの分野で急速に進歩する同僚たちとの格差感に直面するだけでなく、常に新しい研究テーマを探求する必要に迫られていました。

AlphaGoの影響でディープラーニングの人気が急上昇し、謝衛迪は生成モデルに強い関心を抱くようになりました。しかし、彼の指導教官であるアンドリュー・ジッサーマン教授は、「人気は低いが価値が高い」研究を好みました。「毎週のミーティングで、クラスメートはAZ教授に毎週の進捗状況を報告できましたが、私はいつも山積みの論文を持ってミーティングに行き、山積みの新しい論文を読んで帰る羽目になりました。」一方、英国では医療画像データに対する厳格な管理が行われていたため、データなしでは研究は不可能で、もう一人の指導教官であるJ・アリソン・ノーブルからもフィードバックを得られませんでした。「卒業の1年前までに、ワークショップ論文を1本しか発表していませんでした。このままでは卒業できないかもしれないと、両方の指導教官に伝えました。」

諺にもあるように、「どんな雲にも銀の裏地がある」。彼の研究テーマのいくつかは指導教官に却下され、実現に至らなかったため、彼は自由時間を費やして当時のコンピュータビジョン分野の論文をほぼすべて読み漁った。この積み重ねが、彼の将来の研究の確固たる基盤となった。「当時は、指導教官が私のテーマを認めてくれれば、数日で終わらせられると思っていました」と彼は語る。

謝偉迪は2018年、2人の指導者の支援を受け、コンピュータービジョン、医用画像などの分野で7本の論文を発表し、無事に卒業しました。AZも彼の能力を認め、2022年に中国に帰国するまで、コンピュータービジョン研究を専門とするポスドク研究を継続するよう招聘しました。

謝偉迪の卒業写真

知識は、コンピューター ビジョンと医療の最も根本的な違いです。

仕事と家庭の両立は、謝衛迪氏を含め、数え切れないほど多くの人にとってジレンマです。「中国への帰国を選んだのは、とても突然の決断でした。オックスフォード大学に残り、助教授の職に就く機会も見ていましたが、徐々に、現地の環境は私の深い研究を続けるには適していないことに気づきました。一方で、当時は新米パパだった私には、家族を養うだけのお金も体力もありませんでした。」

謝衛迪は、私見では他に類を見ない個性の持ち主です。科学研究​​において重視される謙虚さと実利主義に加え、並外れた決断力も備えています。中国への帰国を決意するや否や、彼はすぐに国内の大学に連絡を取りました。「海外からの優秀な若手科学者」や「求人比較」といった肩書きは気にせず、上海交通大学に履歴書を提出し、見事に採用されました。

謝偉迪は交通大学で教鞭をとっています

興味深いことに、上海交通大学の張亜教授は、彼の入社手続きにおいて人事担当者として尽力しました。張教授との出会いは、ある論文がきっかけでした。「2018年、張亜教授と学生たちが、私が以前発表した医用画像関連の論文を再現したいと考え、WeChatで私を追加してくれたのです。」この機会が、後に彼が中国に戻る道を切り開きました。張亜教授に履歴書を送ると、すぐに返信が届きました。「幸いなことに、大学は手続き全体を迅速に進めてくれました。」

上海交通大学に入学後、彼はコンピュータービジョンにおける元々の研究に加え、医療用人工知能の研究を始めました。「当時、医療との関わりが深く、興味もあったので、科学のためのAI研究に挑戦したいと思い、この分野を選びました。」

特筆すべきは、2022年、ChatGPTの登場と時を同じくして、謝衛迪氏が当時主流だった医療画像入力方法を捨て、言語入力から始めることを決めたことです。 「医学とコンピュータービジョンの最も根本的な違いは知識だと考えています。医学はエビデンスに基づく研究を重視し、体系的かつ標準化された知識を持っていますが、視覚分野の医療画像モデルに知識を埋め込むのは困難です。」謝氏のビジョンでは、チームは医学知識を言語モデルに埋め込み、視覚モデルと言語モデルを連携させることで、医学知識を視覚モデルに転送できると考えていました。

おそらくアンドリュー・ジッサーマン教授の影響もあるのでしょうが、謝衛迪は科学研究に対する鋭い直感を持っていると私は考えています。それは、彼が指導者について「AZの多くのテーマは短期的なホットトピックを追求するのではなく、長期的な価値に焦点を当てています」と評価していることからも明らかです。例えば、視覚言語モデルPMC-CLIPの開発では、研究の多くが初めて行われたため、チームの学生はプロジェクトの意義を十分に理解していませんでした。なぜインターネットからすべての論文をスクレイピングするのか、なぜモデルをトレーニングするために画像や注釈を抽出するのか…「MICCAIは提出時に論文をほぼ却下しました。」

しかし、しばらくすると視覚言語モデルが急速に人気を集め、PMC-CLIPモデルもMICCAIの「Young Scientist Publication Impact Award, Final List」を受賞するなど、その成果が認められました。「私も最初は、この研究の有用性を学生に納得してもらうのに苦労しました。私が選んだテーマが、後に皆の興味を引くものだったのは幸運だったのかもしれません。」

インタビューの中で、謝衛迪教授は何度も「運」について言及しました。オックスフォード大学に入学できたのも幸運、オックスフォード・Google DeepMind奨学金をいち早く獲得できたのも幸運、帰国後に上海交通大学に無事入学できたのも幸運、研究方向や技術の道を選択できたのも幸運でした…。しかし、私の考えでは、運というのは大抵根拠のないものではありません。過去の行動が予兆だったのかもしれませんし、あるいは長年にわたる努力の積み重ねが、今の正しい選択につながっているのかもしれません。

問題を解決することよりも、問題を定義することの方が重要です。

謝衛迪がかつて「私が選んだテーマが、後に皆の興味を引くものになった」と喜んだことは特筆に値します。しかし、研究テーマの選択は、まさにチームリーダーの分野における独自の観察眼を反映したものだと私は考えています。謝衛迪はこれを「問題の定義」と表現しています。彼の見解では、問題を定義することは問題を解決することよりも重要です。意味のある問題が定義されれば、無数の人々がそれを追って解決するでしょう。したがって、この段階では、モデルが解決する上で最も価値のある問題を検討する必要があります。これは非常に重要です。

さらに、問題を解決するには、「人材、データ、計算力」が不可欠です。

現在、AI4Sの開発はまだ初期段階にあります。AI実践者はモデル構築とフレームワークの最適化に強みを持つ一方、科学実践者は垂直分野における科学的課題の正確な特定に優れています。両者は普遍的に適用可能な連携モデルを模索してきました。この点において、謝衛迪氏のチームは上海交通大学医学部の多くの教員や学生と連携し、彼らの医療分野の専門知識を最大限に活用し、彼らをコンサルタントとして迎え、研究の方向性が医学的実用価値を持つかどうかを判断する支援を行っています。さらに、彼らは「品質検査官」として、サンプリングされたデータの品質に責任を持ち、データのクリーン度が90%以上に達することを保証しています。

一方、チームの体制が整うにつれ、学生たちはウェブスクレイピング技術を習得しました。彼らが直面する次の課題は、インターネットデータリソースの枯渇です。この点において、チームは病院と連携してより高品質な医療データを入手し、モデルの実装に取り​​組みたいと考えています。謝衛迪氏は、「データ駆動型」という単純な概念よりも、「知識駆動型」あるいは「データと知識駆動型」のアプローチが重要であると強調しました。そのため、チームは医学知識を核に据え、チームメンバーと協力してより実践的な意味を持つ問題の解決を目指しています。

医療AIの解釈可能性は、長年、医師にとって大きな懸念事項であったことは注目に値します。謝衛迪氏は、 AIの性能が診断精度においてトップクラスの医師を上回るほど強力であれば、解釈可能性はもはや問題ではなくなると考えています。例えば、GoogleのMed-PaLM 2モデルは、USMLE医師免許試験で86.5という高得点を達成しました。さらに、彼らのチームは、医療用大規模言語モデルPMC-LLaMAとMMed-LLaMA、視覚言語モデルMedVInTとRadFM、汎用セグメンテーションモデルSATを次々と開発しました。これらのモデルの多くは業界のベースラインと見なされており、NPJ Digital Medicine、Nature Communications、ICCV、ECCV、NeurIPS、MICCAIなどの著名なジャーナルや会議で発表されています。これらの成果の迅速な反復により、医師のAIに対する認識は徐々に変化しており、高品質の協力関係を確立することは有望な未来です。

上海交通大学は、コンピューティングリソースと資金の面で、チームの初期研究と将来の成果の転換を全面的に支援してきました。学内の様々なチームも積極的に協力の機会を模索しており、強力な学術的雰囲気が醸成されています。

価値ある研究を行う

謝衛迪教授との会話の中で、教授は価値ある研究を行いたいという強い思いを繰り返し述べました。教授の見解では、チームのこれまでの研究は「学術界にとってのおもちゃのプロトタイプ」に過ぎず、小規模なモデルをうまく実装するにはさらにスケールアップする必要があるとのことでした。教授は、これらのプロトタイプが他の研究者、さらには産業界にとって参考となり、どのようなデータを使用するか、どのように処理するか、モデルをどのように構築・訓練するか、そしてどのように指示を設定するかを示すものとなることを期待していました。

将来的には、チームは臨床志向のスーパーインストラクションを構築し、医師が関心を持つ100以上のタスクをトレーニングに統合することで、モデルが実際の臨床ニーズの解決に集中できるようにする予定です。これについて、彼は次のようにコメントしています。「従来の言語モデルでは、評価に多肢選択式の質問がよく用いられますが、医師とのコミュニケーションにおいては、彼らが多肢選択式のスコアの高さではなく、モデルが臨床タスクにおいて有能であるかどうかといった実用的な問題を解決できるかどうかを重視していることがわかります。」

さらに、チームはゲノム、DNA、RNA、アミノ酸といったレベルでの関連研究にも着手し、従来の画像やテキストに頼る限界を打ち破っています。希少疾患の診断や新薬開発におけるさらなる可能性を創造したいと願っており、今後の成果に期待しています。

Xie Weidi 氏の研究の詳細については、Google Scholar の検索結果をご覧ください。

https://scholar.google.com/citations?user=Vtrqj4gAAAAJ&hl=zh-CN