618ZXW

Natureのサブジャーナルに掲載されました!北京大学のチームがAIを活用してCOVID-19/エイズ/インフルエンザウイルスの進化方向を予測し、精度を67%向上させました。

2019年12月、新型コロナウイルス感染症(COVID-19)のパンデミックが突如発生しました。SARS-CoV-2ウイルスによって引き起こされるこの感染症は、非常に感染力が強く、わずか1ヶ月で我が国の感染者数は1,000人を超え、瞬く間に世界中に広がりました。

中国はウイルスのさらなる蔓延に対抗するため、2021年初頭に全国規模の無料ワクチン接種政策を開始しました。しかし、ワクチンの支援を受けても、この健康危機はますます複雑化しています。これは、SARS-CoV-2ウイルスがワクチンによって生み出された免疫圧力と変化する環境条件に、継続的な変異を通じて徐々に適応してきたためです。武漢で最初に発見された「ウイルス株」は既に姿を消し、様々な変異株に取って代わられ、新たな感染の波を引き起こし続けています。その影響は2023年以降も続いています。

偶然にも、インフルエンザウイルスの陽性率は近年上昇傾向にあり、多くの人が知らず知らずのうちにインフルエンザA(H1N1)に感染しています。SARS-CoV-2ウイルスと同様に、H1N1ウイルスも感染力が高く、急速に蔓延し、変異も速いという特徴があります。同じ季節に複数の亜型ウイルスが出現する可能性があり、短期間で再感染のリスクが高まります。

したがって、ウイルスの進化の方向性を予測することは、予防と制御、そしてワクチンや医薬品の設計にとって極めて重要です。しかし、ウイルスの進化の根底にある突然変異は非常にランダムであり、通常、ごく少数の突然変異が「たまたま」ウイルスの適応性を高めることを意味します。陽性サンプル(有益な突然変異)と陰性サンプル(有害な突然変異)の間のこの不均衡は、これらの稀な有益なウイルスの突然変異を予測できる深層学習モデルの訓練を極めて困難にします。さらに、ウイルスはしばしば少数の部位でのみ突然変異するため、ニューラルネットワークが突然変異によって引き起こされる分子内相互作用の微妙な変化を直接捉えることは困難であり、モデリングをさらに複雑にします。

これに対し、北京大学情報工学学院の田永紅教授と陳潔准教授は、広州国家実験室の周鵬研究員、博士課程の聶志偉氏と劉旭東氏と共同で、ウイルスの進化予測の課題を再検討し、進化駆動型ウイルス変異予測フレームワーク「E2VD」を提案した。このフレームワークは、SARS-CoV-2、インフルエンザ、ジカウイルス、HIVの進化の方向性を予測することができ、新興ウイルス感染症に対する人類の対応速度を大幅に向上させ、ワクチンや薬の迅速な最適化に重要な支援を提供する。

「ウイルス変異の要因予測のための統合進化駆動型ディープラーニングフレームワーク」と題されたこの研究は、2025年1月17日にNature Machine Intelligenceに掲載されました。

論文の宛先:

https://www.nature.com/articles/s42256-024-00966-9

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

データセット: UniRef90 事前学習済みデータセットとウイルスディープ変異スキャンデータセット

ウイルスは進化の過程で絶えず新たな変異を生み出し、それらを選択的に蓄積します。そのため、進化シナリオ向けに設計されたタンパク質言語モデルには、強力なゼロショット汎化能力、つまり未知の変異に対応できる能力が必要です。これを実現するために、研究チームはタンパク質言語モデルの事前学習データセットとしてUniRef90を選択しました。UniRef90は、モデル学習の初期段階におけるパフォーマンスに悪影響を与えることなく、豊富な配列レベルの進化情報を含んでいます。この豊富な進化情報により、事前学習中に十分な数のタンパク質ファミリー配列サンプルにモデルを曝露することができ、ゼロショット汎化能力が向上します。

さらに、ウイルスの変異によって引き起こされる進化適応度地形をモデルが学習できるようにするために、研究チームはさまざまなウイルスのオープンソースのディープ変異スキャンデータセットを使用しました。

モデルアーキテクチャ:進化にインスパイアされた一般的な建築デザイン

研究チームは、「弱い変異増幅」と「希少な有益な変異マイニング」の設計に基づき、進化駆動型ウイルス変異駆動力予測フレームワークE2VDを提案した。図aに示すように、E2VDは主に、タンパク質配列エンコーディング、局所-全体依存関係カップリング、マルチタスク焦点学習という3つのモジュールから構成される

E2VDモデルアーキテクチャ
  • まず、タンパク質配列コーディングモジュールにおいて、研究チームはウイルスの進化に合わせてカスタマイズされたタンパク質言語モデルを独自にトレーニングし、ウイルスのタンパク質配列の特徴を正確に抽出できるようになりました。
  • 第二に、局所的・全体的相互作用依存性融合モジュールにおいて、研究者らは畳み込みニューラルネットワーク(CNN)を用いて変異と隣接アミノ酸間の相互作用依存性を捉え、変異が位置するモチーフレベルで長距離相互作用依存性ネットワークを構築するための学習可能な動的注意機構を設計した。この設計は、変異体全体の変異数が少ないために弱い影響を捉えるのが難しいという問題を効果的に解決する。
  • 次に、マルチタスクフォーカス学習モジュールでは、マルチタスク学習とハードサンプルマイニング戦略の利点が組み合わされ、マルチタスクトレーニング中にパラメータを共有することで、ウイルス変異の適応性に関するモデルの予測パフォーマンスが向上します。

さらに重要なのは、上の図 b に示すように、チームが新しいマルチタスク焦点損失関数を設計したことです。この関数により、モデルはトレーニング中に効果的に学習するのが難しいまれな有益な突然変異にさらに注意を払うようになり、まれな有益な突然変異 (つまり、ハード サンプル) の予測パフォーマンスが大幅に向上しました。

さらに、上図cに示すように、E2VD予測フレームワークは、様々なウイルス適応度予測タスクにおいて、入力と出力を柔軟に調整できます。例えば、変異による結合親和性の変化を予測するにはウイルス配列のみを入力できますが、変異による抗体の逃避能力の変化を予測するには、ウイルス配列と抗体配列の両方を同時に入力できます。これにより、統一されたアーキテクチャ上で、ウイルスの種類や株をまたがる高精度な進化予測が可能になります。

具体的には、この研究では、E2VDフレームワークをSARS-CoV-2ウイルス、インフルエンザウイルス、ジカウイルス、HIVに関連する予測タスクに使用しました。

  • SARS-CoV-2 の課題には、ウイルス変異の 3 つの主要な要因である結合親和性、発現レベル、抗体回避の予測が含まれます。
  • インフルエンザ、ジカ、HIV ウイルスのタスクは、モデルの一般化能力を分析するために、突然変異によって引き起こされる適応度効果を予測することです。

実験結果: E2VD は有益な突然変異の予測精度を 67% 向上させ、優れた一般化性能を備えています。

E2VD はウイルスの進化パターンを正確に捉えることができ、有益な変異を予測する精度が 67% 向上します。

研究チームは、進化シナリオにおけるカスタマイズしたタンパク質言語モデルの予測性能を、主流のタンパク質言語モデルと比較しました。その結果、カスタマイズしたタンパク質言語モデルは、3億4000万という最も少ないモデルパラメータで最高の予測性能を達成し、パラメータ数が44倍多いESM2-15Bの性能をも上回りました。これは、カスタマイズされた事前学習データセットと学習戦略の有効性を実証しています。

その後、研究チームは、様々な主要なウイルス進化ドライバー予測タスクにおいて、E2VDと主流の手法を比較しました。その結果、E2VDは他の手法を大幅に上回り、7%から21%の性能向上が見られました。さらに、E2VDがウイルスの進化パターンを正確に捉え、例えば異なる種類の変異を正確に識別したり、稀な有益な変異を正確に発見したりする能力を実証するため、研究者らは複数の実験を実施しました。

a: w/o MT は MT モジュールのない E2VD を意味します。w/o LG は LG モジュールのない E2VD を意味します。w/o MT&LG は MT モジュールと LG モジュールの両方のない E2VD を意味します。

b: 親和性予測タスクで説明されている 3 つの変異タイプのリスク レベルを組み合わせます。

d: 異なる喪失メカニズムが稀な有益な突然変異を捕捉する能力

まず、モジュールアブレーション研究を用いて、局所的・全体的相互作用依存性融合(LG)モジュールとマルチタスクフォーカス学習(MT)モジュールの予測性能への寄与を調査しました。上図aに示すように、この研究では、MTモジュールがウイルス適応における稀な有益な変異のマイニングに効果的であることがわかりました(再現率は0%から69.63%に向上)。LGモジュールとMTモジュールを組み合わせることで、モデル性能はさらに向上し、精度91.11%、再現率96.3%、相関係数0.87を達成しました。

研究チームが提案したマルチタスク焦点損失関数は、予測性能を大幅に向上させます。マルチタスク焦点損失関数が稀な有益な変異を捕捉する能力を評価するために、研究者らは代表的な有益な変異と有害な変異を選択し、テストセットを作成しました。

  • 上の図 d に示すように、E2VD は希少な有益な変異の予測精度を 13% から 80% に向上させ、精度の飛躍的な向上を実現し、ウイルスの進化に極めて重要な希少な有益な変異を正確かつ効率的に特定します。
  • 有害な変異については、マルチタスクフォーカスロスは従来のBCE&MSEと同様のパフォーマンスを示します。これは、BCE&MSEではモデルが希少な有益な変異を学習するのを支援できず、モデルがすべての変異を有害な変異として予測する傾向があるためです。

図bに示すように、研究者らは主成分分析(PCA)を用いて、インフルエンザウイルス、ジカウイルス、HIVウイルスの3種類の変異を次元削減によって可視化しました。その結果、LGモジュールで処理することで、異なる変異の特徴が明確に区別され、明確な境界が示されました。これは、LGが分子内相互作用ネットワークを捕捉・再構築することで、E2VDの様々な変異タイプに対する感受性を高め、ウイルスの進化適応をより深く理解できることを示しています。

インフルエンザ、ジカウイルス、HIV 予測タスクにおける 3 種類の変異の視覚化分析。

E2VD は優れた一般化性能を備えており、ウイルスの種類や株にわたって予測を行うことができます。

ウイルスは選択圧を受けて進化し、複数の株が出現します。例えば、最近話題となっているインフルエンザウイルスは複数の型を含み、季節変動も示します。そのため、複雑なウイルスの進化傾向を予測するには、モデルの汎化能力が極めて重要です。研究者らは、同じウイルスの異なる株や型を含む予測課題におけるモデルの汎化能力を評価するために、「序数対比率(OPP)」を提案しています。

  • OPPは、すべての変異ペアのうち正しく予測された変異ペアの割合を表します。OPP値が高いほど、予測される適応地形のカオス性が低く、ウイルスの変異ドライバーの相対的な順序を予測するモデルの能力がより理想的であることを示唆します。

図bに示すように、株間結合親和性予測タスクにおいて、研究者らは6つの異なる株と全株のプールデータセット(All)のOPP(最適性能点)を評価しました。その結果、E2VDは全てのシナリオにおいて他の手法を大幅に上回る性能を示しました。図cに示すように、発現レベル予測タスクにおいても、E2VDは大多数の株において他の手法を上回りました。全体として、E2VDは分布外株において最先端の手法を総合的に上回り、高い汎化性能を示しました。

  • b、c: E2VD はさまざまなウイルス株の OPP を予測します。d、e、f: E2VD はさまざまな種類のウイルスのパフォーマンスを予測します。

上図d、e、fに示すように、研究者らは、E2VDがSARS-CoV-2、ジカウイルス、インフルエンザウイルス、HIVを含むウイルスの型間予測において理想的な汎化能力を示し、他の手法を総合的に凌駕していることを発見しました。将来的には、より感染性の高いウイルスにも拡張される可能性があります。

AIはウイルスの進化を予測する上で大きな可能性を秘めています。

上記の研究は、ウイルスの進化予測という問題を進化論的観点から再検討し、異なるウイルスの種類や株に適用可能な普遍的な進化予測フレームワークであるE2VDフレームワークを構築しました。このフレームワークは、複数のウイルス変異ドライバー予測タスクにおいて優れた予測性能と汎化能力を示し、ウイルスの進化傾向の予測を可能にしました。さらに、E2VDを柔軟かつカスタマイズして組み合わせることで、異なるスケールにおける進化傾向の予測も可能です。

  • まず、E2VD はパンデミック時のウイルスの進化経路を説明することができ、ウイルス株の拡散の理由やその根底にある分子メカニズムを理解するのに役立ちます。
  • 第二に、仮想ディープ変異スキャンシミュレーションを組み合わせることで、E2VD は 80% の精度で高リスク変異を予測できます。
  • 最後に、E2VDはパンデミック規模でのマクロ的な進化軌道予測も達成し、現実世界におけるウイルスの進化経路を再現し、ウイルスの進化メカニズムを理解するための理論的裏付けを提供しました。

今後、研究チームはE2VDをワクチンやタンパク質医薬品の設計プロセスと統合し、設計の効率と制御性を向上させる計画で、これはウイルスの予防と制御、医薬品の設計に大きな意義を持つことになる。

特筆すべきは、本研究の著者が北京大学情報工学部の田永紅教授、陳潔准教授、そして彼らの博士課程学生である聶志偉氏と劉旭東氏であることである。チームは生命科学のためのAI分野の研究に注力しており、彼らのプロジェクト「ウイルス進化の先取り:人工知能シミュレーションによる将来の高リスクSARS-CoV-2変異体の予測」は、2022年11月に2022年ゴードン・ベル賞COVID-19部門の最終候補に選出された(ゴードン・ベル賞は、高性能コンピューティング応用分野における国際的に最高の学術賞である)。

研究チームはウイルスの進化予測分野において豊富な経験を有しており、2023年7月には「進化の先取り:AIによる将来の高リスクSARS-CoV-2変異株予測シミュレーション」を国際高性能計算応用ジャーナル(International Journal of High Performance Computing Applications)に発表しました。具体的には、大規模タンパク質言語モデルを事前学習し、親和性と抗体回避予測を組み合わせたハイスループットスクリーニング手法を構築しました。これは、SARS-CoV-2 RBD変異をシミュレーションした初の研究です。このモデルは、対象とした5つの変異株のRBD領域における変異を同定し、数百万の潜在的な変異株を数秒以内にスクリーニングすることに成功し、感染症の予防と制御のための「AI+HPC」(人工知能+高性能コンピューティング)パラダイムの技術的手段を提供しました。

論文リンク:

https://journals.sagepub.com/doi/abs/10.1177/10943420231188077

さらに、チームは生命科学のための一連の基礎モデルを開発しました。酵素工学において極めて重要な酵素-基質相互作用予測タスクを例に、チームは2024年12月にプレプリント論文を発表し、酵素-基質相互作用を予測するための漸進的条件付き深層学習フレームワークMESIを提案しました。

論文リンク:

https://www.researchsquare.com/article/rs-5516445/v1

具体的には、酵素-基質相互作用のモデリングを2段階学習プロセスに分離することで、酵素反応特有の情報と主要な触媒相互作用情報をそれぞれ組み込む2つの条件付きネットワークを設計し、潜在特徴空間をタンパク質および小分子の一般領域から触媒センシング領域へと段階的に移行させます。このモデルは、様々な下流タスクにおいて、常に最先端の手法よりも優れた性能を発揮します。さらに、提案された条件付きネットワークは、わずかな追加計算オーバーヘッドで、酵素触媒の基本パターンを暗黙的に捉えます。この条件付きセンシングメカニズムによって、このモデルは活性部位を正確に特定し、主要な触媒相互作用に関与する酵素残基と基質官能基を、構造情報を必要とせずに効率的かつ低コストで発見することができます。

チームは人工知能(AI)の活用により、生命科学におけるAIの活用分野における研究をさらに深化させ、ウイルス予測、タンパク質医薬品の設計、ワクチン開発など、様々な分野における可能性を広げていきます。今後のさらなる成果に期待しています。

参考文献:
https://www.who.int/
https://news.pku.edu.cn/jxky/90d276ae5f8441849fd04372fd872154.htm
https://news.pkusz.edu.cn/info/1003/8711.htm