|
2020年初頭、新型コロナウイルスの影が急速に世界中に広がりました。時間との闘いの中で、私たちは数え切れないほどの英雄的な個人や団体が立ち上がり、社会システムは幾度となく厳しい試練にさらされ、世界の公衆衛生分野に警鐘を鳴らしました。 コロナウイルスが恐れられている主な理由は、RNAウイルス科に属することです。これらのウイルスは複製時にエラー訂正機構を欠いており、変異しやすい性質を持っています。この変異能力は、RNAウイルスが種を超えて拡散し、宿主域を拡大することを可能にするだけでなく、病原性の変化にもつながります。本来ヒトに無害なウイルスが変異によって病原性を示し、病気を引き起こす可能性があります。ヒトは一般的にこれらの変異ウイルスに対する免疫を欠いているため、ウイルスの変異は急速に大規模な流行を引き起こす可能性があります。 ウイルスは人間の健康と密接に関連していますが、現在確認されているウイルス種は約5,000種に過ぎず、全体のほんの一部に過ぎません。RNAウイルスを同定する従来の方法は、未知のウイルスと既知のウイルスの配列相同性を比較する配列相同性比較に大きく依存しています。しかし、 RNAウイルスは多様性に富み、分化度が高いため、従来の方法では相同性が欠如しているか極めて低い「ダークマターウイルス」を捕捉することが困難であり、新しいウイルス発見の効率が制限されています。 過去10年間、人工知能(AI)、特にディープラーニングアルゴリズムは、生命科学の様々な研究分野に大きな影響を与えてきました。AIとウイルス学研究を組み合わせることで、RNAウイルスの同定という課題を克服するための新たな手法が生まれています。 最近、中山大学医学部の石芬教授は、浙江大学、復旦大学、中国農業大学、香港城市大学、広州大学、シドニー大学、アリババクラウド・アプサラ・ラボと共同で、新たなディープラーニングモデル「LucaProt」を提唱しました。クラウドコンピューティングとAI技術を活用したこのモデルは、180のスーパーグループと16万種以上の新しいRNAウイルスを発見しました。これは既知のウイルス種の約30倍に相当し、RNAウイルスの多様性と進化の歴史に関する業界の理解を大きく深めました。また、この研究では、47,250ヌクレオチドに達する、これまでで最長のRNAウイルスゲノムも発見され、RNAウイルス同定分野における大きな進歩となりました。 「人工知能を用いて隠れたRNAウイルス圏を記録する」と題されたこの研究は、国際学術誌「Cell」に掲載された。 研究のハイライト:
論文の宛先: オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。 https://github.com/hyperai/awesome-ai4s データセット: RNA ウイルスは世界中のさまざまな生態系をカバーし、多様性を示しています。本研究ではまず、NCBI SRAやCNGBdbなどのデータベースを体系的に検索し、世界中のさまざまな生態系におけるRNAウイルスの多様性に関する詳細な研究を行うことを目指しました。 下図Aに示すように、研究チームは世界中の生物環境サンプルから合計10,487のデータポイントをスクリーニングしました。これは総シーケンスデータ量51TBに相当し、13億以上のフラグメントと8億7,200万個の予測タンパク質を生成しました。これらの膨大なデータセットを用いて、研究者らは潜在的なウイルスRdRPを明らかにし、検証し、2つの異なる戦略を用いてクロスバリデーションを実施しました。 RNAウイルス研究の概要 2つの探索戦略の結果を組み合わせることで、本研究では513,134個のウイルスゲノムを発見しました。これは、161,979種の潜在的なウイルス種と180種のRNAウイルススーパーグループに相当します。この発見により、RNAウイルススーパーグループの数に関する本研究の理解は大幅に拡大し、約9倍、ウイルス種の数は約30倍に増加しました。 下の図 C に示すように、この研究では、RdRP タンパク質の配列を他の研究の配列と比較することにより、新たに特定された潜在的にユニークなウイルス種が 70,458 種明らかになりました。 本研究におけるウイルススーパーグループ分析 この研究では、これまであまり注目されておらず、未同定または十分に調査されていない60個のスーパーグループも明らかになりました。特に注目すべきは、下の図Dに示すように、これらのスーパーグループのうち23個は従来の配列相同性解析法では同定できなかったことです。これらはビリオン球の「ダークマター」と呼ばれています。 異なるRNAウイルスクラスターとRNAウイルススーパーグループ LucaProt: ウイルス学研究の新しいパラダイムを切り開くデータ駆動型のディープラーニング モデル。本研究では、データ駆動型ディープラーニングモデル「LucaProt」を開発しました。図Eに示すように、LucaProtは入力、トークナイザー、エンコーダー、プーリング、出力という5つのコアモジュールで構成されています。
最終的に、本研究ではモデルの精度と汎化能力を向上させるため、235,413サンプルを含むデータセットを綿密に準備しました。このデータセットは、十分に研究されたウイルスRdRP(陽性サンプル)5,979個と非ウイルスRdRP(陰性サンプル)229,434個で構成されています。Transformerフレームワークと大規模モデル特性評価技術に基づき、タンパク質配列と固有の構造特徴を組み合わせることで、精度、効率、そして検出されたウイルスの多様性において従来の手法を凌駕する性能を発揮します。 さらに重要なのは、LucaProt は配列データだけでなく、タンパク質の機能を正確に予測するために不可欠な構造情報も統合することです。 これまでの理解を超えたゲノム構造を特定し、これまでで最も長い RNA ウイルスゲノムを発見しました。LucaProt のパフォーマンスを総合的に評価するために、この研究では、その精度と効率性を完全に検証するために、複数の視点から詳細な分析を実施しました。
パフォーマンス評価に使用された 5 つの方法のうち、LucaProt が最も包括的なパフォーマンスを示しました。 LucaProtの有効性を評価するため、本研究では他の4つのウイルス検出ツールと比較しました。図Aに示す通り、 LucaProtは比較的低い偽陽性率を維持しながら、最も高いリコール率を示したことが示されました。 再現率、精度、偽陽性率の分析 計算効率の点では、図 E に示すように、 6 つのデータセットの平均計算時間に基づいて、LucaProt は異なる長さのデータセットを処理するときに、より合理的な効率を示しています。 長さの異なる6つのデータセットに基づいて計算された平均時間 最後に、LucaProtに統合された高度なTransformerアーキテクチャは、図FHに示すように、より長いアミノ酸配列の並列処理を可能にします。このアーキテクチャは、他のバイオインフォマティクスツールで一般的に使用されているCNN/RNNエンコーダーよりも、配列空間内の離れた部分間の関係性を捉える点でより効果的です。 テストデータセットに基づく予測結果の比較 新たに発見された RNA ウイルス スーパーグループの検証と構造的特徴の確認では、ほとんどが既存の RdRP との配列類似性を示しています。 研究チームは、50の環境サンプルからDNAとRNAを抽出し、配列解析を行い、これらのサンプル中に同定された115のウイルススーパークラスターの存在を検証しました。図Bに示すように、RNAシーケンシングリードのみがウイルスRdRPに関連する配列にマッピングされ、RNAおよびDNAシーケンシングリードはそれぞれDNAウイルス、レトロウイルス(RT)、細胞生物に関連する配列にマッピングされました。 さらに、図Cに示すように、より感度の高いRT-PCR法を用いることで、研究チームは115のウイルススーパーグループのうち17のスーパーグループをさらに特定しました。これらのスーパーグループでは、DNA抽出においてウイルスRdRPをコードする配列が検出されず、これらのウイルススーパーグループがRNA生物であることがさらに確認されました。 RNAウイルススーパーグループの真正性評価 研究により、これまでで最も長いRNAウイルスのゲノムが発見されました。 本研究では、推定RNAウイルスゲノムの構成と構造を詳細に解析した結果、ほとんどのゲノムの長さは約2,131ヌクレオチドに集中しているものの、RdRPをコードするゲノムまたはゲノムセグメントの長さはスーパーグループ間で大きく異なることが明らかになりました。特に、図Cに示すように、土壌サンプルから極めて長いRNAウイルスゲノムが同定され、そのうちの1つは47.3 kbに達し、既知のRNAウイルスの中でも最長のものの一つとなっています。この極めて長いゲノム内には、50末端とRdRPコード領域の間に位置する追加のORFが発見されましたが、その機能については更なる調査が必要です。 ウイルスの超大国のゲノム特性 RNA ウイルスの蔓延は憂慮すべき状況であり、環境サンプルにはさらに高度に分化した RNA ウイルスが存在する可能性があります。 下図に示すように、RNAウイルスの種数は、国際ウイルス分類委員会(ICTV)の定義数と比較して55.9倍、これまでに記載されたすべてのRdRP配列と比較して1.4倍に増加していることも明らかになりました。この増加は、既知のウイルス群の多様性の増加において特に顕著です。 31のRNAウイルススーパーグループの系統多様性解析 注目すべきことに、AstroPoty、Hypo、Yan、そして新たに発見されたいくつかのスーパーグループなど、これまで限られた数のゲノムで代表されていたグループの中には、高い系統多様性を示すものがあります。例えば、SG023には1,232個のウイルス、SG025には466個のウイルス、SG027には475個のウイルスが含まれています。これは、環境サンプル中に、より高度に分化したRNAウイルスが多数存在し、私たちの発見を待っている可能性を示唆しています。 極限環境下でも RNA ウイルスは多様性を示します。 この研究は、RNAウイルスが世界中の1,612地点と32の生態系に分布していることを示しています。図Aに示すように、LucaProtは複数回調査された生態学的サンプルにおいても、5~33.3%の新しいウイルス群を発見しました。これは、特に土壌および水生環境におけるRNAウイルスの多様性がまだ十分に解明されていないことを示しています。 本研究では、異なる生態系におけるRNAウイルスのアルファ多様性と存在量も比較しました。図CおよびDに示すように、アルファ多様性は落ち葉、湿地、淡水、廃水環境で最も高く、存在量は南極堆積物、海洋堆積物、淡水生態系で最も高くなりました。岩塩および地下環境では、多様性と存在量が最も低く、これは宿主細胞数の少なさと一致しています。温泉や熱水噴出孔に見られるような極限環境細菌の亜型は、RNAウイルスの多様性は低いものの、存在量は中程度でした。 地球規模のRNAウイルス生態系 学界から産業界へ: RNA ウイルス研究における AI の革新的な進歩と将来の展望。実際、RNAウイルス研究分野におけるAIの応用は、科学探究における強力なトレンドとなっています。中山大学の石芬教授率いる研究チームは、AI技術を用いて画期的な進歩を遂げ、16万種類以上の新たなRNAウイルスを発見しました。これは、この分野における重要なマイルストーンとなる成果です。 しかし、2022年には早くも国際研究チームが米国、フランス、スイスなどの科学者と共同で、人工知能(AI)機械学習技術を用いて世界中の海水サンプルから5,500種類の新しいRNAウイルスを特定し、 RNAウイルスデータベースの構築に貢献しました。この研究は、生態学研究の範囲を広げただけでなく、RNAウイルスの進化に関する理解を深め、地球上の初期生命の進化を探る新たな手がかりを提供しました。 「地球のRNAバイロームの進化の起源における、潜在的かつ豊富な海洋ウイルス」と題された研究結果は、科学誌「サイエンス」に掲載された。
https://doi.org/10.1126/science.abm5847 もちろん、RNAウイルス研究におけるAIの応用は、未知の領域の探索に留まらず、既知の領域における詳細な研究においても同様に重要です。例えば、RNAウイルスであるCOVID-19は、GISAIDデータベースにおいて約1,600万件のゲノム配列が世界中で共有されています。このデータは研究にとって豊富な情報を提供しますが、COVID-19の進化と歴史を分析するには、膨大な計算資源と人的資源も必要です。 この課題に対処するため、2024年初頭、マンチェスター大学とオックスフォード大学の科学者たちは、COVID-19の新規変異株および関連変異株を識別・追跡できるAIフレームワークを開発しました。このフレームワークは、将来的に他の感染症問題の解決に役立つ可能性があります。このフレームワークは、次元削減技術と、マンチェスター大学の数学者が開発した新しい解釈可能なクラスタリングアルゴリズムであるCLASSIXを組み合わせることで、潜在的に危険なウイルスゲノムの迅速な識別を可能にします。米国科学アカデミー紀要(Proceedings of the National Academy of Sciences)に掲載されたこの研究は、ウイルスの進化を追跡するための新たな手法を提供し、従来のウイルス進化追跡方法に影響を与える可能性があります。 業界では、RNAウイルスの研究も活発に行われています。RNAウイルスは複製中に突然変異率が高いため、RNAウイルスを用いたワクチン開発は常に課題となっています。2023年上半期には、AI支援による医薬品開発の応用が大幅に増加しました。百度(バイドゥ)カリフォルニア支社の科学者たちは、AIを用いてmRNAワクチンの徹底的な最適化を行い、配列だけでなく構造も改善することで分子の安定性を高め、人体内での活性をより長期間維持できるようにしました。この技術の安全性が検証されれば、次世代RNAワクチン開発の強力なツールとなり、RNA医薬品開発分野にも新たなアイデアをもたらす可能性があります。 2023年後半、Deep Genomicsは「RNA基盤モデルによる疾患メカニズムと候補治療薬の発見」を発表し、独自の人工知能基盤モデルであるBigRNAを紹介しました。BigRNAは、RNA生物学および治療学分野における初のTransformerニューラルネットワークであり、約20億の調整可能なパラメータを備え、1兆個のゲノムシグナルを含む数千のデータセットで学習されています。これは、RNA療法の様々な発見タスクに適用可能な、新世代のディープラーニングAIです。 将来的には、RNAウイルス研究におけるAIの応用展望も非常に広範囲に及ぶでしょう。コンピューティング能力とアルゴリズムの向上に伴い、AIはより大規模なデータセットを処理し、より多くの未知のウイルス集団、さらにはその宿主や感染経路を特定できるようになるかもしれません。これは、生態系におけるRNAウイルスの役割についての理解を深めるだけでなく、将来起こり得る感染症の予防と制御にも強力な支援を提供するでしょう。 さらに、ワクチン設計や医薬品開発における AI の応用は、人々がよりパーソナライズされた正確な医療ソリューションにすぐにアクセスできるようになり、世界の公衆衛生の安全に新たな希望をもたらすことを示唆しています。 |
AIはRNAウイルス研究における歴史的な進歩の達成に貢献しており、中山大学などの研究機関はディープラーニングモデルを使用して16万種類以上の新しいウイルスを発見しました。
関連するおすすめ記事
-
CESライブ配信:AI教育が熾烈な競争を繰り広げ、中国の参加者が実力を披露
-
マルチモーダルDeepSeek-R1:ベンチマークでGPT-4oを上回り、モーダルペネトレーションによりテキスト推論能力を強化!北京大学と香港科技大学によって開発され、オープンソース化されました。
-
長城汽車が中国自動車メーカーの中で時価総額トップ2に返り咲く。モルガン・スタンレーとシティグループも格付けを引き上げ。
-
2024年の主要なAIイベントを振り返る:隠れたチャンスと業界の課題
-
Microsoft と清華大学がトランスフォーマーを改良: ノイズキャンセリング ヘッドフォンの原理を使用して注意力を向上させる。第一著者がオンラインで質問に答える。
-
任少青氏へのインタビュー:世界モデルは自動運転とロボット工学の新たなパラダイム