|
科学者たちは、アミノ酸配列に基づいてタンパク質の構造を予測することに前世紀以来、情熱を注いできました。アミノ酸を用いて全く新しいタンパク質を創り出し、生命の設計図を構築するというビジョンを抱く科学者たちです。しかし、この壮大なミッションは時とともにゆっくりと進展し、近年になってようやくAI技術の急速な進歩とともに、飛躍的な発展期を迎えています。 2016年以来、Molecular Heartの創設者兼チーフサイエンティストである徐金波氏らが起こした技術革命が、この分野に静かな変革をもたらしています。彼らはResNet深層残差ネットワークアーキテクチャを構造予測分野に導入し、タンパク質残基の接触予測を大幅に向上させることに成功しました。この画期的な進歩は、AIとタンパク質設計の深層統合の確固たる基盤を築きました。以来、数多くの研究チームがこれに追随し、この分野を深く探求してきました。共進化と深層学習を組み合わせたアルゴリズムが数多く登場し、2024年ノーベル化学賞受賞者のデビッド・ベイカー氏やAlphaFoldの画期的な業績は広く認知され、この分野の研究は絶えず新たな高みへと押し上げられています。 しかし、これまでの研究では、無条件タンパク質構造生成モデルは、最大でも50万構造以下の小規模なデータセットで学習されることが多いことが示されています。さらに、これらのモデルは合成プロセスにおいてニューラルネットワークを効果的に制御できないため、自然言語、画像、動画生成などの分野における生成モデルと比較して、スケールとパフォーマンスの両面で大きな差が生じています。 自然言語処理、画像生成、動画生成の分野では、スケーラブルなニューラルネットワークアーキテクチャ、大規模な学習データセット、そしてきめ細かなセマンティック制御によって、革命的な変化と大きな飛躍がもたらされました。研究者たちは、これらの分野での成功経験を活かし、タンパク質構造の拡散と流動モデルを同様に拡張・制御することで、タンパク質設計においても質的な飛躍を実現できるのではないか、という疑問を抱き始めています。 NVIDIAは、ケベック州のミラ人工知能研究所、モントリオール大学、そしてMITと共同で、画期的な大規模フローサイトメトリー用タンパク質バックボーンジェネレーター「Proteina」を開発しました。ProteinaはRF拡散モデルの5倍のパラメーター数を持ち、トレーニングデータは2,100万種類の合成タンパク質構造に拡張されています。Proteinaは、de novoタンパク質バックボーン設計において最先端(SOTA)性能を達成し、最大800残基という、これまでにない長さの多様で設計可能なタンパク質を生成します。 「Proteina: フローベースのタンパク質構造生成モデルのスケーリング」と題された関連研究成果が、ICLR 2025 口頭発表に選出されました。 論文の宛先: https://openreview.net/forum?id=TVQLu34bdw&nesting=2&sort=date-desc 学術交流イベントをお勧めします。3月7日午後12時より配信される最新のMeet AI4Sライブストリームには、華中科技大学の黄紅准教授、上海人工知能研究所AI科学センターの周東展若手研究員、上海交通大学自然科学研究所の周秉馨助手が出演します。彼らは、それぞれの業績を紹介し、研究経験を共有します。 AIを活用したタンパク質設計:構造から配列、予測から設計までタンパク質設計は、生命科学研究の進歩において常に重要な位置を占めてきました。膨大なタンパク質配列データからパターンや規則を学習することは、長年にわたり研究者にとって大きな課題でした。幸いなことに、AI技術の支援により、この分野はいち早く転換期を迎えました。 例えば、 DeepMind社のAlphaFold3は、DNA、RNA、そして低分子間の相互作用のモデリングを改良することで、タンパク質複合体の構造を正確に予測し、細胞内におけるタンパク質の複雑な相互作用の理解を強力にサポートします。Meta社のESMFoldは言語モデルと構造予測を組み合わせることで予測速度を大幅に向上させ、研究者がタンパク質構造情報をより効率的に取得できるようにします。Microsoft社の最新BioEMU-1は、タンパク質の立体構造の動的変化をシミュレートすることで、タンパク質の運動メカニズムの詳細な探究と医薬品設計への新たな道を切り開きます。 これらの基盤により、AI は徐々にタンパク質構造設計の分野に浸透し始めています。 タンパク質構造設計は、主に既知のタンパク質構造を様々な手法を用いて改変・最適化し、特定の機能や特性を持つタンパク質を得ることを目的としています。タンパク質の機能は主に三次元構造によって決定されるため、構造分布を直接モデル化する手法がますます普及しており、拡散モデルやフローモデルに基づくアルゴリズムは特に優れた性能を示しています。例えば、Generate BioのChromaモデルは、拡散モデルを大規模に適用して精密なタンパク質設計を可能にした最初のモデルであり、 「自然界には全く存在しない」タンパク質を生成することも可能にしました。 さらに、 David BakerのRFdiffusionは、RoseTTAFold構造予測ネットワークを微調整することで、特定の機能を持つタンパク質バックボーンを生成し、機能性タンパク質の設計のための正確な構造基盤を提供します。コロンビア大学とラトガース大学の研究者によって提案されたGenie2は、トレーニングデータをAFDBに拡張し、複数の独立した機能部位を持つ複雑なタンパク質の生成を可能にします。 よく知られているように、タンパク質の構造と配列は相互に関連しています。構造は機能を決定し、配列は構造の基礎となります。AI技術によってタンパク質の構造が変化すると、必然的に配列も変化します。タンパク質配列設計は、主に計算および予測手法を用いて、既知のタンパク質構造と一致するアミノ酸配列を設計することを意味します。 現在、AIによるタンパク質配列設計は主に2つのカテゴリーに分類されます。1つは、スタンフォード大学のESM-IFなどの固定バックボーン型タンパク質配列設計ツールです。このツールは、事前学習と微調整を組み合わせたパラダイムを用いて、構造知識を機能性タンパク質設計に巧みに統合し、特定の機能を持つタンパク質の設計を強力にサポートします。グラフニューラルネットワークをベースとするDavid BakerのProteinMPNNは、バックボーン構造に基づいて対応するアミノ酸配列を生成することができ、タンパク質配列設計のための効率的かつ正確な手法を提供します。 もう一つのタイプは、機能指向のタンパク質配列設計ツールです。例えば、SalesforceのProGenは条件付き生成モデルとして、特定の機能要件に応じてタンパク質配列をカスタマイズでき、機能性タンパク質設計のための非常に柔軟なソリューションを提供します。スペインのジローナ大学が開発したZymCTRLは、事前学習済みの言語モデルを微調整することで機能指向の設計を実現し、タンパク質機能の精密な制御を強力にサポートします。中国科学院天津工業生物工学研究所が提案したP450Diffusionは、拡散モデルに基づいて特定の触媒機能を持つP450酵素変異体を生成し、酵素工学分野に新たな発展の機会をもたらします。 *クリックして詳細レポートをご覧ください:触媒効率が3.5倍に向上!CASチームは、拡散モデルに基づくP450酵素の新規設計法であるP450Diffusionを開発しました。 しかし、他の3種類のタンパク質モデルと比較すると、現在のタンパク質構造設計モデルは一般的に規模が小さいです。具体的には、AlphaFold 3のトレーニングセットは数億サンプル近く、BioEmu-1は事前トレーニングにAFDBデータベースから2億以上のタンパク質配列を利用し、ProGenは驚異的な12億のパラメータを有しています。一方、タンパク質構造設計の代表例であるRFdiffusionは、トレーニングデータとしてタンパク質データベース(PDB)リポジトリから数万の実際のタンパク質構造のみを使用し、生成される構造の全長は約600アミノ酸残基です。Genie2の最大データセットには、約60万の合成構造タンパク質しか含まれていません。 このような背景から、業界では、より大規模なトレーニングデータ、より長い全体構造長、より優れた制御性を備えたタンパク質構造設計モデルであるProteinaの登場が待ち望まれていました。 Proteinaモデル:AI技術を活用したタンパク質設計における新たなブレークスルーフローベースのタンパク質構造モデルであるProteinaは、視覚領域の拡散Transformerに着想を得た、革新的でスケーラブルな非等変Transformerアーキテクチャを採用しています。このアーキテクチャは、計算コストの高い三角形層に依存せずに、最高レベルのパフォーマンスを実現します。これにより、Proteinaは最大2100万個のタンパク質構造を学習でき、学習データを35倍に増やし、最終的には設計可能性と多様性を維持しながら最大800残基のメインチェーンを生成することができ、これまでの研究を大きく上回る性能を発揮します。 Proteinaワークフロー 下図に示すように、本研究では主にGenie2が使用するFoldseek AFDBクラスタリングDFSデータセットを使用しました。このデータセットは、約60万個の合成構造タンパク質をカバーしています。さらに、約2億1,400万個のAFDB構造から取得された高品質フィルタリングされたAFDBサブセットD21Mも使用しました。このサブセットには、約2,100万個の合成構造タンパク質が含まれています。 データセットの統計 研究者らは、上記の 2 つのデータセットに基づいて、さらに 3 つの Proteina モデルをトレーニングしました。1 つ目は MFS モデルで、2 億のパラメータを持つ Transformer と 1,000 万のパラメータを持つ三角形レイヤーが含まれています。2 つ目は Mno-triFS モデルで、2 億のパラメータを持つ Transformer のみが含まれており、三角形レイヤーやペア表現の更新は含まれていません。3 つ目は M21M モデルで、4 億のパラメータを持つ Transformer と 1,500 万のパラメータを持つ三角形レイヤーが含まれています。 無条件タンパク質構造生成の分野では、長らくアイソバリアント法が主流でしたが、Proteinaは大規模な非アイソバリアントモデルでも成功できることを実証しました。Proteinaの学習済みバージョンは4億を超えるパラメータを持ち、これはRFdiffusionの5倍以上であり、現在までに最大のタンパク質バックボーン生成器となっています。また、DFSで学習したモデルはより多様性を示す一方で、研究者はDFSよりもはるかに大量の高品質データを完全に合成した構造から生成できることも示しています。 評価指標に関して、Proteinaは従来の多様性、新規性、設計可能性の評価を超え、DFSからの経験的ラベルをモデルに直接入力するという革新的な評価指標を導入しています。このアプローチは、異なるフォールド構造間の多様性を強化し、新たなフォールドカテゴリー制約を通じて、合成タンパク質構造に対するこれまでにない制御を可能にします。 下図に示すように、Proteinaの条件付きモデルは、無条件生成と比較して、最先端のTMスコア多様性を実現すると同時に、FPSD、fS、fJSDスコアにおいても最高の結果を達成しています。これは、フォールド構造多様性「fS」における優位性と、生成された構造と参照データの分布における優れた一致性を十分に示しています。 無条件生成に関しては、Proteina をベースラインと比較します。 さらに、Proteinaはフローマッチングの目的をタンパク質構造生成に対応させるように調整し、LoRAを用いてモデルを微調整し、ネイティブで設計可能なタンパク質を生成する段階的なトレーニング戦略を模索しました。また、階層的なフォールディングクラス制約のための新たなガイダンススキームを開発し、タンパク質の設計可能性を高める自己ガイダンスを実証しました。タンパク質バックボーン生成性能に関しては、特に長鎖合成において最先端(SOTA)レベルを達成し、すべてのベースラインモデルを大幅に上回りました。新たなフォールディングクラス制約により、従来のモデルと比較して優れた制御性を示しました。 中国のAIタンパク質設計分野で革新が生まれる現在、DeepSeekが大規模言語モデル分野に再び火をつけていることから、タンパク質設計は間違いなく新たな開発機会をもたらし、中国からの貢献も増加するでしょう。実際、これまでに中国の研究者や企業は、タンパク質構造設計だけでも既に数多くのブレークスルーを達成しています。 上海天朗XLabは2022年、AIを駆使した全く新しいタンパク質設計プラットフォーム「TRDesign」を発表しました。タンパク質の配列と構造の関係を広範に学習することで、TRDesignはタンパク質フォールディング空間におけるあらゆる潜在的可能性を正確に探索することができます。タンパク質フォールディングで学習した配列-構造-機能の関連性を逆マッピングし、エンドツーエンドのde novoタンパク質設計、試験、安定性および親和性の最適化を実行することで、要件により適したタンパク質構造を設計します。 2023年、分子心臓の創設者である徐金波教授は、2023年世界人工知能大会(WAIC)において、NewOrigin大規模モデルを発表しました。このモデルは、数千億ものマルチモーダルビッグデータセットから学習し、マルチモーダルなターゲット生成を可能にします。単一のモデルで、配列生成、構造予測、機能予測、de novo設計など、タンパク質生成プロセス全体のニーズを満たすことができ、産業応用に必要な特定の機能性タンパク質の生成という問題を解決し、実際の産業環境における有効性と価値を評価します。 2024年4月、無錫土神志和人工知能科技有限公司は複数の研究機関と共同で、中国初の大規模自然言語テキストタンパク質モデル「TourSynbio」を共同リリースしました。TourSynbioモデルはタンパク質設計プロセスを合理化し、「タンパク質設計AI in One」を実現し、あらゆるタンパク質の詳細な表現を可能にし、自然言語による対話とプロンプトをサポートすることで、タンパク質設計プロセスを大幅に簡素化します。 2024年8月、中国科学院計算技術研究所の張海滄らのチームはCarbonNovoを提案し、 ICML 2024で発表しました。CarbonNovoは、タンパク質骨格構造と配列のエンドツーエンドの共同設計を行います。共同エネルギーモデルの構築とタンパク質言語モデルの導入により、設計効率と性能を効果的に向上させ、既存の2段階設計モデルに比べて大きな利点を示しています。 コードリンク: https://openreview.net/pdf?id=FSxTEvuFa7 https://github.com/zhanghaicang/carbonmatrix_public 2024年10月、中国科学技術大学(USTC )生命科学・医学学院の劉海燕教授と陳全教授のチームは、事前学習済みの構造予測ネットワークに依存しないタンパク質主鎖ノイズ除去・拡散確率モデルであるSCUBA-Dを開発しました。このモデルは、主鎖構造をde novoで自動設計することができ、新規な構造と配列を持つ人工タンパク質をゼロから設計できる完全なツールチェーンを形成します。これは現在、RosettaDesignに次いで実験的に検証された唯一のde novoタンパク質設計手法です。関連する研究成果はNature Methods誌に掲載されています。 https://doi.org/10.1038/s41592-024-02437-W 2025年、西湖大学の呂培龍教授率いる研究チームは、ディープラーニングとエネルギーベースの手法を組み合わせることで、蛍光リガンドと特異的に結合できる膜貫通型蛍光活性化タンパク質tmFAPの設計に成功しました。彼らはディープラーニングアルゴリズムを用いて膜貫通タンパク質設計における中核課題を解決し、膜貫通タンパク質と膜内リガンド分子間の非共有結合性相互作用を初めて精密に新規設計し、生細胞における蛍光活性化能を実証しました。これは、膜貫通タンパク質の設計と応用に新たな道を開くものです。この研究は、国際的にトップクラスの学術誌「Nature」に掲載されました。 https://www.nature.com/articles/s41586-025-08598-8 現在、中国はAI駆動型タンパク質設計分野において、独自の技術エコシステムを構築しています。その画期的な進歩は、アルゴリズムの革新にとどまらず、基礎理論から産業応用に至るまでの包括的なイノベーションチェーンの構築にも反映されています。これらの成果は、タンパク質設計における中国の技術革新の深さと幅広さを如実に示しています。AI技術の継続的な発展に伴い、今後さらに顕著な成果が生まれ、世界のライフサイエンス研究とバイオ医薬品産業のパラダイムシフトに貢献することが期待されます。 |
NVIDIA などが Proteina をリリース、モデルパラメータが RFdiffusion の 5 倍を超え、de novo タンパク質バックボーン設計で最先端のパフォーマンスを実現!
関連するおすすめ記事
-
Tencent Yuanbao PC版の実世界テスト:本格的なDeepSeekを搭載したAI PCです。
-
vivo 開発者関係の実践:よりオープンに、より繁栄に
-
今すぐ登録 | GenAI 時代にはどのようなオープンソースが登場するのでしょうか?
-
オープンソースと学術評価の相乗効果に関する短い議論 | CCCFハイライト
-
Alibaba Cloud はトップカンファレンス ACL に 38 件の論文が採択され、Tongyi チームは大規模モデル向けの最先端技術をいくつか公開しました。
-
10 の主要な中国医療データセットをまとめたもので、神農伝統中国医学、古代中国医学テキスト、医学的推論、医療 Q&A などを網羅しています。