|
分子のレトロフォールディングは、医薬品や材料設計において重要な役割を果たし、科学者が理想的な構造を持つ新しい分子を合成することを可能にします。これまでの研究は、主に高分子や低分子のレトロフォールディングに焦点を当てており、汎用分子のレトロフォールディングについてはほとんど注目されていませんでした。 統一された普遍的なモデルを構築するには、主に 3 つの課題があります。 ① 単位の違い: 高分子は一般に、タンパク質のアミノ酸や RNA のヌクレオチドなど、定義済みの微細構造を基本単位として使用しますが、小分子は原子を基本単位として使用します。 ② 幾何学的特徴の抽出: さまざまな研究では、距離、角度、テンソル積など、幾何学的特徴の抽出にさまざまな戦略が使用されており、統一された特徴抽出方法が欠けています。 ③ システム規模: 小分子では、グローバル アテンション メカニズムによって長期的な依存関係を学習できますが、これは高分子では機能しないことがよくあります。 上記の課題に対処し、RoseTTAFold All-AtomとAlphaFold 3による分子構造予測の進歩をさらに補完するため、ウェストレイク大学未来産業研究センターのチームは、あらゆる分子の逆フォールディングのための統合モデルであるUniIFを提案しました。研究者たちは、タンパク質設計、RNA設計、材料設計など、複数のタスクで包括的な実験を行い、UniIFの有効性を実証しました。その結果、 UniIFはすべてのタスクにおいて最先端の性能を達成することが示されました。 「UniIF: 統合分子逆フォールディング」と題された関連研究が、最高峰のカンファレンス NeurIPS 2024 に選出されました。 研究のハイライト:
論文の宛先: オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。 https://github.com/hyperai/awesome-ai4s データセット: 対応するデータセットを選択して、3 つのタスクで実験を実行します。タンパク質設計タスクにおいて、研究者らはCATH4.3データセットを用いてUniIFを評価しました。このデータセットはCATHのトポロジカル分類コードに従って分割され、16,631個のトレーニングサンプル、1,516個の検証サンプル、1,864個のテストサンプルが生成されました。 汎化能力を評価するために、研究者らは、事前学習済みのESM2モデルを用いた一部のベースラインに関連するデータ漏洩のリスクを考慮し、時間分割戦略を採用した。時間分割評価では、特定の日付以前のデータをトレーニングセットに、その日付以降のデータをテストセットに割り当てた。構造の時間分割評価には、トレーニング中には見られなかった新規結晶構造を含むCASP15データセットが使用され、配列の時間分割評価には、2023年11月23日までの30日以内に公開され、AlphaFold 2によって構造が予測された76個のタンパク質配列を含むNovelProデータセットが使用された。 RNA設計タスクでは、研究者らはRDesignによって収集された2,218個のRNA三次構造を含むデータセットを用いてRNA実験を実施しました。これらの構造は、構造類似性に基づき、トレーニングセット(1,774個)、テストセット(223個)、検証セット(221個)に分割されました。サンプルサイズが小さかったため、研究者らは3回の独立した実験における回収率の中央値とその標準偏差を報告しました。 材料設計タスクでは、研究者らはCHILI-3Kデータセットを用いてUniIFを評価しました。このデータセットは、単一の金属酸化物から得られるナノ材料のグラフで構成されています。このデータセットには、53種類の金属元素と1種類の非金属元素(酸素)が含まれており、合計3,180個のグラフ、6,959,085個のノード、49,624,440個のエッジが含まれています。 モデルアーキテクチャ: UniIF、一般的な分子バックフォールディングの統一モデル下の図に示すように、研究者は一般的な分子のバックフォールディングの統一モデルを提案しています。 ① このモデルは、あらゆる種類の分子をブロックグラフに変換します。高分子の場合は、アミノ酸とヌクレオチドに基づく定義済みのフレームワークが使用されます。小分子の場合は、各ブロックのローカルフレームワークが単一の GNN レイヤーを通じて学習されます。 ② Geometric Featurizerを使用してノードフィーチャとエッジフィーチャを初期化します。 ③ ブロックグラフアテンション層が提案され、それに基づいてブロックグラフニューラルネットワークが構築され、豊富なブロック表現を学習します。 ④ 最後に、UniIF は、タンパク質設計、RNA 設計、材料設計など、さまざまなタスクにわたって競争力のある結果を示しています。 図: UniIFモデルの全体的な枠組み ブロックグラフの構築:このモデルアーキテクチャの最初のステップは、あらゆる種類の分子を表すブロックグラフを導入することです。重要なのは、不規則な原子セット(さまざまなサイズ)を規則的なブロック表現(固定サイズ)に変換することです。研究者は、すべての分子のモデリングを統一するために、フレームベースのブロック表現を導入しました。ブロックには、等変フレームと不変固有ベクトルが含まれ、ローカルフレームには軸行列と変位ベクトルが含まれます。高分子の場合、軸行列はアミノ酸とヌクレオチドに基づいて事前定義されます。小分子の場合、共通の構造パターンが事前にないため、軸行列を学習する必要があります。n個のブロックを含む分子が与えられた場合、研究者はkNNアルゴリズムを使用してブロックグラフを構築しました。 図: さまざまな分子の構造単位。基本的な構成要素には、アミノ酸、ヌクレオチド、原子などがあります。 ブロック グラフ特徴抽出: 小さな分子の場合、事前定義されたローカル フレームは使用できないため、研究者は各原子のローカル フレームを学習する必要があります。つまり、分子が与えられると、原子の表現は GNN のレイヤーを使用して初期化され、次に幾何学的特徴抽出器を使用して幾何学的ノード特徴とエッジ特徴が初期化されます。 ブロックグラフ注意モジュール: 研究者は、幾何学的相互作用、インタラクティブ注意、仮想長期依存モジュールを含む幾何学的ブロック注意ネットワークを導入し、すべての分子の3次元相互作用を捉えました。 研究結果: UniIF はすべてのタスクにおいて最先端の方法よりも優れています。研究者らは、次のような複数の反転タスクとアブレーション研究を通じて UniIF の有効性を実証しました。
① タンパク質設計(T1) タンパク質設計は、標的構造に折り畳まれるタンパク質配列を設計することを目的としています。研究者らは、異なる設定(ESM2の有無)と複数のデータセット(CATH4.3、CASP、NovelPro)における結果を発表しました。下表に示すように、ESM2を使用しない純粋な逆フォールディングモデルを用いたUniIFは、すべてのデータセットにおいて最先端の性能を達成し、その有効性を実証しました。 *LMDesign と KWDesign には ESM2 が含まれますが、StructGNN、GraphTrans、GCA、GVP、AlphaDesign、ProteinMPNN、PiFold には ESM2 は含まれません。 CATH4.3では、強力なベースラインモデルのため全体的な改善は限定的でしたが、タイムシェアリング評価ではUniIFの優れた一般化能力が明らかになりました。学習可能なパラメータが少ないにもかかわらず、UniIFは強力なベースラインモデルであるPiFoldよりも優れた性能を示しました。タイムシェアリング評価では、UniIFはESM2ベースの手法を含むすべてのベースラインモデルを大幅に上回りました。新規シーケンスを含むNovelProでは、UniIFはシーケンス最適化にESM2を使用するLMDesignおよびKWDesignよりも優れた性能を示しました。これは、実用化に不可欠なUniIFの優れた一般化能力を実証しています。 タンパク質設計の結果 (最適な結果と最適ではない結果は太字と下線でマークされています)。 ② RNA設計(T2) RNA設計の目標は、標的構造に折り畳まれるRNA配列を設計することです。下の表に示すように、UniIFはすべてのケースで最高のパフォーマンスを達成しました。これは、PiFoldなどの従来の強力なベースラインモデルがタンパク質設計にのみ優れていたことを考えると、大きな進歩です。UniIFは、タンパク質とRNAの両方の設計タスクで最先端のパフォーマンスを達成した最初のモデルであると報告されており、その汎用性と有効性を実証しています。 RNA 設計からの回復結果 (最良および次善の結果は太字と下線でマークされています)。 ③ 材料設計(T3) 既知の物質構造内で安定した原子の組み合わせを発見することは、新材料の発見に不可欠です。そこで研究者たちは、この新しいタスクにおけるUniIFのパフォーマンスを評価しました。下の表に示すように、 UniIFはすべてのベースラインモデルを大幅に上回る性能を示しました。 表: CHILI-3Kの結果 ④ ケーススタディ 下の図は、設計したタンパク質とRNAの配列を示しています。さらに、AlphaFold 3を用いて、設計した配列を実際の構造(灰色)、PiFold構造(緑)、UniIF構造(ピンク)にリフォールディングし、それらを整列させて比較しました。研究者らは、 UniIFが回収率と平均二乗偏差(RMSD)の両方において改善を示したことを観察しており、デフォールディングタスクにおけるその有効性を実証しています。 画像: 実際の構造 (灰色)、PiFold 構造 (緑)、UniIF 構造 (ピンク) を揃えた設計例。 UniIF モデルは AlphaFold 3 をさらに補完します。近年、普遍的な分子学習がますます注目を集めており、RoseTTAFold All-Atom (RFAA) と AlphaFold 3 は、この分野で大きな成功を収めた 2 つの代表的なモデルです。 2024年3月7日、David Baker氏は「RoseTTAFold All-Atomを用いた一般化生体分子モデリングと設計」と題する研究論文をScience誌に発表しました。研究チームは、アミノ酸とDNA塩基の残基ベースの表現と、他のすべてのグループの原子表現を統合するRoseTTAFold All-Atom(RFAA)を開発しました。これにより、タンパク質、核酸、小分子、金属、そして特定の配列や化学構造を含む、共有結合的に修飾された構成要素のモデリングが可能になりました。 原著論文: https://www.science.org/doi/10.1126/science.adl2528 2024年5月9日、デミス・ハサビス氏、ジョン・ジャンペ氏らは、「AlphaFold 3を用いた生体分子相互作用の正確な構造予測」と題する研究論文をNature誌に発表しました。本研究では、タンパク質データバンクに登録されているほぼすべての分子種を含む複合体の構造を予測できる新しいモデルであるAlphaFold 3が紹介されました。このモデルは、リガンド(小分子)、タンパク質、核酸(DNAおよびRNA)の凝集・相互作用の仕組みに加え、翻訳後修飾やイオンがこれらの分子系に及ぼす構造的影響も予測できるため、研究者は生体分子系の構造を原子レベルで正確に観察できるようになります。 原著論文: https://www.nature.com/articles/s41586-024-07487-w これら2つのモデルを詳しく見ると、RFAAは小さな分子を表現するために原子結合図を使用し、大きな分子を表現するためにフレームワーク図を使用しているのに対し、AlphaFold 3は、すべての分子に適用可能な、原子表現とラベル表現という2層の表現を採用しています。ラベルの概念は、前述のブロック概念に相当し、アミノ酸やヌクレオチドなどの原子の集合を表します。 GETとEPTは、最近提案された2つのモデルであり、小分子と大分子の両方に適用可能なブロック表現を採用し、新しい等変変換フレームワークを導入しています。小分子の原子結合図を規定するRFAAとは異なり、本論文で紹介するUniIFモデルは、すべての分子タイプに統一されたブロック図を使用するため、原子結合図は不要です。さらに、このモデルはAlphaFold 3、GET、EPTとは異なり、各ブロックにベクトル基底を導入します。 UniIF モデルは、ある程度、普遍的な分子モデルの構築という課題に対処することで、RoseTTAFold All-Atom や AlphaFold 3 といった先行モデルによる分子構造予測の進歩をさらに補完するものと見ることができます。将来的には、大規模な生物学的モデルを継続的に反復することで、研究者は生物学的世界に対する新たな理解を獲得し、創薬を再考し、最終的には全人類に利益をもたらすことになるでしょう。 参考文献: 1.https://arxiv.org/abs/2405.18968 2.https://mp.weixin.qq.com/s/8OvxVlUuZZZ2gcepIl5UBw 3. https://www.jiqizhixin.com/articles/2024-03-08-6 4.https://m.thepaper.cn/newsDetail_forward_28984037 |
ウェストレイク大学の UniIF モデル (普遍的な分子逆折り畳みモデル) が NeurIPS 2024 に選定され、AlphaFold 3 をさらに補完します。
関連するおすすめ記事
-
ハルビン工業大学チーム: DeepSeek R1 の多言語機能の初めての総合分析!
-
「Datawhale Li Hongyi チュートリアル」が公開されました!
-
強化学習の父、リチャード・サットンは、すべての RL アルゴリズムを大幅に強化するシンプルなアイデアを提案しました。
-
『Domestic SORA』がさらにパワーアップ!デューン級の映画のようなビジュアルを、誰でも無料で体験できます。
-
生物学分野初のAGI実現を目指す!医療AI企業Owkinが世界最大級のがん空間オミクスデータセットを構築。
-
ジョン・ジャンパーはわずか1年でディープマインドの中心人物となり、卒業から7年後にノーベル賞を受賞し、タンパク質フォールディングの新時代を切り開きました。