618ZXW

LeCun 氏は、配列と完全な原子タンパク質構造を同時に生成するマルチモーダルタンパク質生成法である PLAID を提案したカリフォルニア大学バークレー校らの投稿を転送しました。

長年にわたり、科学者たちは「生命のコード」をより深く解明するため、タンパク質の構造と組成の探求に尽力してきました。タンパク質の機能は、その構造、すなわち側鎖原子と主鎖原子の正体、位置、そして生物物理学的特性(総称して全原子構造)によって決定されます。しかし、側鎖原子の配置を決定するには、まずその配列を理解する必要があります。したがって、全原子構造の生成は、配列と構造の両方を同時に生成する必要があるマルチモーダル問題と捉えることができます。

しかし、既存のタンパク質構造および配列生成法では、通常、配列と構造を独立した様式として扱い、構造生成法では主鎖原子のみを生成するのが一般的です。すべての原子を対象とする方法では、構造予測と展開ステップを交互に行うために外部モデルの使用が必要になることがよくあります。

これらの課題に対処するため、カリフォルニア大学バークレー校、マイクロソフトリサーチ、ジェネンテックの研究チームは、PLAID(Protein Latent Induced Diffusion)というマルチモーダルなタンパク質生成手法を提案しました。これは、より豊富なデータモダリティ(例:配列)をより希少なモダリティ(例:結晶構造)にマッピングすることで、マルチモーダルなタンパク質生成を実現します。この手法の有効性を検証するため、研究者らは遺伝子オントロジーから取得した2,219個の機能サンプルと生命樹全体の3,617個の生物を対象に実験を行いました。学習中に構造入力を使用していないにもかかわらず、生成されたサンプルは高い構造品質と一貫性を示しました。

「配列のみのトレーニングデータからの全原子タンパク質構造の生成」と題された関連研究は、最高峰のカンファレンスであるICLR 2025に提出されている。AIの第一人者である楊立春氏もソーシャルメディアで研究結果を共有した。
PLAID プロジェクトのオープンソース アドレス:
http://github.com/amyxlu/plaid

研究のハイライト:

  • 研究者らは、大規模タンパク質言語モデルESMFoldと全原子構造の生成に焦点を当て、トレーニング中に配列入力のみを必要とし、配列と全原子タンパク質構造の両方を同時に生成できる制御可能な拡散モデルを提案した。
  • この方法では、トレーニング データではなく、事前トレーニング済みの重みにエンコードされた構造情報を利用し、制御された生成のためのシーケンス注釈の可用性を高めます。
  • この論文では ESMFold モデルを使用していますが、この方法はあらゆる予測モデルに適用できます。

論文の宛先:
https://www.biorxiv.org/content/10.1101/2024.12.02.626353v1

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

研究ハイライト

データセット

研究者らは、2023年9月に公開された57,595,205の配列と20,795のファミリーを含むPfamデータベースを使用しました。PLAIDはUniRefやBFD(約20億配列)などのより大規模な配列データベースと完全に互換性がありますが、本研究ではPfamを選択しました。Pfamの配列ドメインにはより多くの構造的および機能的ラベルが含まれており、生成されたサンプルのコンピューターシミュレーション評価がより容易になるためです。さらに、研究者らは検証のためにデータの約15%を保持しました。

Pfamドメイン由来の生物のUniRefコードは、Pfam FTPサーバーから提供されるPfam-A.fastaファイルから取得できます。研究者らはデータセットに含まれるすべての固有の生物を分析し、合計3,617種の異なる生物を発見しました。その後、これらの生物を用いてPLAID法の有効性を検証するための実験を行いました。

モデルアーキテクチャ

PLAIDは、予測モデルの潜在空間への拡散によって、マルチモーダルタンパク質を制御的に生成する新しいパラダイムです。この手法は下図に示されており、4つのステップに要約できます。

画像: PLAID 概要

(A) ESMFold潜在空間:潜在空間p(x)は、配列と構造の結合埋め込みを表します。

(B) 潜在拡散学習:目標は、拡散式に従ってpθ(x)から学習し、サンプリングすることです。学習効率を向上させるために、研究者はCHEAPエンコーダhe(·)を用いて圧縮埋め込みx′ = he(x)を取得し、拡散目的関数をpθ(he(x))からのサンプリングとします。

(C) 推論:推論中に配列と構造の両方を取得するために、研究者らは学習済みモデルを用いて˜x′ ∼ pθ(x′) をサンプリングし、CHEAPデコーダーを用いてこれを解凍し、˜x = hd(˜x′) を取得した。この埋め込みは、CHEAPで学習した固定配列デコーダーによって対応するアミノ酸配列にデコードされた。残基同定配列と˜xは、ESMFoldで学習した固定構造デコーダーへの入力として使用され、完全な原子構造が取得された。

(D) DiTブロックアーキテクチャ:研究者らは、条件付き情報を融合するために、拡散トランスフォーマー(DiT)アーキテクチャとadaLN-zero DiTブロックを組み合わせた。機能ラベル(GO用語)と生物クラスラベルは、分類器を用いないガイダンスを用いて埋め込まれた。

研究成果

研究者らは、異なる長さのタンパク質の構造品質と多様性の解析を実施し、その結果を下図に示しました。天然タンパク質とPLAID生成サンプルは、異なる長さにわたって一貫した指標を維持しましたが、 ProteinGeneratorとProtpardelleは特定の長さでモード崩壊を示し、Multiflowはより長い配列で多様性が低下しました。

図: 異なる長さのタンパク質の構造品質と多様性の分析

  • この図は、天然タンパク質と異なる手法で生成されたタンパク質を比較したもので、異なる長さ(64~512残基)のタンパク質の構造品質(ccRMSD、シアン色の点)と多様性(紫色の線、サンプル全体におけるユニークな構造クラスターの割合で測定)を示しています。2Åの赤い線は設計閾値を表しています。

さらに、ベンチマーク手法と比較して、 PLAIDは天然タンパク質の分布により近い二次構造の多様性を生成します。下図に示すように、ProteinGenerator、Protpardelle、Multiflowは二次構造の分布に偏りが見られ、既存のタンパク質構造生成モデルではβシート含有量の高いサンプルを生成するのが困難です。

図: 異なるタンパク質生成方法による二次構造構成解析

  • この図は、天然タンパク質と様々な方法で合成されたタンパク質におけるαヘリックスとβシートの含有量の分布を示しています。各点は構造を表し、その座標はαヘリックス残基の割合(x軸)とβシート残基の割合(y軸)を表しています。

研究者らはまた、全原子タンパク質生成タスクにおける複数の一貫性と品質の指標にわたってさまざまなモデルのパフォーマンスを比較しました。その結果は下の表に示されています。PLAIDによって生成されたサンプルは、配列と構造の間で高いクロスモーダル一貫性を示しました。

表: 一貫性と品質メトリクスにおけるモデルのパフォーマンス比較 * 太字の値は、全原子生成モデルで最高のパフォーマンスを示します。

研究者らは、さまざまなモデルの多様性、新規性、自然さをさらに評価し、その結果を以下の表に示します。全原子モデルでは、PLAID は配列と構造空間の両方で最もユニークで適切に設計されたサンプルを生成しました。

表: さまざまなモデルの多様性、新規性、分布の一貫性指標 * 太字の値は、全原子生成モデルで最高のパフォーマンスを示しています。

PLAID は、ESMFold に限らず、多くの下流機能に簡単に拡張でき、あらゆる予測モデルに適用できることを強調しておく価値があります。

AIはタンパク質研究に「広い道」を切り開きます。

拡散変圧器は生物学分野でますます幅広い用途に使用されています。

この論文では、研究者がモデル構築中にノイズ除去タスクを実行するために Diffusion Transformer (DiT) を使用したことが述べられています。

DiTの基本原理は、Transformerアーキテクチャを拡散モデルに適用することです。拡散モデルは通常、ノイズを徐々に追加することで元のデータを劣化させ、その後、モデルがデータを復元する方法を学習します。DiTは、Transformerブロック(適応層正規化、クロスアテンションなど)を導入することで、拡散モデルの生成能力を強化します。

近年、DiTは画像・動画生成において大きな進歩を遂げており、Soraなどの最先端の生成モデルは主にDiTアーキテクチャに基づいています。バイオメディカル分野でも、Diffusion Transformerの応用がますます広がっています。研究者は、潜在的な薬物分子を迅速にスクリーニングし、その生物学的活性を予測し、遺伝子配列解析やタンパク質構造予測などの複雑なタスクを支援することで、生命科学研究に強力なツールを提供しています。タンパク質のノイズ除去を例にとると、DiTは複雑な配列と構造の関係を捉えることができます。具体的には、Transformerのグローバル自己注意メカニズムを通じて、タンパク質の配列と構造の複雑な相互作用を効果的にモデル化し、その後、拡散モデルの逆プロセスを使用して、各タイムステップでノイズ除去された潜在ベクトルを予測し、ノイズからタンパク質の構造と配列を徐々に再構築します。

本論文では特に、DiTは、タンパク質構造予測モデルが核酸と低分子リガンド複合体を統合し始める中で、混合入力モダリティを微調整するためのより柔軟なオプションを提供すると述べています。さらに、このアプローチはTransformerの学習インフラストラクチャをより有効に活用します。

初期の実験では、研究者たちは、利用可能なメモリをより大きなDiTモデルに割り当てることが、三角形状の自己注意モデルを使用するよりも効果的であることも発見しました。xFormersを用いて実装された最適化されたアルゴリズムは、推論フェーズのベンチマークテストにおいて、55.8%の高速化と15.6%のGPUメモリ使用量削減を達成しました。

機械学習により、カスタマイズされたタンパク質の夢が現実になります。

カリフォルニア大学バークレー校による前述の研究は、タンパク質カスタマイズにおける新たな大きな前進を示すものです。タンパク質は通常20種類のアミノ酸から構成されており、生命の構成要素と言えるでしょう。その極めて複雑な構造のため、数十年前までは、タンパク質の三次元構造を予測し、ヒトが利用できる全く新しいタンパク質を設計することは「夢物語」とされていました。しかし、近年の機械学習の急速な進歩により、カスタマイズされたタンパク質を設計するという夢は徐々に現実のものとなりつつあります。

よく知られているAlphaFold以外にも、注目に値する研究の進歩がいくつかあります。

2024年11月、米国エネルギー省アルゴンヌ国立研究所のチームは、革新的な計算フレームワーク「MProt-DPO」の開発に成功しました。このフレームワークは、人工知能技術と世界最先端のスーパーコンピュータを融合させ、タンパク質設計の新たな時代を切り開きます。具体的な例として、科学者たちはMProt-DPOを用いて、特定の条件下で化学反応を効率的に触媒する新規酵素を設計しました。従来の設計手法と比較して、この新規酵素の反応効率は約30%向上し、実験の進展を加速させるだけでなく、産業応用の可能性も拡大します。さらに、MProt-DPOの成功は、抗ウイルスタンパク質設計の新たな道を切り開きました。「MProt-DPO:直接選好最適化によるマルチモーダルタンパク質設計ワークフローのエクサフロップスの壁を打破」と題された関連研究成果は、IEEE Computer Societyに掲載されました。
論文の宛先:
https://www.computer.org/csdl/proceedings-article/sc/2024/529100a074/21HUV88n1F6

タンパク質ポケットは、特定の分子との結合に適したタンパク質上の部位であり、タンパク質ポケットの設計はタンパク質のカスタマイズにおいて重要な手法です。 2024年12月、中国科学技術大学とその共同研究者は、タンパク質骨格と結合小分子に基づいてタンパク質ポケットの配列と構造を生成できる深層生成アルゴリズムPocketGenを設計しました。実験では、PocketGenモデルが親和性と構造合理性の点で従来の手法を上回り、計算効率も大幅に向上することが示されました。「PocketGenによるタンパク質ポケットの効率的な生成」と題された関連研究成果は、Nature Machine Intelligenceに掲載されました。

論文の宛先:

https://www.nature.com/articles/s42256-024-00920-9

今後、タンパク質分野における人工知能のさらなる応用により、人々はタンパク質の空間構造の秘密をより深く理解できるようになると考えられています。

参考文献:
1.https://www.biorxiv.org/content/10.1101/2024.12.02.626353v1
2.https://mp.weixin.qq.com/s/_5_L7bvl-vHtls8gBbfSmQ
3.https://mp.weixin.qq.com/s/sfrm2rj_8kH0JA2vu4NmTw
4.http://www.news.cn/globe/20241014/f7137840e56340f081f9eb819d87ba40/c.html
5.http://www.bfse.cas.cn/yjjz/202412/t20241212_5042432.html
6.https://www.sohu.com/a/826241274_12