618ZXW

PLMにおける大きな進歩!上海交通大学と上海AIラボの最新の成果がNeurIPS 24に選出されました。ProSSTはタンパク質構造情報を効果的に統合します。

生体の主要分子であるタンパク質は、その構造を決定づける配列と、機能を決定づける構造を有しています。タンパク質の機能は、その三次元構造と密接に関連しています。数十年にわたり、科学者たちはX線結晶構造解析や核磁気共鳴法などの技術を用いて、数千種類ものタンパク質の構造を解明し、タンパク質の機能を理解するための重要な手がかりを得てきました。しかし、数百万種類ものタンパク質が存在するため、それらすべての構造を解明することは非常に困難な作業です。

自然言語処理分野における事前学習済み言語モデルに着想を得て、事前学習済みタンパク質言語モデル(PLM)が登場しました。膨大な量のラベルなしタンパク質配列データから学習することで、PLMはタンパク質配列内の複雑なパターンや相互作用を捉えることができ、タンパク質機能予測、構造解析、そしてタンパク質間相互作用の特定に革命的な進歩をもたらします。

しかし、ほとんどのタンパク質構造予測モデル(PLM)は、主にタンパク質配列モデリングに焦点を当てており、構造データ不足のため、構造情報の重要性が軽視されています。AlphaFoldやRoseTTAFoldなどの技術の登場により、タンパク質構造予測の精度は大幅に向上しました。研究者たちは、タンパク質構造情報をPLMに効果的に統合し、大規模な構造を考慮した事前学習済み言語モデルを学習する方法を研究し始めています。

例えば、上海交通大学自然科学研究所/物理天文学学院/張江高等研究院/薬学院のホン・リャン教授の研究グループは、上海交通大学の周秉馨助手、上海人工知能研究所のタン・パン若手研究員とともに、構造認識機能を備えた事前トレーニング済みのタンパク質言語モデル ProSST の開発に最近成功しました。

具体的には、このモデルは1,880万個のタンパク質構造を含む大規模データセットを用いて事前学習され、タンパク質構造を構造化されたトークン配列に変換した後、アミノ酸配列と共にTransformerモデルに入力します。ProSSTは、分離した注意機構を用いることで、これら2種類の情報を効果的に融合し、熱安定性予測、金属イオン結合予測、タンパク質局在予測、GOアノテーション予測といった教師あり学習タスクにおいて、既存モデルを大幅に上回る性能を発揮します。

「ProSST: 量子化された構造ともつれのない注意によるタンパク質言語モデリング」と題されたこの研究は、NeurIPS 2024 に採択されました。

研究ハイライト

  • 本研究では、タンパク質構造を一連の離散的な構造単位に変換できるタンパク質構造量子化器を提案する。これらの離散的な構造単位は、タンパク質中の残基の局所的な構造情報を効果的に特徴づけることができる。
  • 本研究では、タンパク質のアミノ酸配列と三次元構造の関係を学習するための分離型注意機構を提案し、それによって構造的に離散化された配列とアミノ酸配列間の効率的な情報統合を促進します。
  • ESMシリーズやSaProtといった他の大規模タンパク質事前学習済みモデルと比較すると、ProSSTのパラメータ数はわずか1億1000万で、従来のESMシリーズの6億5000万よりもはるかに少ないです。しかし、ProSSTはほぼすべての下流タンパク質タスクで最高のパフォーマンスを示しており、そのモデルアーキテクチャ設計の優位性を反映しています。
  • ProSST は、現在までにゼロショット変異効果予測の最大のベンチマークである ProteinGym ベンチマークで 1 位にランクされています。また、最新の ProteinGym ベンチマークでは、ゼロショット変異予測で 0.5 を超えるスピアマン相関を達成した初のオープンソース モデルです。

論文の宛先:
https://neurips.cc/virtual/2024/poster/96656

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。
https://github.com/hyperai/awesome-ai4s

業界で主流の教師なし事前トレーニング済みデータセットに基づいており、1,880 万のタンパク質構造をカバーしています。

ProSST の教師なし事前トレーニングを実現するために、研究チームは主に次のデータセットを使用しました。

  • AlphaFoldDB データセットは、2 億 1,400 万を超えるタンパク質構造の 1,880 万の縮小バージョンで構成されており、トレーニング中に複雑性を監視および調整するための検証セットとしてランダムに選択された 10 万の構造が含まれています。
  • CATH43-S40データセットには、40%の配列類似性重複除去が施された31,885個のタンパク質結晶ドメインが含まれています。キー原子(CαやNなど)を欠く構造を除外すると、31,270件のレコードが残ります。このデータセットから200個の構造がランダムに選択され、モデル性能の監視と最適化のための検証セットとして使用されます。
  • CATH43-S40 ローカル構造データセットは、CATH43-S40 データセットから抽出されたローカル構造で構成されています。4,735,677 個のローカル構造がスター プロット法を使用して抽出され、構造エンコーダの埋め込み表現と構造コードブックのクラスター分析に使用されました。
  • ProteinGYM ベンチマーク データセット: ゼロサンプルの変異効果を予測する ProSST の能力を評価するために使用され、タンパク質配列と構造情報を含む 217 の実験分析が含まれており、特に熱安定性に焦点を当てた 66 のデータセットに重点を置いており、スピアマン係数、トップ リコール、および NDCG をパフォーマンス評価メトリックとして使用しています。

ProSST: 2 つの主要モジュールを含む構造を考慮した PLM。

本研究で開発されたProSST(Protein Sequence-Structure Transformer)は、構造認識機能を備えた事前学習済みのタンパク質言語モデルです。下図に示すように、 ProSSTは主に2つのモジュール、すなわち構造量子化モジュールと、配列構造分離アテンションを備えたTransformerモデルで構成されています

ProSSTのモデルアーキテクチャ

構造量子化モジュール: タンパク質構造を一連の構造単位に配列および量子化します。

構造量子化モジュールの目的は、タンパク質中の残基の局所構造を離散トークンに変換することです。まず、局所構造は事前学習済みの構造エンコーダによって密なベクトルにエンコードされます。次に、事前学習済みのk-meansクラスタリングモデルが、エンコードされたベクトルに基づいて局所構造にカテゴリラベルを割り当てます。最後に、カテゴリラベルが構造トークンとして残基に割り当てられます。

  • タンパク質全体の構造と比較すると、局所的な構造はより細かい粒度で記述されます。

構造定量化のプロセス

具体的には、本研究では、図Aに示すように、幾何学的ベクトルパーセプトロン(GVP)を局所構造エンコーダとして用います。GVPは、位置認識機能を組み込んだ多層パーセプトロン(MLP)のデコーダと統合され、オートエンコーダモデルを形成します。モデル全体は、ノイズ除去済みの事前学習済み標的タンパク質を用いて学習されます。CATHデータセットで学習した後、研究者らはエンコーダの平均プーリング出力のみを最終的な構造表現として使用しました。

構造エンコーダのトレーニング

次に、図Bに示すように、本研究の局所構造エンコーダは、タンパク質構造を表す密ベクトルを離散ラベルに量子化します。この目的のために、研究者らはGVP構造エンコーダを用いて、CATHデータセット内のすべての残基の局所構造を連続潜在空間に埋め込み、k平均法アルゴリズムを用いてこの潜在空間内のK個の重心を識別しました。これらの重心が構造コードブックを構成します。

局所構造のクラスタリングとラベリング

最後に、本研究では、タンパク質配列の位置iにある残基について、まずその局所構造に基づいてグラフGiを構築し、次に構造エンコーダGVPを用いてそれを連続ベクトルriに埋め込みます。全体として、下図Cに示すように、タンパク質構造全体をシリアル化および量子化して一連の構造トークンにすることができます。

タンパク質構造を構造単位配列に変換する

配列構造分離アテンション: モデルが残基間および残基と構造間の関係を学習できるようにします。

DeBertaモデルに着想を得た本研究は、注目点を分離することで、残基配列(アミノ酸配列)と構造配列の関係、およびそれらの相対的な位置を学習することを目的としています。これにより、モデルはタンパク質配列と構造情報を処理できるようになり、分離によって性能と安定性が向上します。

具体的には、タンパク質の一次配列におけるi番目の残基は、Ri はアミノ酸配列トークンのエンコード、Si はアミノ酸の局所構造トークンのエンコード、Pi|j は位置jにおけるi番目の残基のエンコードを表すという3つの項で表すことができます。下図に示すように、本研究における配列構造分離注目機構には、残基対残基(R to R)、残基対構造(R to S)、残基対位置(R to P)、構造対残基(S to R)、位置対残基(P to R)の5種類が含まれており、タンパク質の配列と構造の複雑な関係をより詳細に捉えることができます。

ProSSTのモデルアーキテクチャ

ProSST は他のすべてのモデルよりも優れており、構造情報が組み込まれることでモデルの表現能力が大幅に向上します。

ゼロショット変異体有効予測における ProSST の有効性を検証するために、本研究では、配列ベースモデル、構造配列モデル、逆フォールディングモデル、進化モデル、アンサンブルモデルなどのさまざまなトップモデルと比較しました。

下表に示すように、 ProteinGYMベンチマークにおいて、ProSSTは全ての比較モデルを上回り、最高の安定性を達成しています。さらに、ProSST (-structure) は他の配列モデルと同等のパフォーマンスを示しており、ProSSTのパフォーマンス向上は主に構造情報の効率的な統合によるものであることが確認されています。

  • ProSST (-structure) には構造情報モジュールが含まれていません。

ゼロサンプル突然変異予測におけるProSSTと他のモデルの性能比較

本研究では、教師あり学習において、熱安定性予測、金属イオン結合予測、deepLo​​cタンパク質局在予測、GOアノテーション予測(MF/BP/CC)という4つの下流タンパク質タスクを選択しました。ProSSTを、ESM-2、ESM-1b、SaProt、MIF-ST、GearNetといった他のタンパク質言語モデルと比較しました。結果は以下の表2に示されています。ProSSTは全6つの設定において5つの1位と1つの2位を獲得し、全モデルの中で最も優れた結果を達成しました。

下流タスクの監視と微調整の比較

タンパク質言語モデル:ビッグデータと生命科学をつなぐ架け橋

ChatGPTのような大規模言語モデルのリリース以来、大規模なタンパク質配列に基づく事前学習済みモデル(PLM)は、生命科学における注目の研究分野となっています。現在、PLM研究は主に以下の2つの方向に焦点を当てています。

  • 検索強化 PLM: これらのモデルは、トレーニングまたは予測フェーズ中に MSATransformer や Transception などの多重配列アライメント (MSA) 情報を統合し、予測パフォーマンスを向上させます。
  • マルチモーダルPLM:配列情報のみを使用するモデルとは異なり、マルチモーダルPLMはタンパク質構造などの追加情報を統合します。例えば、本論文で解説するProSSTモデルは、構造トークン配列とアミノ酸配列を融合することで、モデルの表現能力を強化します。

強化されたタンパク質言語モデル(PLM)検索の分野では、復旦大学などの研究チームが今年4月にPLMSearchを立ち上げました。PLMSearchは、配列入力に基づく相同タンパク質検索手法です。この研究では、事前学習済みのタンパク質言語モデルを用いて深層表現を取得し、構造類似性を予測します。関連研究はNature Communicationsに掲載されています。

論文リンク:

https://doi.org/10.1038/s41467-024-46808-5

マルチモーダルタンパク質言語モデリング(PLM)の分野において、浙江大学の陳華軍教授率いるチームは最近、タンパク質最適化のための新たなノイズ除去タンパク質言語モデル(DePLM)を提案しました。このモデルは進化情報を最適化することでタンパク質最適化タスクの性能を向上させることができ、その成果は世界最高峰の学術会議NeurIPS 24に選出されました。

これらの画期的な研究が継続的に発表されることにより、PLM は徐々に生命科学の未知の領域を探索するための強力なツールになりつつあり、タンパク質機能予測、相互作用予測、表現型の関連予測などの分野で大きな可能性を示しており、病気の治療や人々の生活の向上に新たなアイデアを提供することが期待されています。