|
生体の主要分子であるタンパク質は、その構造を決定づける配列と、機能を決定づける構造を有しています。タンパク質の機能は、その三次元構造と密接に関連しています。数十年にわたり、科学者たちはX線結晶構造解析や核磁気共鳴法などの技術を用いて、数千種類ものタンパク質の構造を解明し、タンパク質の機能を理解するための重要な手がかりを得てきました。しかし、数百万種類ものタンパク質が存在するため、それらすべての構造を解明することは非常に困難な作業です。 自然言語処理分野における事前学習済み言語モデルに着想を得て、事前学習済みタンパク質言語モデル(PLM)が登場しました。膨大な量のラベルなしタンパク質配列データから学習することで、PLMはタンパク質配列内の複雑なパターンや相互作用を捉えることができ、タンパク質機能予測、構造解析、そしてタンパク質間相互作用の特定に革命的な進歩をもたらします。 しかし、ほとんどのタンパク質構造予測モデル(PLM)は、主にタンパク質配列モデリングに焦点を当てており、構造データ不足のため、構造情報の重要性が軽視されています。AlphaFoldやRoseTTAFoldなどの技術の登場により、タンパク質構造予測の精度は大幅に向上しました。研究者たちは、タンパク質構造情報をPLMに効果的に統合し、大規模な構造を考慮した事前学習済み言語モデルを学習する方法を研究し始めています。 例えば、上海交通大学自然科学研究所/物理天文学学院/張江高等研究院/薬学院のホン・リャン教授の研究グループは、上海交通大学の周秉馨助手、上海人工知能研究所のタン・パン若手研究員とともに、構造認識機能を備えた事前トレーニング済みのタンパク質言語モデル ProSST の開発に最近成功しました。 具体的には、このモデルは1,880万個のタンパク質構造を含む大規模データセットを用いて事前学習され、タンパク質構造を構造化されたトークン配列に変換した後、アミノ酸配列と共にTransformerモデルに入力します。ProSSTは、分離した注意機構を用いることで、これら2種類の情報を効果的に融合し、熱安定性予測、金属イオン結合予測、タンパク質局在予測、GOアノテーション予測といった教師あり学習タスクにおいて、既存モデルを大幅に上回る性能を発揮します。 「ProSST: 量子化された構造ともつれのない注意によるタンパク質言語モデリング」と題されたこの研究は、NeurIPS 2024 に採択されました。 研究ハイライト:
論文の宛先: オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。 業界で主流の教師なし事前トレーニング済みデータセットに基づいており、1,880 万のタンパク質構造をカバーしています。ProSST の教師なし事前トレーニングを実現するために、研究チームは主に次のデータセットを使用しました。
ProSST: 2 つの主要モジュールを含む構造を考慮した PLM。本研究で開発されたProSST(Protein Sequence-Structure Transformer)は、構造認識機能を備えた事前学習済みのタンパク質言語モデルです。下図に示すように、 ProSSTは主に2つのモジュール、すなわち構造量子化モジュールと、配列構造分離アテンションを備えたTransformerモデルで構成されています。 ProSSTのモデルアーキテクチャ 構造量子化モジュール: タンパク質構造を一連の構造単位に配列および量子化します。 構造量子化モジュールの目的は、タンパク質中の残基の局所構造を離散トークンに変換することです。まず、局所構造は事前学習済みの構造エンコーダによって密なベクトルにエンコードされます。次に、事前学習済みのk-meansクラスタリングモデルが、エンコードされたベクトルに基づいて局所構造にカテゴリラベルを割り当てます。最後に、カテゴリラベルが構造トークンとして残基に割り当てられます。
構造定量化のプロセス 具体的には、本研究では、図Aに示すように、幾何学的ベクトルパーセプトロン(GVP)を局所構造エンコーダとして用います。GVPは、位置認識機能を組み込んだ多層パーセプトロン(MLP)のデコーダと統合され、オートエンコーダモデルを形成します。モデル全体は、ノイズ除去済みの事前学習済み標的タンパク質を用いて学習されます。CATHデータセットで学習した後、研究者らはエンコーダの平均プーリング出力のみを最終的な構造表現として使用しました。 構造エンコーダのトレーニング 次に、図Bに示すように、本研究の局所構造エンコーダは、タンパク質構造を表す密ベクトルを離散ラベルに量子化します。この目的のために、研究者らはGVP構造エンコーダを用いて、CATHデータセット内のすべての残基の局所構造を連続潜在空間に埋め込み、k平均法アルゴリズムを用いてこの潜在空間内のK個の重心を識別しました。これらの重心が構造コードブックを構成します。 局所構造のクラスタリングとラベリング 最後に、本研究では、タンパク質配列の位置iにある残基について、まずその局所構造に基づいてグラフGiを構築し、次に構造エンコーダGVPを用いてそれを連続ベクトルriに埋め込みます。全体として、下図Cに示すように、タンパク質構造全体をシリアル化および量子化して一連の構造トークンにすることができます。 タンパク質構造を構造単位配列に変換する 配列構造分離アテンション: モデルが残基間および残基と構造間の関係を学習できるようにします。 DeBertaモデルに着想を得た本研究は、注目点を分離することで、残基配列(アミノ酸配列)と構造配列の関係、およびそれらの相対的な位置を学習することを目的としています。これにより、モデルはタンパク質配列と構造情報を処理できるようになり、分離によって性能と安定性が向上します。 具体的には、タンパク質の一次配列におけるi番目の残基は、Ri はアミノ酸配列トークンのエンコード、Si はアミノ酸の局所構造トークンのエンコード、Pi|j は位置jにおけるi番目の残基のエンコードを表すという3つの項で表すことができます。下図に示すように、本研究における配列構造分離注目機構には、残基対残基(R to R)、残基対構造(R to S)、残基対位置(R to P)、構造対残基(S to R)、位置対残基(P to R)の5種類が含まれており、タンパク質の配列と構造の複雑な関係をより詳細に捉えることができます。 ProSSTのモデルアーキテクチャ ProSST は他のすべてのモデルよりも優れており、構造情報が組み込まれることでモデルの表現能力が大幅に向上します。ゼロショット変異体有効予測における ProSST の有効性を検証するために、本研究では、配列ベースモデル、構造配列モデル、逆フォールディングモデル、進化モデル、アンサンブルモデルなどのさまざまなトップモデルと比較しました。 下表に示すように、 ProteinGYMベンチマークにおいて、ProSSTは全ての比較モデルを上回り、最高の安定性を達成しています。さらに、ProSST (-structure) は他の配列モデルと同等のパフォーマンスを示しており、ProSSTのパフォーマンス向上は主に構造情報の効率的な統合によるものであることが確認されています。
ゼロサンプル突然変異予測におけるProSSTと他のモデルの性能比較 本研究では、教師あり学習において、熱安定性予測、金属イオン結合予測、deepLocタンパク質局在予測、GOアノテーション予測(MF/BP/CC)という4つの下流タンパク質タスクを選択しました。ProSSTを、ESM-2、ESM-1b、SaProt、MIF-ST、GearNetといった他のタンパク質言語モデルと比較しました。結果は以下の表2に示されています。ProSSTは全6つの設定において5つの1位と1つの2位を獲得し、全モデルの中で最も優れた結果を達成しました。 下流タスクの監視と微調整の比較 タンパク質言語モデル:ビッグデータと生命科学をつなぐ架け橋ChatGPTのような大規模言語モデルのリリース以来、大規模なタンパク質配列に基づく事前学習済みモデル(PLM)は、生命科学における注目の研究分野となっています。現在、PLM研究は主に以下の2つの方向に焦点を当てています。
強化されたタンパク質言語モデル(PLM)検索の分野では、復旦大学などの研究チームが今年4月にPLMSearchを立ち上げました。PLMSearchは、配列入力に基づく相同タンパク質検索手法です。この研究では、事前学習済みのタンパク質言語モデルを用いて深層表現を取得し、構造類似性を予測します。関連研究はNature Communicationsに掲載されています。 論文リンク: https://doi.org/10.1038/s41467-024-46808-5 マルチモーダルタンパク質言語モデリング(PLM)の分野において、浙江大学の陳華軍教授率いるチームは最近、タンパク質最適化のための新たなノイズ除去タンパク質言語モデル(DePLM)を提案しました。このモデルは進化情報を最適化することでタンパク質最適化タスクの性能を向上させることができ、その成果は世界最高峰の学術会議NeurIPS 24に選出されました。 これらの画期的な研究が継続的に発表されることにより、PLM は徐々に生命科学の未知の領域を探索するための強力なツールになりつつあり、タンパク質機能予測、相互作用予測、表現型の関連予測などの分野で大きな可能性を示しており、病気の治療や人々の生活の向上に新たなアイデアを提供することが期待されています。 |
PLMにおける大きな進歩!上海交通大学と上海AIラボの最新の成果がNeurIPS 24に選出されました。ProSSTはタンパク質構造情報を効果的に統合します。
関連するおすすめ記事
-
HarmonyOSの「AIへの野望」:オペレーティングシステムにAIを統合し、アプリケーション開発者を募集するために数億ドルの補助金を提供する
-
MWC 2025 ライブ: Lenovo が、初の外側に折りたためる画面や太陽光発電のノートパソコンなど、新しい PC イノベーションを展示します。
-
タンパク質構造予測の先行指標であるCASPが5回目の開催を迎えました。南開大学の鄭偉氏は、「競争と難易度が高まっており、実用的な生物学的問題に焦点を当てる必要がある」とコメントしました。
-
Apple の AI 搭載 iOS は初日から大ヒットを記録しました。チャットは瞬く間に高度な感情知能を備え、大規模なモデルは究極の音声代替となり、Siri は驚くべき変貌を遂げました。
-
vLLM v1 リリース:推論速度が1.7倍向上!初のマルチモーダルステップワイズ推論ベンチマーク VRC-Bench が4,000ステップ以上のアノテーション付きでリリース
-
40万台!Huawei初のエグゼクティブセダンが発売され、ADS 3.0が初公開され、イベント全体でYu Chengdongの新しいスローガンが取り上げられました。