618ZXW

NeurIPS 24に選出されました!浙江大学のチームが、変異の影響の予測において最先端(SOTA)モデルよりも優れた、新しいノイズ除去タンパク質言語モデルDePLMを提案しました。

生物機能の主要な担い手であるタンパク質は、数十億年にわたる進化の過程で多様な構造と機能を示し、創薬や材料科学といった分野に大きな進歩をもたらしてきました。しかしながら、既存のタンパク質が持つ固有の特性(例えば熱安定性)は、多くの場合、実用上の要件を満たさないことがしばしばあります。そのため、研究者たちは最適化を通じてタンパク質の特性を向上させることに尽力しています。

従来のディープミューテーションスキャン(DMS)と指向性進化(DE)は、高価なウェット実験技術に依存しています。一方、機械学習ベースの手法は、効率的なタンパク質最適化に不可欠な変異効果を迅速に評価できます。広く用いられている研究アプローチの一つは、進化情報を利用して変異効果を検証することです。進化情報は、タンパク質配列中の特定の位置にアミノ酸が出現する確率から変異効果を推測することができます。あるアミノ酸が別のアミノ酸に変異する確率を計算するために、主流の手法では、数百万のタンパク質配列で学習されたタンパク質言語モデル(PLM)を用いて、自己教師型で進化情報を取得します。

しかし、既存の方法では、2 つの重要な側面が見落とされることがよくあります。第 1 に、進化は生存のニーズを満たすために複数の特性を同時に最適化するため、ターゲット特性の最適化がわかりにくくなることが多く、関係のない進化情報を削除できないことです。第 2 に、現在主流の学習目標にはデータセット固有の情報が含まれており、これが現在のトレーニング データに過剰適合することが多く、新しいタンパク質へのモデルの一般化能力が制限されます。

これらの課題に対処するため、浙江大学コンピュータ科学技術学院、国際共同研究所、浙江大学杭州国際科学技術イノベーションセンターの陳華軍教授、張強博士らは共同で、タンパク質最適化のための新たなノイズ除去タンパク質言語モデル(DePLM)を提案しました。このモデルの核心は、タンパク質言語モデルによって捕捉された進化情報(EI)を、特徴関連情報と特徴非関連情報の混合物として扱うことにあります。特徴非関連情報は、対象とする特徴に対する「ノイズ」に相当するため、除去する必要があります。広範な実験により、本研究で提案されたランキングベースのノイズ除去プロセスは、高い汎化能力を維持しながら、タンパク質最適化の性能を大幅に向上させることが実証されています。

「DePLM: プロパティ最適化のためのタンパク質言語モデルのノイズ除去」と題された関連する研究結果は、最高峰のカンファレンス NeurIPS 24 に選出されました。

研究のハイライト:

  • DePLM は、PLM に含まれる進化情報を最適化することで、無関係な情報を効果的に除外し、タンパク質の最適化を改善できます。
  • 本研究では、ノイズ除去拡散フレームワークにおけるランキングベースのフォワードプロセスを設計し、拡散プロセスを突然変異確率のランキング空間に拡張する。同時に、学習目標を数値誤差の最小化からランキング関連性の最大化へと移行し、データセット非依存学習を促進し、強力な汎化能力を確保する。
  • 広範な実験結果により、DePLM は変異の影響を予測する上で最先端のモデルよりも優れているだけでなく、新規タンパク質に対する強力な一般化能力も発揮することが実証されています。

論文の宛先:
https://neurips.cc/virtual/2024/poster/95517

弊社の公式 WeChat アカウントをフォローし、バックグラウンドで「ノイズ除去タンパク質言語モデル」と返信すると、完全な PDF を入手できます。

ProteinGym タンパク質変異データセットをダウンロードしてください:
https://hyper.ai/datasets/32818

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

データセット: ディープミューテーションスクリーニング実験の幅広いコレクション

ProteinGymは、ディープミューテーションスクリーニング(DMS)実験の包括的なコレクションであり、217のデータセットが含まれています。PLMの長さ制限により、研究者は1,024を超える野生型タンパク質を含むデータセットを除外し、最終的に201のDMSデータセットを保持しました。ProteinGymは、DMSデータセットを5つの大まかなカテゴリに分類しています。安定性が66、適応度が69、発現が16、結合が12、活性が38です。

  • パフォーマンス比較実験:研究者らはランダム化クロス検証法を使用しました。この方法では、データセット内の各突然変異が 5 つのフォールドのいずれかにランダムに割り当てられ、これらの 5 つのフォールドの結果を平均することでモデルのパフォーマンスが評価されました。
  • 汎化能力実験:テストデータセットが与えられた場合、研究者は最適化目標(例:熱安定性)に合致する最大40個のデータセットをランダムに選択し、トレーニングデータとして用いる。データ漏洩を防ぐため、トレーニングタンパク質とテストタンパク質の配列類似度は50%未満である必要がある。

モデルアーキテクチャ:ソート空間の順方向プロセスに基づく拡散モデルの拡張

前述のように、DePLMの核心は、タンパク質言語モデルPLMによって捕捉された進化情報(EI)を、特徴関連情報と特徴非関連情報の混合物として扱い、この「ノイズ」を除去することにあります。この目標を達成するために、研究者たちは、ノイズの多い入力を精製して目的の出力を生成するノイズ除去拡散モデルから着想を得ました。

具体的には、研究者らは、下図に示すように、拡散モデルを進化情報のノイズ除去に拡張するための、順序情報に基づく順方向プロセスを設計しました。図の左側では、DePLMがPLMから得られた進化尤度を入力として用い、特定の属性のノイズ除去尤度を生成し、突然変異の影響を予測しています。図の中央と右側では、ノイズ除去モジュールが特徴エンコーダを用いて一次構造と三次構造を考慮したタンパク質表現を生成し、ノイズ除去モジュールはこれを尤度内のノイズ除去に使用します。

DePLMアーキテクチャの概要

ノイズ除去拡散モデルは、順方向拡散プロセスと、学習が必要な逆方向ノイズ除去プロセスの2つの主要なプロセスで構成されます。順方向拡散プロセスでは、真の値に少量のノイズが徐々に追加され、その後、逆方向ノイズ除去プロセスによって蓄積されたノイズが徐々に除去され、真の値が復元されます。

しかし、これらのモデルをタンパク質最適化における変異確率のノイズ除去に適用する場合、主に2つの課題があります。第一に、実験方法の多様性により、実際の特性値と実験測定値の関係は非線形となることが多いことです。したがって、ノイズ除去において予測値と観測値の差を最小化することのみに頼ると、特定のデータセットへのモデル過剰適合につながり、モデルの汎化能力が低下する可能性があります。第二に、従来のノイズ除去拡散モデルとは異なり、研究者は蓄積されたノイズが収束することを必要とします。

これらの課題に対処するため、研究者らは、下図に示すように、ランク相関の最大化に重点を置いたランクベースのノイズ除去拡散プロセスを提案しました。図の左側では、DePLMのトレーニングは、順方向の劣化プロセスと学習された逆方向のノイズ除去プロセスという2つの主要なステップで構成されています。

ノイズを追加するステップでは、研究者らはソートアルゴリズムを用いて軌跡を生成し、順位付けを特性固有の尤度から進化尤度へと変換しました。DePLMはこの逆のプロセスをシミュレートするように訓練されました。下の図の右側では、研究者らは進化尤度から特性固有の尤度への移行中のスピアマン係数の変化を示しています。

DePLMトレーニングプロセス

最後に、データセットに依存しない学習と強力なモデル一般化機能を実現するために、研究者らは特徴値の順序付け空間で拡散プロセスを実行し、数値誤差を最小化するという従来の目的を順序付けの関連性を最大化するものに置き換えました。

研究結果: DePLM は優れたパフォーマンスと強力な一般化能力を示します。

パフォーマンス評価: 進化情報と実験データを組み合わせる利点を検証しました。

まず、タンパク質工学タスクにおける DePLM のパフォーマンスを評価するために、研究者らは、ゼロからトレーニングされた 4 つのタンパク質配列エンコーダー (CNN、ResNet、LSTM、Transformer) と 5 つの自己教師モデル (OHE、ESM-1v の微調整バージョン、ESM-MSA、Transception、ProteinNPT) を含む 9 つのベンチマークと比較しました。

結果は以下の表に示されています。最良の結果は太字で、次点の結果は下線で示されています。全体として、 DePLMはベースラインモデルを上回っており、タンパク質工学タスクにおいて進化情報と実験データを組み合わせることの利点を裏付けています。

タンパク質工学タスクにおけるDePLMとベースラインモデルのパフォーマンス

注目すべきことに、ESM-MSAとTranceptionは、多重配列アライメント(MSA)の導入により、ESM-1vよりも強力な進化情報を示しています。研究者らは、これらの結果を比較することで、高品質の進化情報が微調整された結果を大幅に改善することを実証しました。しかし、これらの改善にもかかわらず、その性能は依然としてDePLMには及ばないものでした。研究者らはまた、DePLMがProteinNPTよりも優れていることを指摘し、提案されたノイズ除去トレーニングプロセスの有効性を強調しました。

一般化能力評価:無関係な要因の影響を排除し、パフォーマンスを向上させる

次に、DePLM の一般化能力をさらに評価するために、研究者らはそれを 4 つの自己教師ありベースライン (ESM-1v、ESM-2、TranceptEVE)、2 つの構造ベースライン (ESM-IF および ProteinMPNN)、および 3 つの教師ありベースライン (CNN、ESM-1v および ESM-2 の微調整バージョン) と比較しました。

結果は以下の表に示されています。最良の結果は太字で、次点の結果は下線で示されています。DePLMは一貫してすべてのベースラインモデルを上回っていることがわかります。これは、フィルタリングされていない進化情報のみに依存するモデルの限界をさらに示しています。これらのモデルは、複数の目的を同時に最適化することで、ターゲット属性を希薄化してしまうことがよくあります。DePLMは、無関係な要因の影響を排除することで、パフォーマンスを大幅に向上させます。

一般化能力評価

さらに、予測スコアと実験スコアの差を最小化するように学習されたベースラインモデルESM1v (FT) とESM2 (FT) は、DePLMを大幅に上回る性能を示しました。この結果は、ランキング空間におけるモデルの最適化によって特定のデータセットからのバイアスが低減され、より優れた汎化が達成されることを示唆しています。さらに研究者らは、タンパク質の構造情報は安定性と結合親和性の向上に寄与し、進化情報は適応特性と活性特性を向上させることを観察しました。

要約すると、多数の実験結果から、DePLM は変異の影響を予測する上で最先端のモデルよりも優れているだけでなく、新規タンパク質に対する強力な一般化能力も発揮することが実証されています。

浙江大学チームは PLM の研究を継続し、バイオテクノロジー業界の発展に貢献しています。

タンパク質ビッグランゲージモデルは、タンパク質の構造、機能、相互作用を正確に予測する能力を備えており、生物学におけるAI技術の最先端応用を象徴しています。タンパク質配列のパターンと構造を学習することで、タンパク質の機能と形態を予測することができ、新薬開発、疾患治療、基礎生物学研究において大きな意義を有しています。

この有望な新興分野に直面して、浙江大学のチームは近年熱心に取り組んでおり、数々の革新的な科学研究成果を達成しています。

2023年3月、陳華軍教授と張強博士、そしてAI学際研究センターの研究チームは、タンパク質言語の事前学習済みモデルを開発しました。「プロンプト学習による多段階タンパク質構造事前学習」と題された彼らの研究は、2023年ICLR国際機械学習表現会議で発表されました。ICLRは、チューリング賞受賞者のヨシュア・ベンジオ氏とヤン・ルカン氏によって設立された、ディープラーニング分野で最も権威のある会議の一つです。

本研究において、研究チームはタンパク質指向の手がかりに基づく学習メカニズムを開拓し、PromptProteinモデルを構築しました。彼らは3つの事前学習タスクを設計し、タンパク質の第一、第三、第四レベルの構造情報をモデルに注入しました。自然言語処理における手がかり技術に着想を得て、研究者らは構造情報を柔軟に活用するための手がかりに基づく事前学習および微調整フレームワークを提案しました。タンパク質機能予測およびタンパク質工学タスクにおける実験結果は、提案手法が従来のモデルよりも優れていることを実証しました。

2024年、研究チームは研究をさらに進展させました。PLMはアミノ酸配列の理解には優れているものの、人間の言語を理解できないという課題に対処するため、浙江大学の陳華軍氏と張強氏率いるチームは、InstructProteinモデルを提案しました。知識指示を用いてタンパク質言語を人間の言語に整合させることで、タンパク質言語と人間の言語間の双方向生成能力を探求し、2つの言語間のギャップを効果的に埋め、生物学的配列を大規模言語モデルに統合する能力を実証しました。

「InstructProtein: 知識指導による人間とタンパク質の言語の整合」と題されたこの研究は、ACL 2024 のメイン会議に採択されました。双方向のタンパク質テキスト生成タスクに関する広範な実験により、InstructProtein が既存の最先端 LLM よりも優れていることが実証されています。

詳細レポートを見るにはクリックしてください: ACL2024メインセッションに選出 | InstructProtein: 知識指示を用いたタンパク質言語と人間の言語の整合

論文の宛先:

https://arxiv.org/abs/2310.03269

実際、これらの記事はチームの進行中の研究のほんの一側面に過ぎません。浙江大学AI学際センターの研究者たちは、大規模なタンパク質または分子言語モデルを活用してiBioFoundryやiChemFoundryのような科学実験ロボットを駆動し、現実世界のセンサー信号、タンパク質、そして人間の言語を組み合わせることで、言語と知覚を結びつけたいと考えていると報じられています。

今後、研究チームは研究成果をさらに産業化し、新薬開発や生命・健康分野へのより価値ある探究と支援を行っていきたいと考えています。

参考文献:

1.https://neurips.cc/virtual/2024/poster/95517

2.https://hic.zju.edu.cn/2023/0328/c56130a2733579/page.htm