618ZXW

権威ある学術誌「Cell Discovery」に新たな発見が発表されました!上海交通大学のHong Liang氏率いるチームが、機能性タンパク質を超低コストで完全自動設計できるCPDiffusionモデルを提案しました。

タンパク質は生命活動の主要な実行者であり、その構造と機能の関係は生命科学における中核的な研究テーマであり続けています。近年、ディープラーニングの台頭により、その強力なデータ処理能力により、モデルはタンパク質の配列、構造、機能のマッピング関係を学習できるようになり、より高い安定性、より強い結合親和性、そしてより高い酵素活性を持つ新規タンパク質の設計が可能になりました。これにより、タンパク質設計の効率が大幅に向上し、研究開発コストを効果的に削減できます。

しかし、既存の手法では、膨大なデータセットを用いて非常に多くのパラメータを持つモデルを学習させる必要があるため、相同配列の少ない特定のタンパク質への一般化が困難です。多くの場合、比較的単純な構造と機能を持つタンパク質しか生成されません。さらに、実験結果から、設計されたタンパク質は一般的に活性が低く、野生型タンパク質を上回る活性を示すタンパク質は極めて稀であることが示されています。

これに対し、上海交通大学自然科学研究所/物理天文学学院/張江高等研究院/薬学院の洪亮教授の研究グループの周秉馨氏らは、CPDiffusionと呼ばれる拡散確率モデルフレームワークを設計しました。このフレームワークは、タンパク質骨格構造や活性部位といった様々な生成条件を組み合わせ、非常に低いトレーニングコストとデータコストでタンパク質配列と構造、機能の間の暗黙的なマッピング関係を学習し、多様なタンパク質配列を生成します。生成された配列は、ウェット実験検証において非常に高い成功率で合格します。

CPDiffusionの学習と推論プロセスは、専門家の指示をほとんど必要としないことは特筆に値します。CPDiffusionは高度に保存された領域を自動的に識別し、保存領域の機能の決定に基づいて非保存領域にさらなるバリエーションを導入することで、生成される配列の多様性を高めます。「条件付きタンパク質拡散モデルは、活性が強化された人工的なプログラム可能なエンドヌクレアーゼ配列を生成する」と題されたこの研究は、Nature誌のCell Discoveryに掲載されました。

研究のハイライト:

  • この研究では、DNA切断活性が10倍以上増加したエンドヌクレアーゼKmAgoとPfAgoの設計と生成に成功し、現在発見されている中温性野生型タンパク質の活性よりも大幅に高くなりました。
  • この研究により、数百のアミノ酸を一度に改変することができ、タンパク質工学研究の可能性が広がります。
  • 多様な新規タンパク質配列の生成により、タンパク質ファミリーのデータベースも拡張され、科学者に豊富な研究リソースが提供されます。

論文リンク:
https://www.nature.com/articles/s41421-024-00728-2
オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

データセット: サンプルの多様性を確保し、データの偏りを回避する

タンパク質配列-構造-機能間のマッピング関係を学習するため、 CPDiffusionモデルはCATH 4.2由来の20,000個の野生型タンパク質を用いて学習されました。さらに、研究者らは、生成されるタンパク質の特徴に対するモデルの理解を強化するため、694個のpAgosタンパク質を学習セットに追加しました。

これらのタンパク質は、過去の研究でまとめられたpAgoタンパク質ファミリーに由来し、short、long-A、long-BタイプのpAgoタンパク質を含むため、選択されたサンプルの多様性が確保され、潜在的なデータバイアスが低減されています。さらに、データセット内の野生型タンパク質のほとんどは中温性pAgoであり、long-A pAgoタンパク質のうち好熱性であるものはごくわずかです。

モデルアーキテクチャ:pAgoタンパク質の6ステップ自動設計

CPDiffusionの機能性タンパク質生成における有効性を検証するため、研究者らはpAgoタンパク質に注目しました。pAgoタンパク質は、原核生物のDNA干渉において重要な役割を果たすエンドヌクレアーゼであり、特定の一本鎖DNAまたはRNA配列を特異的に認識・切断します。診断分野においても幅広い応用が期待されています。さらに、pAgoタンパク質は基質に対して高い親和性を示し、標的配列を特異的に認識できるため、イメージングや遺伝子編集における重要なツールとなっています。

研究者らは、図aに示すように、CPDiffusionフレームワークを用いて新規pAgoタンパク質を設計した。まず、入力タンパク質(オリジナルpAgo)の配列と情報をグラフィカル表現に変換し、タンパク質の分子的、生化学的、および位相的特性をアミノ酸レベルで表示する。図bに示すように、タンパク質は順方向拡散段階に入り、元のタンパク質の各アミノ酸タイプは置換確率マトリックスに従い、配列全体が均一に分布するまで一連のステップ(Tステップ)で分解される。

CPDiffusionによる新規pAgo配列設計のワークフロー

上の図cに示すように、逆拡散段階では、研究者らは均一に分布する20種類のアミノ酸からランダムにアミノ酸をサンプリングし、タンパク質配列のノイズを段階的に除去しました。上の図dに示すように、ノイズ除去プロセスでは、研究者らはいくつかの条件(標的タンパク質の野生型バックボーン構造、二次構造、野生型タンパク質に基づくアミノ酸置換マトリックスなど)に基づいてこのプロセスを導きました。モデルがタンパク質の3次元構造における暗黙的な等分散を学習できるように、研究者らは等分散グラフ畳み込み層を使用して伝播関数を適合させました。その後、モデルはタンパク質バックボーン上の各アミノ酸位置の結合確率分布を生成しました。学習した分布をサンプリングすることで、研究者らは上の図eに示すように、対応するタンパク質配列(生成されたpAgo)を取得しました。

次に、研究者らはAlphaFold2を用いて生成された配列の構造を予測し、RMSDやpLDDTなどの指標を評価して適切な配列を選別しました。最後に、図fに示すように、これらの適切な配列は、ウェット実験(実験的合成、特性評価、評価)を通じて実験室でさらに確認され、発現レベル、酵素活性、熱安定性などの実際の特性が確認されました。

湿式実験

実験的結論: 新規タンパク質はより強い活性と熱安定性を示す。

研究者らは、好熱性pAgoタンパク質(KmAgoなど)とpAgoタンパク質(PfAgoなど)を候補タンパク質として用い、2組の新規タンパク質配列を生成しました。下図に示すように、生成・スクリーニングフレームワークCPDiffusionを用いることで、27種類の新規人工KmAgo(Km-AP)と15種類の新規人工PfAgo(Pf-AP)を生成することに成功しました。これらの新規タンパク質は、元の野生型(WT)テンプレートと50%~70%の配列相同性を示しましたが、テンプレート以外のWTタンパク質(NCBIデータベースに登録されている他のWTタンパク質)との配列相同性は40%未満でした。

  • KmAgo は中温性酵素であり、野生型の DNA 切断活性は比較的低いため、実用化の可能性は限られています。
  • PfAgo は熱酵素です。野生型は DNA 切断活性が高くなりますが、通常は高温でのみ機能し、温度が低下すると活性が低下します。

CPDiffusion は、保存された特徴や表面の点在など、タンパク質配列の重要な特性を正常に学習しました。

CPDiffusionの学習と推論プロセスは、専門家の指示をほとんど必要としないことは特筆に値します。高度に保存性の高い領域を自動的に識別し、保存領域の機能に基づいて非保存領域により多くのバリエーションを導入することで、生成される配列の多様性を向上させます。

複数の実験を通して、研究者らはKmAgo用に生成されたすべての新規配列が発現可能であることを発見しました(下図参照)。新規配列の約90%がDNA切断活性を有し、70%以上が野生型よりも高い活性を示しました。最も優れた新規KmAgoは、野生型KmAgoの約9倍の活性を示しました。さらに、野生型KmAgoと比較して、一部のKm-AP配列の熱安定性も向上していました。

e: 37℃における27 Km-APのDNA切断活性
g: 27個のKm-APで異なる役割を果たすタンパク質の数
f: 42°Cで2分および5分間インキュベートした後のWT KmAgoおよび27 Km-APのDNA切断活性。

下図に示すように、 PfAgo用に生成された15の新規配列はすべて発現し、一本鎖DNA切断活性を示しました。最も優れた性能を示した新規PfAgoは、野生型PfAgoの融解温度を約100℃から約50℃に低下させただけでなく、45℃での一本鎖DNA切断活性は、野生型PfAgoの95℃での2倍、中温温度での野生型KmAgoの11倍を示しました。

c: 45℃における15個のPf-APのDNA切断活性
d: WT PfAgoとPf-APの融点
e: 15個のPf-APにおける異なる役割を果たす配列の数

要約すると、CPDiffusion は、野生型の機能性タンパク質から自動的に学習し、より強力な機能を備えたより複雑なタンパク質配列を設計できる強力な新しいタンパク質配列設計ツールとして機能し、既存のタンパク質データベースを充実させ、タンパク質エンジニアリング設計にさらなる可能性をもたらします。

AI はタンパク質工学の未来を変えています。

AIによるタンパク質の謎の解明は、生命科学研究のデジタル化にとって極めて重要です。生命の本質を探るこの競争において、中国の研究チームは絶え間ない進歩を遂げ、その力を結集しています。この分野を代表する研究者の一人として、本論文の責任著者である洪亮教授率いる研究グループは、長年にわたりAIを活用したタンパク質標的修飾と薬剤支援設計に注力してきました。具体的な研究内容は、タンパク質構造予測と最適化、タンパク質標的修飾と設計、薬剤支援設計と最適化など多岐にわたり、豊富な成果を上げています。これまでに77本の論文を発表しており、その多くはNature誌に掲載されています。

洪亮教授の研究グループのホームページ:

https://ins.sjtu.edu.cn/people/lhong/index.html

2021年以来、ホン・リャン教授率いるチームは、タンパク質工学のための独自モデルの構築や機能配列のエンドツーエンド設計など、タンパク質科学分野におけるAIの応用を模索してきました。上海人工知能研究所のタン・パン研究員と共同で、事前学習済みタンパク質モデルFSFPに基づく微調整学習法を提案しました。この手法は、わずか20個のランダムウェット実験データセットを用いて事前学習済みタンパク質モデルを効率的に学習させ、モデルのシングルポイント変異予測精度を大幅に向上させます。これは、タンパク質の適応性の小サンプル学習に適しており、実用化において大きな可能性を示しています。

詳細はこちら:20個の実験データポイントがAIタンパク質研究の画期的な成果を記録!上海交通大学は上海AIラボと共同でFSFPをリリースし、タンパク質事前トレーニングモデルを効果的に最適化しました。

洪亮教授の研究チームは、微小環境を考慮したグラフィカルニューラルネットワーク「ProtLGN」も開発しました。このネットワークは、タンパク質の三次元構造から有益なアミノ酸変異部位を学習・予測し、異なる機能を持つタンパク質における単一点変異や複数部位変異の設計を支援します。実験結果によると、ProtLGNによって設計された単一点変異タンパク質の40%以上が、野生型タンパク質よりも優れた性能を示すことが示されています。
詳細: タンパク質の指向的進化を導く実験データが存在しない中、上海交通大学の Hong Liang 研究グループは、微小環境を認識するグラフィカル ニューラル ネットワーク ProtLGN を発表しました。

さらに、彼らは、タンパク質言語モデルの埋め込みと構造シーケンスの埋め込みを組み合わせて構造を考慮した表現を作成し、タンパク質言語モデルのパフォーマンスを大幅に向上させる、シンプルで効率的かつスケーラブルなアダプターであるSES-Adapter を導入しました。

上記の研究は、タンパク質設計におけるディープラーニングの強力な可能性を示しています。ディープラーニング技術がタンパク質分野にさらに応用されれば、タンパク質工学研究は間違いなくより広い発展の場を切り開くでしょう。

参考文献:
https://mp.weixin.qq.com/s/a4gsV4yjzKnW4u6Vtl8LiQ
https://ins.sjtu.edu.cn/article