618ZXW

動的タンパク質ドッキング予測を実現!上海交通大学、星耀科技大学、中山大学などが共同で、幾何学的深度生成モデルDynamicBindを発表しました。

タンパク質は生命の構成要素であり、その機能は構造と立体配座のダイナミクスと密接に関連し、リガンドによって制御されています。タンパク質-リガンド相互作用の研究は、創薬とスクリーニングにおいて非常に重要な意義を持っています。研究の進展を振り返ると、AlphaFoldの登場は画期的なブレークスルーであり、個々のタンパク質の三次元空間構造を予測できるようになり、タンパク質-リガンド相互作用研究のための構造的基礎を提供しました。

しかし、AlphaFoldはタンパク質の静的な構造をある瞬間のみ予測することができ、タンパク質構造の動的な変化を予測することはできません。AlphaFoldによって予測されたリガンドフリーのタンパク質構造をドッキング入力として用いる場合、予測されるリガンドの位置は、リガンド結合時の共結晶構造と一致しないことがよくあります。さらに、AlphaFoldによって予測される構造は、リガンド結合に最も好ましい側鎖および主鎖の配座を示すことが稀であり、その結果、関連する活性部位が誤った位置に配置されます。そのため、AlphaFold構造を薬剤スクリーニングや設計に利用することは現状では困難です。

この問題に対処するため、上海交通大学の鄭双佳教授の研究グループは、星耀科技、中山大学薬学院、ライス大学と共同で、動的タンパク質ドッキング向けに設計された幾何学的に深層化された生成モデル「DynamicBind」を提案しました。このモデルは、タンパク質の立体構造を初期のAlphaFold予測状態からホロのような状態へと効果的に調整することができ、AlphaFold後の医薬品開発におけるタンパク質の動的変化を考慮したディープラーニングに基づく新たな研究パラダイムを提供します。この手法は、国際的な医薬品スクリーニングコンテストCACHEにおけるウェット実験でも検証されており、パーキンソン病治療における創薬困難な標的に対する競争力のあるリード化合物をスクリーニングできることが実証されています。

「DynamicBind: 深層等変生成モデルによるリガンド特異的なタンパク質-リガンド複合体構造の予測」と題されたこの研究は、Nature Communications 誌に掲載されました。

研究のハイライト:

  • 高度な深層拡散モデルと等変幾何学ニューラル ネットワーク テクノロジを採用することで、タンパク質の立体配座生成とリガンドポーズ予測が 1 つのフレームワークに統合され、タンパク質とリガンドの動的なドッキング予測が可能になります。
  • DynamicBind は、タンパク質リガンド ドッキングにおいて、従来のドッキング方法やディープラーニング ベースのリジッド ドッキング方法よりも優れた性能を発揮します。
  • DynamicBind は、AlphaFold によって予測されたタンパク質の立体構造を使用して、タンパク質の立体構造を動的に調整し、リガンドに最適な立体構造を見つけます。

論文の宛先:
https://www.nature.com/articles/s41467-024-45461-2

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

データセット: PDBbind データセットに基づいて、MDT テスト セットを使用して評価範囲が拡張されます。

研究者らはまず、PDBbindデータセットを用いて、トレーニングセット、検証セット、テストセットを時系列順にモデルに学習させ、実験的に測定された結合親和性と組み合わせて学習させた。PDBbindテストセットには2019年以降の約300の構造が含まれており、これには多くの非小分子リガンド(そのうち53はペプチド)が含まれているため、研究者らは厳選された主要薬物標的(MDT)テストセットを用いて評価範囲を拡大した。

MDTテストスイートには、2020年以降にアーカイブされた599の構造が含まれており、キナーゼ、GPCR、核内受容体、イオンチャネルという4つの主要ファミリーに属する薬物様リガンドおよびタンパク質を網羅しています。これらのタンパク質ファミリーは、FDA承認の低分子医薬品の約70%の標的を網羅しており、代表的なものとなっています。

DynamicBind: 幾何学的深層学習に基づく動的複雑構造予測モデル

タンパク質をほぼ剛体として扱う従来のドッキング手法とは異なり、DynamicBindは、高度な深層拡散モデルと等方性幾何学ニューラルネットワーク技術を用いることで、従来は別々に行われていたタンパク質の立体構造生成とリガンドポーズ予測を単一のフレームワークに統合し、タンパク質とリガンド間の動的なドッキング予測を可能にします。さらに、エンドツーエンドの深層学習アプローチであるため、幅広いタンパク質立体構造変化のサンプリングにおいて、従来のMDシミュレーションよりも桁違いに高速です。

DynamicBindは、PDB形式のアポ類似構造と、SMILESやSDFなどの広く使用されている低分子リガンド形式に対応しています。推論中、モデルはRDKitを用いてタンパク質の周囲にシード構造を生成し、リガンドをランダムに配置します。トレーニング中、モデルはアポ類似構造からホロ構造へのプロセスを学習します。推論中、モデルは初期入力構造を20回更新します。

下の図 a に示すように、ピンクはタンパク質立体構造のホログラフィック状態、緑は初期のアポリポタンパク質とモデル予測立体構造、シアンは天然リガンド、オレンジは予測リガンドを表しています。

DynamicBindモデル図

各反復において、タンパク質とリガンドの特徴と座標(側鎖のねじれ、Ca原子の座標などを含む)がSE(3)等変相互作用モジュールに入力されます。モデルの出力には、リガンドと各タンパク質残基の全体的な並進と回転、リガンドのねじれ角とタンパク質残基のカイ二乗角の回転、そして2つの予測モジュール(親和性Aと信頼度スコアDを組み合わせたもの)が含まれます。

下の図bは、DynamicBindモデルのサンプリング効率を示しています。キナーゼタンパク質のDFG-inからDFG-outへの遷移において、このモデルはタンパク質が2つの異なるリガンドに結合した際に、2つの異なるホログラフィックコンフォメーションを予測できます。さらに、DynamicBindは結合タンパク質のコンフォメーションを20ステップ以内で予測できますが、同じ結合状態を探索するフルアトムMDシミュレーションでは数百万ステップを要します。

DynamicBindモデルのサンプリング効率

タンパク質の動的ドッキング予測のオールラウンダーである DynamicBind は、5 つの主要なタスクで優れています。

DynamicBind のモデル パフォーマンスを評価するために、研究者は次の 5 つのタスクを通じてテストを行いました。
(1)DynamicBindを現在のドッキング方法と比較するベンチマーク。
(2)タンパク質の構造変化を大量にサンプリングする能力
(3)取り扱うタンパク質の構造変化の範囲
(4)隠れたポケットを予測し、動的なドッキングを実現する能力
(5)抗生物質ベンチマークテストにおけるスクリーニング性能

DynamicBind は、従来のドッキング方法やディープラーニング ベースのリジッド ドッキング方法よりも優れています。

研究者らはテスト中、ホログラフィック構造を入力として使用せず、ホログラフィックタンパク質立体配座は利用できないと仮定し、AlphaFoldによって予測されたタンパク質立体配座のみを入力として使用しました。これは、ホログラフィック立体配座が共結晶化したリガンドと強い形状および電荷の相補性を示すため、リガンドの姿勢予測プロセスを簡素化できるためです。

下の図aとbに示すように、研究者らはPDBbindおよびMDTデータセットにおいて、DynamicBindを他のベースラインモデルと比較しました。DynamicBindは、様々なRMSD閾値において他の手法よりも優れた性能を示しました。具体的には、DynamicBindはPDBbindテストセットにおいてリガンドRMSD閾値2Å(5Å)未満で33%(65%)を達成し、MDTテストセットでは39%(68%)のRMSD閾値を達成しました。

PDBbindとMDTのテストセットに基づく、様々な統合手法と深層学習手法を用いたDynamicBind統合実験の比較結果

しかしながら、リガンドRMSD値のみに基づいてモデルを評価することは、DiffDock、TankBind、DynamicBindといった深層学習ベースのモデルでは、高いコンフォメーション衝突許容度を示すため有利です。一方、Gnina、Glide、Vinaといった、ファンデルワールス力を厳密に適用する力場ベースのドッキング手法では不利となり、モデル評価の客観性に影響を与えます。そのため、研究者はリガンド予測の成功率を評価するために、リガンドRMSDと衝突スコアの両方を使用しています。

下の図cは、厳格な基準(リガンドRMSD < 2 Å、衝突スコア < 0.35)とより緩い基準(リガンドRMSD < 5 Å、衝突スコア < 0.5)を用いたリガンド予測の成功率を示しています。より厳格な条件では、DynamicBindの成功率(0.33)は、最良のベースラインであるDiffDock(0.19)の1.7倍です。

2つのテスト基準に基づく、様々な統合手法とディープラーニング手法を用いたDynamicBind統合実験の比較結果

さらに、初期のポケット RMSD が大きい場合でも、DynamicBind によって予測されるポケット RMSD は、下の図 d に示すように、AlphaFold によって予測されるポケット RMSD よりも大幅に小さくなります。

初期ポケットRMSDにおけるDynamicBindとAlphaFoldの比較

DynamicBind はさまざまな立体配座を生成できること、そして AlphaFold の LDDT スコアにヒントを得て、研究者らは予測出力から最も適切な複合構造を選択するための接触 LDDT (cLDDT) スコアリング モジュールを開発しました。

下の図 e に示すように、DynamicBind によって予測された cLDDT はリガンドの実際の RMSD と良好な相関関係があり、高品質の複合構造を選択する上で有効であることを示しています。

DynamicBindの予測cLDDTと実際のリガンドRMSDの相関

下の図 f に示すように、生成されたサンプル数が増加するにつれて、リガンドポーズ予測における DynamicBind モデルの成功率も増加します。

DynamicBind モデルは、リガンドポーズ予測において高い成功率を誇ります。

DynamicBind は、リガンド特異的なタンパク質構造の変化を捉えることができます。

従来のドッキングプロトコルでは、通常、タンパク質の立体構造サンプリングをドッキングプロセスとは別のステップとして実行します。しかし、多くの場合、2つの異なるリガンドが互いに反発するタンパク質立体構造に適合することがあります。従来のドッキングモデルでは、リガンドの適切な結合姿勢を特定するために、タンパク質を正しい立体構造に事前に設定しておく必要がありました。一方、DynamicBindは、AlphaFoldによって予測されたタンパク質立体構造を利用してタンパク質立体構造を動的に調整し、対象のリガンドに最適な立体構造を見つけます(下の図aを参照)。

図bからeは、PDB 6UBWとPDB 7V3S構造におけるDynamicBindとAlphaFoldのリガンドとポケットのRMSD予測値を示しています。PDB 6UBWでは、DynamicBindはリガンドのRMSDを0.49Å、ポケットのRMSDを1.97Åと予測しますが、AlphaFold構造のポケットのRMSDは9.44Åです。PDB 7V3Sでは、DynamicBindはリガンドのRMSDを0.51Å、ポケットのRMSDを1.19Å(AlphaFoldは6.02Å)と予測します。

DynamicBind は、リガンド特異的なタンパク質構造の変化を捉えます。

図 f および g は、UniProt ID タグが付けられたタンパク質が同じ初期構造から始まり、I 型阻害剤に結合した後に徐々に DFG-in コンフォメーションに向かって移動し、II 型阻害剤と相互作用すると DFG-out コンフォメーションに向かう様子を示しています。

DynamicBindは、リガンド特異的なタンパク質構造変化(DFG-in / DFG-out)を捕捉します。

図 h は、DynamicBind によって予測されたタンパク質構造のほとんどが、初​​期の AlphaFold 構造と比較して低いポケット RMSD を示していることを示しています。

結果は、DynamicBindがリガンド特異的な構造変化を捉えられることを示しています。言い換えれば、特定の構造が当初提供されたタンパク質構造と異なる場合でも、DynamicBindはタンパク質の他の可能性のある構造によく結合する化合物を特定できます。

DynamicBind は、マルチスケールのタンパク質構造変化をカバーします。

研究者らは、ピコ秒からミリ秒までの範囲にわたる6種類の異なるスケール構造変化を用いてDynamicBindを評価しました。下の図に示すように、ピンクは結晶構造、白はAlphaFold構造、緑はDynamicBindによって予測された構造、シアンは天然リガンド、オレンジはDynamicBindによって予測されたリガンドを表しています。

Δpocket RMSDは、結晶構造との比較に基づき、モデル予測されたタンパク質構造とAlphaFold構造のポケットRMSDの差を測定します。Δpocket RMSDが負の場合、DynamicBindによって予測された構造が結晶構造よりもAlphaFoldによって予測された構造に近いことを示します。

Δclashは、予測されたタンパク質-リガンドペアとAlphaFold構造における移植リガンド間の衝突スコアの差を測定します。Δclashが負の場合、予測された複合体における衝突が少ないことを示します。

DynamicBind は、リガンド特異的なタンパク質構造の変化を捉えます。

図aでは、ネイティブリガンドが重ね合わせたAlphaFold構造の側鎖と衝突していますが、DynamicBindの予測では、この側鎖がネイティブ構造に向かって移動し、衝突は解消されます。図bでは、AlphaFold構造のチロシン残基がポケットの一部を塞いでいますが、DynamicBindの予測構造とネイティブ構造の両方で、このポケットにアクセスできるようになります。図cでは、フレキシブルループがリガンドと交差していますが、DynamicBindの予測では、ネイティブ構造と一致して除去されます。

図dでは、αヘリックスがリガンド結合部位付近でループに変形しています。図eでは、熱ショックタンパク質Hsp90αの二次構造が、閉じた状態から開いた状態へと遷移する際に大きな動きを見せています。図fでは、AKT1キナーゼの2つのドメインが凝縮し、以前は存在しなかったポケットを形成しています。

要約すると、リガンド結合ポケットが十分に広くない場合、または AlphaFold によって予測されたコンフォメーションが形成されない場合、DynamicBind モデルはリガンド結合に関連するさまざまなコンフォメーションの変化を予測できます。

DynamicBindは隠れた結合部位を識別できる

タンパク質は動的プロセス中に隠れたポケットを形成することが多く、静的構造では発見できなかった創薬可能な部位が明らかになることがあります。これにより、これまで「創薬不可能」とされていたタンパク質が、潜在的な創薬標的へと変貌を遂げます。研究者らは、SETドメインを含むタンパク質2(SEtD2)をケーススタディとして用い、DynamicBindがこれらの隠れたポケットを明らかにする実用性を実証しました。

ヒストンメチルトランスフェラーゼであるSETD2は、多発性骨髄腫(MM)およびびまん性大細胞型B細胞リンパ腫(DLBCL)の治療における重要な薬剤です。SETD2には隠れたポケットがあり、これが選択性の高い化合物EZM0414の標的となっています。EZM0414は現在、第I相臨床試験を実施中です。

下の図aおよびbに示すように、トレーニングセット内のすべてのSETD2ホモログ(タンパク質スミス・ウォーターマン類似度が0.4を超えることで定義)は、S-アデノシルメチオニン(SAM)またはシネファンギン類似体と共結晶化しており、線で示されています。水色のバーはPDB 7TY2のリガンドEZM0414を、ピンクのバーはタンパク質を表しています。

図cでは、白はAlphaFold構造とその表面を表しています。隠れた部位はブロックされており、移植されたEZM0414との衝突が多く発生しています。

DynamicBind はリガンド EZM0414 の隠されたポケットを明らかにします。

図dは、EZM0414が未知のリガンドであり、最も類似したタニモトリガンドでさえEZM0414とは大きく異なることを示しています。図eは、DynamicBindモデルによって予測されたタンパク質-リガンド複合体の構造を示しています。このモデルは、AlphaFoldによって予測されたSETD2構造とEZM0414のSMILES表現を入力としています。図fは、DynamicBindによって予測されたタンパク質-リガンド複合体の構造と、SETD2-EZM0414複合体(PDB 7TY2)の結晶構造との重なりを示しています。

結果は、DynamicBind が隠しポケットの動的ドッキングを達成し、リガンドを正常に配置し、適切なポケット構造を見つけたことを示しています (得られたリガンドの RMSD は 1.4 Å、ポケットの RMSD は 2.16 Å でした)。

DynamicBind は、抗生物質ベンチマークにおいて優れた薬物スクリーニング性能を実現します。

ターゲットベースの創薬においては、潜在的な薬剤候補のスクリーニングとリバーススクリーニング(特定の化合物に対するタンパク質標的の特定)の両方が重要です。DynamicBindモデルのスクリーニング性能を実際に評価するために、研究者らはモデルに親和性予測モジュールを追加し、PDBbindデータセットから実験的に測定された結合親和性データを用いてモデルを学習させました。そして、2023年に公開された抗生物質プロテオミクスの薬物スクリーニング試験データ(12個のタンパク質標的と約3,000個の測定活性データを含む)で評価しました。

図aに示すように、DynamicBindはVINAやDOCK6.9といった一般的なドッキング手法、そして機械学習に基づく最良の再スコアリング手法よりも優れた性能を示し、平均受信者動作特性曲線下面積(auROC)0.68を達成しました。この性能向上は、DynamicBindの動的ドッキング機能によるもので、AlphaFold構造を元の状態に近い状態に改良することで、より正確な結合親和性の推定を実現します。

DynamicBind は、抗生物質ベンチマーク テストでより優れたスクリーニング パフォーマンスを実現します。

上の図 b は、DynamicBind によって予測されたタンパク質 murD 構造がリガンドにさらにしっかりと巻き付いており、初期の AlphaFold 構造では不可能だったより多くの相互作用を形成していることを示しています。

これらの結果は、DynamicBind が従来のドッキング方法やディープラーニングベースのリジッド ドッキング方法よりも一貫して優れていること、そして結合親和性予測機能を備えたこのモデルがプロテオーム レベルでの仮想スクリーニング アプリケーションに大きな可能性を示していることを示しています。

タンパク質の複雑な構造と機能を解読し、インテリジェントな創薬に貢献します。

AlphaFoldの静的構造予測を基盤とするDynamicBindモデルは、生成型人工知能技術を革新的に統合し、動的な複合体構造予測という課題に成功しました。タンパク質構造の動的な変化を予測することは、生命プロセスの理解と新薬開発に不可欠です。特にAI駆動型創薬においては、AIによる薬物スクリーニングの精度と臨床効果を大幅に向上させることができます。

この研究の主な参加者の一人である鄭双佳の研究グループは、長年にわたり、生成人工知能と医薬品開発の交差点における最先端の研究に深く関わっており、実りある成果を上げてきました。

2024年6月21日、鄭双佳(Zheng Shuangjia)教授の研究グループは、表現型レベルでの摂動を受けた高コンテンツ細胞顕微鏡画像を用いて分子特性評価の学習を支援するクロスモーダル学習法を提案しました。この手法は、分子と特性評価のギャップを効果的に埋めることができ、医薬品開発において大きな意義を持ちます。関連研究「細胞画像を用いたクロスモーダルグラフ対照学習」は、『Advanced Science』誌に掲載されました。

論文の宛先:
https://onlinelibrary.wiley.com/doi/10.1002/advs.202404845

2024年5月25日、鄭双佳(Zheng Shuangjia)研究グループは、原子構造と分子ネットワークスケール間のマルチスケール情報を効果的に統合するマルチスケール学習フレームワークMUSEを提案しました。これは、計算創薬を他のスケールに拡張する可能性を示唆しています。関連研究「タンパク質と薬物の相互作用のバランスの取れたマルチスケール学習のための変分期待値最大化フレームワーク」は、Nature Communications誌に掲載されました。

論文の宛先:
https://www.nature.com/articles/s41467-024-48801-4

2022年9月15日、鄭双佳(Zheng Shuangjia)研究グループは、創薬困難な標的に対する生成的インテリジェント医薬品設計アルゴリズムを開発しました。このアルゴリズムはPROTACリード化合物を迅速に設計し、動物実験で検証することで、情報技術とバイオテクノロジーの融合が持つ大きな可能性を示しました。この一連の成果は、Google DeepMind、AlphaFold、ワシントン大学のDavid Baker教授のチームなど、各分野の一流研究グループから肯定的な引用と評価を受けました。関連研究「深層学習と分子シミュレーションによる加速的合理的PROTAC設計」は、*Nature Machine Intelligent*に掲載されました。

論文の宛先:
https://www.nature.com/articles/s42256-022-00527-y

2020年2月14日、鄭双佳(Zheng Shuangjia)教授の研究グループは、エンドツーエンドのディープラーニングフレームワークに基づく準視覚的質問応答システムを提案し、薬物-タンパク質相互作用を特定することで、創薬に効果的に貢献することを目指しました。関連研究「準視覚的質問応答システムを用いた薬物-タンパク質相互作用の予測」は、Nature Machine Intelligence誌に掲載されました。
論文の宛先:
https://www.nature.com/articles/s42256-020-0152-y

鄭双佳の研究グループは、生成型人工知能と医薬品開発の交差点における最先端の研究に対する理解に基づき、代謝と老化に関連する疾患に対するインテリジェントな医薬品設計に焦点を当て、ITとBTを統合した新しい医薬品開発モデルを作成し、エンドツーエンドのインテリジェントな医薬品発見にさらに貢献することに尽力しています。

参考文献:

https://news.sjtu.edu.cn/jdyw/20240628/199484.html

https://zhenglab.sjtu.edu.cn/

https://www.nature.com/articles/s41