618ZXW

ICLR 2025に選出されました!浙江大学のShen Chunhua氏らは、ボルツマンアライメント手法を提案し、タンパク質結合自由エネルギーの最先端(SOTA)予測を実現しました。

タンパク質間相互作用(PPI)は、あらゆる生物学的機能の基盤であり、主に異なるタンパク質分子間の相互作用と影響を通じて実現されます。これらの相互作用を正確に特定し理解することは、タンパク質機能の解明、生命プロセスの解明、疾患メカニズムの探究、標的薬の開発、そして生物学的応用の革新に不可欠です。

コンピュータと人工知能の発展に伴い、近年、ディープラーニングの活用により、タンパク質相互作用(PPI)の研究は飛躍的な進歩を遂げています。特に、2024年にリリースされたDeepMind社のAlphaFold 3は、一般的なタンパク質複合体の構造予測の成功率を80%近くまで大幅に向上させ、科学界を数十年にわたって悩ませてきたタンパク質相互作用の高精度計算モデリングという課題を効果的に解決しました。

しかし、タンパク質間相互作用は結合と解離を伴う動的なプロセスであり、静的な構造を研究するだけでは、これらの相互作用を完全に捉えるには不十分です。結合自由エネルギー(ΔG、結合状態と非結合状態のギブス自由エネルギーの差)などのパラメータは、タンパク質間相互作用の動的なプロセスを定量的に特徴付けることができますが、結合自由エネルギー(ΔΔG、変異効果とも呼ばれる)の変化を正確に予測することは、科学界においてタンパク質間相互作用を理解または制御するための前提条件となっています。

これに基づき、浙江大学コンピュータサイエンス学院の沈春華教授の研究チームは、オーストラリアのアデレード大学および米国のノースイースタン大学の研究チームと共同で、ボルツマンアライメントと呼ばれる手法を提案しました。この手法は、事前学習済みの逆フォールディングモデルの知識をΔΔGの予測に転用するものです。この研究ではまず、ΔΔGの熱力学的定義を分析し、ボルツマン分布を導入してエネルギーとタンパク質の立体配座分布を結び付けることで、事前学習済みの確率モデルの潜在能力を明らかにしました。次に、研究チームはベイズの定理を用いて直接推定を回避し、タンパク質逆フォールディングモデルが提供する対数尤度を利用してΔΔGを推定しました。この導出は、逆フォールディングモデルのこれまでの実験で観察された結合エネルギーと対数尤度の高い相関関係を合理的に説明できます。

これまでの逆折り畳みベースの方法と比較して、この方法は SKEMPI v2 データセットで優れたパフォーマンスを示し、教師あり状態と教師なし状態でそれぞれスピアマン係数が 0.5134 と 0.3201 となり、これまでの最先端の方法の 0.4324 と 0.2632 よりも大幅に高くなっています。

「タンパク質間相互作用における変異効果の予測因子としてのボルツマン整合逆フォールディングモデル」と題されたこの研究は、人工知能分野のトップ国際会議であるICLR 2025に採択されました。注目すべきは、今年のICLRには11,565件の投稿があり、そのうち採択されたのはわずか32.08%だったことです。

論文の宛先:
https://arxiv.org/abs/2410.09543

学術交流イベントをお勧めします。3月7日午後12時より配信される最新のMeet AI4Sライブストリームには、華中科技大学の黄紅准教授、上海人工知能研究所AI科学センターの周東展若手研究員、上海交通大学自然科学研究所の周秉馨助手が出演します。彼らは、それぞれの業績を紹介し、研究経験を共有します。

ディープラーニングは突然変異効果の計算におけるパラダイムシフトを加速します。

科学界は∆∆G予測の研究に長い歴史を持っており、従来の手法は主に生物物理学的手法と統計的手法の2つのカテゴリーに分けられます。生物物理学的手法は主にエネルギー計算を通じてタンパク質が原子レベルでどのように相互作用するかをシミュレートします。一方、統計的手法は特徴量エンジニアリングに依存し、主に記述子を用いてタンパク質の幾何学的、物理的、進化的特性を捉えます。

どちらの従来手法も、人間の専門知識に大きく依存し、時間と労力を要し、タンパク質間の複雑な相互作用を正確に捉えることができないのは間違いありません。さらに、どちらの手法にも欠点があります。例えば、生物物理学的手法では、速度と精度のバランスを取ることがしばしば課題となります。しかしながら、ディープラーニングに基づく手法は、タンパク質モデリングにおいて並外れた能力を発揮するだけでなく、ΔΔG予測パラダイムの転換を加速させます。

これを裏付ける事例研究は増加の一途を辿っています。例えば、中国科学院のチームは、SidechainDiffと呼ばれる表現学習に基づく手法を提案しました。この手法は、リーマン拡散モデルを用いて側鎖構造の生成過程を学習するだけでなく、タンパク質間界面における変異の構造的背景表現も提供できます。学習された表現を用いることで、この手法は、変異がタンパク質間結合に与える影響を予測する上で、最先端の性能を達成しました。

「側鎖拡散確率モデルによるタンパク質間結合に対する変異の影響の予測」と題されたこの研究は、NeurIPS 2023 に掲載されました。
* 紙面住所:

https://proceedings.neurips.cc/paper_files/paper/2023/file/99088dffd5eab0babebcda4bc58bbcea-Paper-Conference.pdf

ディープラーニングベースの手法は大きな成功を収めていますが、欠点がないわけではありません。同様に、この論文では「結合エネルギーに関する注釈付き実験データの不足」についても言及されています。これは、ディープラーニングベースの手法における主要な課題として広く認識されているものです。そのため、多くのチームは、変異予測能力の向上よりも、大量のラベルなしデータセットを用いた事前学習を優先しています。これには、タンパク質リフォールディング、マスクモデリング、そして上記の例にあるサイドチェーンモデリングなど、様々な事前学習済みプロキシタスクが含まれます。

幸いなことに、これらの代替アプローチはすべて目標を達成しましたが、残念ながら、いずれも弱点を明らかにしました。事前学習ベースの手法のほとんどは、教師あり微調整(SFT)のみを採用し、データのアライメントの重要性を無視していました。その結果、モデルは教師なし事前学習中に得られた一般的な知識を忘れてしまい、過学習のリスクが高まりました。振り返ってみると、これらの代替アプローチは、正確な変異予測のために獲得した知識を移転することの緊急性を浮き彫りにしています。

革新的なボルツマンアライメントの開発は、最先端 (SOTA) モデルを上回ります。

具体的には、研究チームはまず、ボルツマン分布と熱力学的サイクリング原理に基づき、タンパク質変異時の結合自由エネルギーの変化と、そのタンパク質のアミノ酸配列の出現確率を関連付け、ボルツマンアライメント法(下図右側)を提案しました。その後、ボルツマンアライメントにバックフォールディングモデルを統合し、バックフォールディングモデルを用いてタンパク質配列の出現確率を予測することで変異を評価するBA-Cycle法(下図左側)を提案しました。

ボルツマンアライメント技術の概要

特筆すべきは、タンパク質の結合自由エネルギーとタンパク質配列の条件付き確率の関係を確立し、与えられた配列におけるタンパク質構造の確率p(X|S)を直接推定する際の二つの大きな困難、すなわち既存のタンパク質構造予測モデルの限界と確率モデルの不十分さを解決するために、研究チームはベイズの定理を結合自由エネルギーの計算式、すなわちp(X|S) = p(S|X) ・ p(X)/p(S)に代入した点である。これにより、結合自由エネルギーとタンパク質配列の条件付き確率p(X|S)をうまく結び付け、p(X|S)を直接推定する際の困難を回避し、結合自由エネルギーの変化とタンパク質配列の条件付き確率の関係をさらに解析するための基礎を築いた。

さらに、研究チームは、タンパク質構造が変異前後で変化しないと仮定し、バックフォールディングモデルを用いて結合状態と非結合状態の配列確率を評価した。結合状態のバックボーン構造は通常既知であり、モデルは直接その確率を計算できる。一方、非結合状態のバックボーン構造は明示的に与えられておらず、複合体内の2つの鎖を個別に評価することでその確率を推定できる。

これに基づき、研究チームは、教師なしΔΔG推定のためのBA-Cycleと呼ばれる手法を提案しました。この手法は、事前学習済みの逆フォールディングモデルであるProteinMPNNを用いて、教師なしΔΔG評価を実現します。これは、熱力学サイクルにおける非結合状態の確率を明示的に考慮していなかった先行研究とは大きく対照的です。

最終的に研究チームは、結合自由エネルギー変化を含むラベル付きデータを用いて、ボルツマンアライメントを通じてBAサイクルを微調整するBA-DDGと呼ばれる手法を提案しました。BA-DDGはBAサイクルと同じ順方向プロセスを採用しています。BA-DDGの目標は、元の事前学習済みモデルの分布を維持しながら、実際の結合自由エネルギー変化と予測された結合自由エネルギー変化のギャップを最小化することです。

研究チームはSKEMPI v2データセットを用いて一連の実験を実施しました。SKEMPI v2データセットは、7,085個のアミノ酸変異と熱力学的パラメータおよび速度定数の変動を含む348個のタンパク質複合体を含む、注釈付き変異データセットです。

評価指標は合計7つあり、そのうち5つは全体指標、すなわちピアソン相関係数、スピアマン順位相関係数、二乗平均平方根誤差(RMSE)、平均絶対誤差(MAE)、AUROCです。さらに、研究チームは変異を構造的特徴に基づいてグループ分けし、各グループのピアソン相関係数とスピアマン相関係数を2つの追加指標として算出しました。

研究チームはまず、BA-CyaleとBA-DDGを、それぞれ最先端(SOTA)の教師なし手法および教師あり手法と比較しました。教師なし手法は、Rosetta Cartesian ΔΔGやFoldXなどの従来の経験的エネルギー関数、ESM-1v、Position-Specific Sc​​oring Matrix(PSSM)、MSA Transformer、Transceptionなどの配列/進化ベースの手法、そしてESM-1F、MIF-Δlogits、RDE-Linear、B-factorなどのΔΔGラベルで学習されていない構造情報に基づく事前学習済み手法の3つのカテゴリーに分類されました。

教師あり学習法は、DDGPred や End-to-End などのエンドツーエンド学習モデルと、MIF-Network、RDE-Network、DiffAffinity、Prompt-DDG、ProMIM、Surface-VQMAE などの ∆∆G を微調整する構造情報に基づく事前トレーニング法の 2 つのカテゴリに分けられます。

結果は、 BA-DDGが全ての評価指標において全てのベースラインを上回っていることを示しています。教師あり学習モードでは、ピアソン相関係数とスピアマン相関係数がそれぞれ0.5453と0.5134に達しました。各構造の相関係数が大幅に改善されたことは、実用アプリケーションにおけるBA-DDGの信頼性の高さを物語っています。BA-Cycleは、経験的エネルギー関数に匹敵する性能を達成し、全ての教師なし学習ベースラインを上回っています。下の図をご覧ください。

SKEMPI v2データセットにおける3分割交差検証の平均結果

さらに、関連する可視化分析では、 BA-DDGが定性的な可視化と定量的な指標の両方において他の手法よりも優れていることが明らかです。下の図をご覧ください。

6つの代表的な方法を用いた各構造のピアソン相関係数とスピアマン相関係数の分布

さらに、研究者らはエネルギー予測、タンパク質間ドッキング、抗体最適化を組み合わせた実験を行い、その幅広い応用性を実証しました。これらのプラスの影響は、医薬品設計や仮想スクリーニングにおいて重要な役割を果たし、将来の実用化に向けた理論的基礎を築くものとなるでしょう。

機械学習とマシンビジョンに深く関わり、すべての人に AI を提供することを目指しています。

本研究では、研究者らは学際的な理論を応用し、タンパク質配列解析に新たな視点を提示し、革新的なモデルの統合と最適化を通じて体系的な研究枠組みを構築しました。この段階的な深化研究アプローチは、タンパク質配列と自由エネルギー変化の関係を包括的かつ深く理解するのに役立つだけでなく、その後の研究にも新たなアプローチを提供します。

本研究の主要参加者の一人である沈春華教授は、長年にわたり機械学習とコンピュータービジョンの研究に尽力し、 TPAMIやIJCVといった国際的に著名な学術プラットフォームを含む150本以上の論文を発表していることは特筆に値します。2025年のわずか2ヶ月間で、沈教授のチームは既に重要な成果を上げており、プレプリントプラットフォームarXivに3本の論文を掲載しています。

最初の論文では、沈春華教授の研究グループがCNNネットワークに基づくDNA基盤モデル「ConvNova」を開発しました。このモデルは設計がシンプルでありながら優れた性能を示し、関連するヒストンタスクにおいて2番目に優れた手法を平均5.8%上回り、より少ないパラメータでより高速な計算を実現しました。さらに、この手法は、TransformerやSSMに基づく手法と比較して、CNNベースのアーキテクチャが持つ高い競争力を実証しています。関連研究は「DNA基盤モデルにおける畳み込みアーキテクチャの再考」というタイトルで発表されました。

* 紙面住所:

https://arxiv.org/abs/2502.18538

2つ目の論文では、沈春華教授の研究グループが上海AIラボと共同で、汎用視覚モデル「DICEPTION」を開発しました。このモデルは、事前学習済みの拡散モデルを用いてマルチタスク視覚知覚問題を解くもので、最小限の学習データで高いタスク適応性を示します。SAMデータセットのわずか0.06%を使用するだけで、セグメンテーションなどのタスクにおいて最先端(SOTA)性能を達成し、色分けによるタスク出力の統一化によって学習コストを大幅に削減します。関連研究のタイトルは「DICEPTION:視覚知覚タスクのための汎用拡散モデル」です。

* 紙面住所:

https://arxiv.org/pdf/2502.17157

3つ目の論文では、沈春華教授のチームがアリババと共同で、物理的に一貫性のある動画を生成する動画生成モデルの能力を評価するためのベンチマーク「PhyCoBench」を提案しました。この研究では、オプティカルフローと動画フレームを段階的に生成する自動評価モデル「PhyCoPredictor」も紹介されています。自動ソーティングと手動ソーティングの一貫性評価を比較した実験結果では、PhyCoPredictorが人間の評価に最も近似する能力を持つことが示されました。関連研究は、「オプティカルフローに基づくフレーム予測による動画生成モデル評価のための物理的一貫性ベンチマーク」というタイトルで発表されました。

* 紙面住所:

https://arxiv.org/pdf/2502.05503

沈春華教授率いるチームは実りある成果を上げただけでなく、教授個人の影響力も際立っています。沈教授の論文は常に科学研究コミュニティにおける重要な引用元となっており、世界的な情報分析企業であるエルゼビアが発表した「2023年中国高被引用研究者」リストにも選出されました。

沈春華教授は、浙江大学コンピュータ支援設計・画像システム国家重点実験室の求実主任教授兼副室長を3年間務め、豊かな研究成果を収めただけでなく、多くの修士・博士課程の学生を指導し、教育にも大きく貢献してきました。さらに、沈教授が所属するコンピュータ支援設計・画像システム国家重点実験室は、産学研究の架け橋として、近年は飛躍的な発展を遂げ、アントグループをはじめとする複数の企業と連携し、科学研究のイノベーション拠点、人材育成拠点、イノベーションのインキュベーション拠点となっています。