|
近年、ディープラーニングなどのAI技術の支援により、タンパク質構造予測の分野は急速に発展しています。2024年10月、DeepMindのデミス・ハサビス氏とジョン・M・ジャンパー氏は、AlphaFoldの功績により2024年度ノーベル化学賞を受賞しました。しかし、これはAlphaFoldが代替不可能であることを意味するものではなく、他の優れたアルゴリズムも探求する価値があります。 「Meet AI4S」ライブブロードキャストシリーズの第6回では、 HyperAIは南開大学統計・データサイエンス学院の鄭偉教授をお招きしました。教授は「AlphaFold3の座は安泰ではない:学術界からの反撃:ディープラーニングに基づく生体高分子とその相互作用の3D構造予測」というテーマで、自身の見解を共有しました。AlphaFoldの限界と今後の最適化の方向性、そして学術界で探求する価値のある他のアルゴリズムや研究テーマについても議論しました。 HyperAIは、原文の意味を変えることなく、詳細な共有内容をまとめ、要約しました。以下はスピーチの書き起こしです。 AlphaFoldの制限タンパク質は生命の構成要素であり、その三次元構造を予測することは生物学的機能を理解する上で極めて重要です。DeepMindのAlphaFold 2はタンパク質構造予測を新たなレベルに引き上げましたが、これはAlphaFold 2のエンドツーエンドのフレームワークがタンパク質構造予測に関するすべての問題を解決したことを意味するものではありません。 まず、AlphaFold 2 自体を例に挙げると、まだ多くの制限があります。
公式レポートでは、AlphaFold 2 は 90% 以上の精度で構造を予測できるとされていますが、実際のタスクではそれほど高い精度を達成することはできません。
AlphaFold 2 は単一ドメインタンパク質の予測では優れたパフォーマンスを発揮しますが、ドメインが非常に柔軟な複雑なマルチドメインタンパク質の場合、予測精度は良くありません。
通常、タンパク質が機能するには他のタンパク質と複合体を形成する必要がありますが、AlphaFold 2 の初期バージョンではこの問題は解決されていませんでした。
前述のように、これらの問題は初期バージョンでは解決されていませんでした。
実験解析手法は通常、特定の瞬間の構造状態しか捉えることができませんが、タンパク質は生体内では静的ではなく、異なる時点において構造が変化する可能性があります。これらはAlphaFold 2がまだ解決していない問題です。 さらに、DeepMindはすでにAlphaFold 3へと進化を遂げており、タンパク質モノマーの構造予測において非常に優れた性能を発揮していることは分かっていますが、複合体、核酸、低分子の予測精度には依然として改善の余地があります。そのため、次世代のAlphaFoldでは、他の機能を備えた予測モジュールが追加される可能性があります。例えば、現在のモデルは主に静的構造を扱っていますが、分子動力学を探求し、タンパク質のアロステリック変化を予測するようになるかもしれません。さらに、タンパク質設計の分野にも進出し、予測プロセス全体を逆転させる可能性も考えられます。 したがって、AlphaFold があっても、学術コミュニティにはまだやるべきことがたくさんあります。 AlphaFold 以外に検討する価値のある方法は何ですか?かつて、タンパク質の三次元構造を決定するには、主にX線回折、核磁気共鳴(NMR)、クライオ電子顕微鏡法が用いられていました。しかし、実験的にタンパク質構造を決定することは困難でコストも高いため、チームによっては単一のタンパク質の三次元構造を決定するのに数か月から数年かかることもありました。そのため、より経済的で迅速な方法、すなわちアルゴリズムによるタンパク質構造予測が模索されるようになりました。 タンパク質は主に20種類のアミノ酸(通常は英文字で表されます)で構成されており、アミノ酸分子には多数の原子が含まれていることが知られています。したがって、タンパク質構造予測問題は次のように要約できます。これらの文字で構成されるアミノ酸配列が与えられた場合、計算アルゴリズムを用いて、タンパク質配列中の各アミノ酸の各原子の3次元空間座標(x、y、z)を予測します。 タンパク質構造予測の発展を通じて、比較モデリングやホモロジーモデリング、分子動力学シミュレーション(MD)、スレッディングアルゴリズム、de novo予測、ディープラーニングに基づくコンタクトマップ予測アルゴリズムなど、様々な代表的なアルゴリズムが様々な段階で登場してきました。以下では、主にこれらを紹介します。
この方法は、生物進化の原理に基づいており、配列類似性の高いタンパク質は構造と機能が類似する傾向があると仮定しています。したがって、まず未知のタンパク質のアミノ酸配列を取得し、次にPDBデータベースの配列アライメントを用いて、既に解読されている配列類似性の高いタンパク質構造テンプレートを見つけます。そして、マイグレーションまたはアライメントによって、未知のタンパク質の構造を予測することができます。 PDB データベースには、この分野で解明されたタンパク質の構造が含まれています。
基本的な考え方は、タンパク質のアミノ酸配列に基づいて初期の三次元構造をランダムに生成し、各原子にランダムな座標を割り当て、原子の位置を調整し、事前に構築された物理エネルギー場に基づいて、異なる時間におけるタンパク質の状態エネルギーを計算することです。エネルギーが最も低い構造が、合理的なタンパク質の立体配座です。
ホモロジーモデリングと同様に、配列類似性が高いタンパク質は構造が類似していることが多いのに対し、構造的に類似したタンパク質であっても配列類似性が非常に低い場合があり、PDBデータベースで適切なテンプレート情報を見つけることができないという点が異なります。そこで研究者らは、相同配列データベースに基づいて、2つのタンパク質プロファイル間で異なるアミノ酸をアラインメントする多重配列アライメント(MSA)を用いたプロファイルの概念を提案しました。 つまり、2 つのアミノ酸配列が異なっていても、プロファイルが類似している場合は、類似の構造を持つとみなすことができ、このようにしてテンプレートを見つけることができます。
一部のタンパク質は、データベース上で必ずしも類似の構造を持つとは限りません。そのため、研究者はタンパク質配列全体を短い断片に分解し、それらの小さな断片のテンプレートをデータベースで検索し、それらの小さな断片のテンプレートを完全な三次元構造に組み立てることで、構造を予測しようとします。 具体的には、ワシントン大学のデイビッド・ベイカー教授が開発したRosettaソフトウェアは、タンパク質配列を多数の小さな断片に分解し、それらをランダムに組み立て、分子動力学シミュレーションで開発されたエネルギー関数を用いて最適化するという基本原理に基づいています。構造は、動力学シミュレーションやエネルギー最小化と同様の原理によって予測されます。
基本的な考え方は、タンパク質の三次元構造を二次元図に変換することです。タンパク質の三次元構造情報、つまりすべての空間点の座標を用いて異なるアミノ酸間の距離を計算し、距離が一定の閾値未満の場合、2つのアミノ酸間に接触が形成されていると仮定します。そうでない場合は、接触は形成されていません。この定義は、三次元構造を二次元図に圧縮するために使用されます。さらに、この二次元接触図の情報を用いて、タンパク質の三次元構造を再構築することができます。 具体的には、研究者たちはディープラーニングに基づく多くの手法を開発してきました。その核となる考え方は、まず多重配列アライメント(MSA)を構築し、アミノ酸iとjのプロファイルの共進化情報を観察することです。これらの共進化するアミノ酸は空間的に近接し、接触していることが多いため、共進化情報はディープラーニングネットワークへの特徴入力として訓練に用いられ、タンパク質の接触マップを予測し、その3次元構造を再構築します。 例えば、鄭偉教授のチームは以前、CI-TASSERと呼ばれるアルゴリズムを開発しました。これは現在、接触マップに基づいてタンパク質の構造を予測するために一般的に使用されている方法です。 最後に、AlphaFold は上記の多くのアルゴリズムの基本原理を統合し、タンパク質配列を直接入力して構造を出力できるエンドツーエンドのフレームワークを正常に構築しました。 この論文では、チームの成果を例に挙げ、学術コミュニティが追いつくための機会を探ります。タンパク質構造予測はバイオメディカル分野に大きな影響を与えています。例えば、鄭偉教授のチームが開発したアルゴリズムは、現在、未知のウイルスタンパク質(COVID-19)の構造予測、クライオ電子顕微鏡によるタンパク質構造解析の支援、生物学者によるタンパク質の進化的機能の理解、そして抗体スクリーニングに利用されています。 さらに、下図に示すように、チームが開発したタンパク質モノマーおよび複合体の構造予測アルゴリズムはすべて自動サーバーアルゴリズムに変換され、研究グループのウェブサイトで公開されています。これらのアルゴリズムは、世界100か国以上、9万人以上のユーザーに利用されており、どなたでもご利用いただけます。 *メインプロジェクト住所: タンパク質モノマーの構造を予測する手法「DI-TASSER」 タンパク質モノマーの構造予測は常に注目の的となっています。鄭偉教授率いるチームは、AlphaFold 2以前からコンタクトマップに基づく構造予測の研究を行っていました。AlphaFold 2の登場後、チームはAlphaFold 2によって予測されたコンタクトマップなどの空間制約を、これまで開発してきたアルゴリズムに統合できないか検討し始めました。そこで、空間制約、メタゲノミクス、統計エネルギー関数に基づき、タンパク質モノマー構造予測アルゴリズムDI-TASSERを開発し、最適化を行った結果、優れた性能を示しました。 下図の右側の例に示すように、赤はDI-TASSERによって予測されたタンパク質構造を、青は実験的に解明された構造を表しています。DI- TASSERによって予測された構造は、実験的に解明された構造と非常に類似していることがわかります。一方、AlphaFold 2によって予測された構造は、アライメント後も実験構造と大きく異なり、予測精度がわずかに低いことを示しています。 さらに、複数のタンパク質データセットで評価を実施しました。下図の右側に示すように、 DI-TASSERは、単一ドメインおよび複数ドメインの予測において、AlphaFold 2、さらにはAlphaFold 3よりも高い予測精度を示しました。 評価の権威性を保証するために、チームは内部評価を実施しただけでなく、この分野で権威のある CASP コンテストにも参加しました。 CASPコンペティションは、しばしば「分野のオリンピック」とも呼ばれ、タンパク質構造予測の評価手法の標準化を主な目的としています。タンパク質の立体構造予測アルゴリズムは数多く存在し、各研究室が独自のアルゴリズムを開発しているため、評価データセットや評価手法が異なり、各研究グループが自らの手法こそが世界最高精度だと主張することがあります。CASPコンペティションは、こうした混沌とした状況に対処するために創設されました。 CASPは昨年までに32年間にわたり16回のセッションを成功裏に開催し、David Baker教授のチームやDeepMindチームなど、多くの権威あるチームの参加を集めました。 DI-TASSERとその前身アルゴリズムは、CASPコンペティションに複数回参加しています。CASP 13からCASP 15まで、この手法は常にタンパク質モノマー構造予測の最前線を走っていました。CASP 15では、 DI-TASSERアルゴリズムはマルチドメイン評価にも参加し、その総合精度は参加したすべての研究グループよりも優れていました。 タンパク質複合体の構造を予測する手法DMFold 複雑な構造を予測する際の主な課題は、共進化情報を使用して分析できる 2 つのタンパク質間の相対的なねじれを予測することにあります。 例えば、2つのタンパク質の多重配列アライメント(MSA)を構築し、いくつかのリンク技術を用いて1つのMSAに統合することで、2つのMSA間のアミノ酸の共進化関係から、異なるタンパク質間のアミノ酸距離を推定することができます。さらに、共進化情報をディープラーニングフレームワークに統合することで、2つのタンパク質間の相対的なねじれを予測することも可能です。 これに対し、鄭偉教授の研究グループは、より深い多重配列アライメントを構築するためのDeepMSAアルゴリズムとMetaSourceアルゴリズムを開発しました。さらに、ディープラーニングとメタゲノミクスを用いてタンパク質複合体の構造を予測するためのDMFoldアルゴリズムも開発しました。 上の画像の右端の例では、上が実験解析によって得られた実際の構造、左下がDMFoldによって予測された構造、右下がAlphaFold 2によって予測された結果を示しています。AlphaFold 2によって予測された構造は非常に混沌としており、異常な触手のような伸長が見られます。一方、DMFoldによって予測された構造は実験構造と非常に類似しており、複雑な構造の予測においてDMFoldアルゴリズムがAlphaFold 2よりも優れていることを示しています。 さらに、DMFoldは、大規模なタンパク質-タンパク質複合体、ナノボディ-抗原複合体、そして点変異によって引き起こされる構造変化においても高い精度を示しました。CASP 15コンペティションでは、 DMFoldの総合ランキングはAlphaFold 2を大幅に上回り、CASP 16でもDMFoldはAlphaFold 3を上回りました。 RNA-RNA複合体の構造を予測する手法ExFold 近年、チームはRNA構造予測の問題に着目し始めています。例えば、Transformerなどの深層学習モデルやRNA大規模言語モデルを用いて、RNA/RNA複合体の構造を予測するExFoldアルゴリズムを開発しました。 下の画像の右側の例に示すように、灰色の領域は実験構造、色付きの領域は予測構造を表しています。ExFold法は2つの構造間の良好なアライメントを実現していることがわかります。一方、AlphaFold 3は2つのRNA分子が接触すら形成しないと予測しており、これはほぼ完全に誤りであると考えられます。 研究チームは、より大規模なデータセットを用いて、ExFoldとAlphaFold 3の予測精度を比較しました(下図の左側を参照)。Y軸はExFoldの予測精度、 X軸はAlphaFold 3の予測精度を表しています。ExFoldの優位性が顕著であることがわかります。 また、CASP 16 RNA複合体構造予測コンペティションでは、 ExFoldは総合1位にはならなかったものの、全自動アルゴリズム(サーバーアルゴリズム)の中で最高位を獲得しました。
DeepProtNA は、タンパク質-RNA 複合体の構造を予測する方法です。 タンパク質-RNA複合体の構造予測という問題に対して、研究チームはTransformerなどのディープラーニングモデルと最近人気の大規模言語モデルを活用し、DeepProtNAという新しい構造予測アルゴリズムを開発しました。 下図右側の例に示すように、抗体-RNA複合体において、色付きの領域はDeepProtNAによる予測結果、灰色の領域は実験構造を表しています。アライメント後、 DeepProtNAの予測構造は実験構造と非常によく重なり合っていることがわかります(灰色と色付きの領域が重なっています) 。特に抗体タンパク質と抗原RNAの界面では、予測精度が非常に高くなっています。一方、AlphaFold 3の予測構造は実験構造とほとんど重なっていないため、予測性能は低いことがわかります。 さらに、 DeepProtNA は予測精度において AlphaFold 3 を約 7.5 パーセントポイント上回り、CASP 16 サーバー グループ コンペティションで 1 位を獲得しました。 生体高分子のアロステリック構造を予測する手法、EnsembleFold チームは、生体高分子のアロステリック構造予測という問題にも焦点を当てています。高分子のマルチコンフォメーション問題への入力はタンパク質配列であり、出力はそのタンパク質の異なる状態における複数のキーフレームです。これは、静的予測アルゴリズムと比較して、単一のアミノ酸配列から複数の異なる構造を予測する必要があり、これらの構造は動的プロセス全体を通してキーフレームとなることを意味します。これは現在多くの注目を集めているトピックですが、予測が非常に困難なものでもあります。 研究グループは、以前に開発された手法を統合し、高分子のアロステリック問題に合わせて最適化することで、いくつかのクラスタリング アルゴリズムを開発し、最終的に EnsembleFold と呼ばれるアルゴリズムを形成しました。 下図の右側の例は、タンパク質が小分子と結合した後の構造変化を示しています。青は小分子が結合していない実験構造、赤は緑の小分子が結合した後の傾斜とアロステリック変化を表しています。研究チームは、入力されたタンパク質配列(黒色部分)に基づいて2つの構造を予測しました。EnsembleFoldによって予測された小分子結合なしの構造は実際の構造と非常によく一致しており、結合後もEnsembleFoldは実験構造に非常によく適合していることがわかります。したがって、 EnsembleFoldは生体分子のアロステリック変化の予測において非常に高い精度を示しています。 一方、 EnsembleFoldはAlphaFold 3と比較して約12.4%高い精度を示しました。CASP 16におけるすべての高分子コンフォメーションコンペティションで1位を獲得しました。 興味深い例として、研究チームがCASPにおけるバクテリオファージDNAインテグラーゼの構造変化を予測した例があります。下図に示すように、バクテリオファージのアミノ酸配列はP-P'で表され、細菌の遺伝物質配列はB-B'で表されます。バクテリオファージDNAインテグラーゼは動的なプロセスを通じて、バクテリオファージの遺伝物質P'を細菌の遺伝物質Bに統合し、B-P'を形成することで構造変化を引き起こします。 研究チームは、この複数の構造変化を予測するためにアルゴリズムを用いた。実験構造は左側に示されており、上が未結合状態(構造1)、下が結合状態(構造2)である。ご覧のとおり、研究チームの予測はこれら2つの異なる構造を正確に反映している。 CASP 16コンペティションでは、参加者は配列情報のみを受け、具体的な生物学的プロセスや構造変化については知らされていなかったことは特筆に値します。しかし、鄭偉教授率いるチームは予測を通して生物学的プロセス全体を再構築することに成功し、コンペティション後の総括において審査員を驚かせました。 研究グループ募集南開大学統計・データサイエンス学院の鄭偉教授は、長年にわたりタンパク質などの生体高分子の構造、機能、相互作用の予測に取り組んできました。タンパク質単量体、タンパク質複合体、核酸とその複合体、タンパク質-核酸複合体の構造予測において、AlphaFold2/3を上回る精度を誇る複数のアルゴリズム、および構造評価アルゴリズムの開発を主導しました。世界タンパク質構造予測コンテスト(CASP)の数々の大会(CASP13-16)で複数回の優勝を果たし、世界中の80以上の学術研究グループや産業界の研究グループを率いています。 南開大学統計・データサイエンス学院の鄭偉教授率いるバイオインフォマティクスチームは、新メンバーを募集しています。計算構造生物学、バイオインフォマティクス、データサイエンスにご興味のある方、修士課程、博士課程、ポスドク課程を問わず、鄭偉教授のチームへの参加を心よりお待ちしております。 興味のある学生は、以下の方法で Zheng Wei 教授に連絡できます。
|
南開大学の鄭偉教授:AlphaFoldはまだ完璧ではなく、学術界にはまだ「曲線で追い抜く」チャンスがあります。
関連するおすすめ記事
-
DeepSeek-R1搭載国産AI検索エンジン徹底検証レポート初見:公式オンライン検索エンジンが使えなくて不安だった矢先に…
-
EU、中国製電気自動車に高関税を課すことを決議!BBA(BMW、メルセデス・ベンツ、アウディ)主導の反対運動は失敗し、テスラも影響を受けた。
-
四川大学の卒業生が転職することでこの傾向に逆らう。テスラのFSDハードウェアの責任者だったが、好景気の時期にアマゾンのL4企業に転職した。
-
今年 10 月 24 日の AI に関する興味深い観察結果。
-
Huawei版ロールスロイスが100万元で発売開始。2万元の頭金が必要!Yu Chengdong氏がL3「ベース」グレードの詳細を公開。
-
信頼できるオープンソースと業界の進歩を共に – 2024年OSCARオープンソース業界カンファレンスが正式に開始