|
あらゆる生体分子の構造と相互作用を「原子レベルの精度」で予測できるAlphaFold 3は、発売以来、業界で大きな議論を巻き起こしています。8月13日、上海交通大学で開催されたAIバイオエンジニアリングサマースクールにおいて、鍾博子涛博士は「AlphaFold 3:原理、応用、そして展望」と題した講演を行いました。博士は自身の学習経験を体系的にまとめ、科学界における数多くの関連研究成果を幅広く収集し、AlphaFold 3への深い洞察を共有しました。HyperAIは、講演の核心部分を原文の趣旨を変えることなくまとめました。以下は講演の書き起こしです。 鍾博子涛博士の共有セッション 今日はタンパク質構造予測に焦点を当て、AlphaFold 3 についてお話します。タンパク質構造、さらにはより広い意味での構造予測における現在の主要ツールとして、 AlphaFold 3 の地位は明らかです。 タンパク質合成はDNA転写から始まり、遺伝情報はRNAに伝達されます。RNAはタンパク質へと翻訳され、さらに二次、三次、四次構造へと折り畳まれます。ほとんどのタンパク質は独自の立体構造に折り畳まれ、これらの構造に必要な情報はアミノ酸配列にコードされています。これは一般的に「配列が構造を決定し、構造が機能を決定する」と言われています。タンパク質構造予測は、生物学的機能を理解する上で極めて重要です。 AlphaFold 3のブレークスルー:モデルアーキテクチャの革新とデータ利用の向上AlphaFold 3とAlphaFold 2のモデルアーキテクチャの比較AlphaFold 2は、これまでタンパク質構造予測において他のアルゴリズムをはるかに凌駕する性能を発揮してきました。そのコアアーキテクチャは、下図に示すように、3つの主要な部分に要約できます。最初の部分であるMSA & テンプレートモジュール(青枠)は、モデルの入力データとして、多重配列アライメント(MSA)とテンプレート構造情報を収集・統合します。2番目の部分であるEvoformerモジュール(緑枠)は、多重配列構造における共進化情報を理解し、収集した情報を精緻化・処理した後、3番目の部分である構造モジュール(紫枠)に渡します。 ディープラーニングの観点から見ると、Evoformerはエンコーダーの役割を担い、Structure Moduleはデコーダーに相当します。この点において、 AlphaFold 2が高く評価されている理由は、主にエンドツーエンドの最適化機能、つまり配列入力から構造出力への直接マッピング機能にあります。 AlphaFold 3のモデルアーキテクチャにおける変更は、想像ほど大きくないと広く考えられています。そのモデルフレームワークも3つの主要部分で構成されており、各部分をAlphaFold 2と比較すると以下のようになります。 パート1:高い類似性の維持 下の図に示すように、AlphaFold 3 と AlphaFold 2 のアーキテクチャ図を比較すると、AlphaFold 3 の最初の部分 (青いボックス内) には依然として MSA とテンプレートが含まれており、さらにコンフォーマー生成ステージが導入されていることがわかります。 パート2:MSAシーケンスへの依存を減らす AlphaFold 3の2番目の部分(緑色の枠内)はPairformerと名付けられています。その構造は基本的にEvoformerと非常に似ていますが、MSAモジュールの数が4つに削減されています。下の図に示すように、緑色の矢印は両方のモジュールで同じ内容を示し、黄色の矢印は異なる内容を示しています。AlphaFold 3は標的タンパク質配列をより重視し、MSA配列への依存を低減していることがわかります。 さらに、AlphaFold 3が複数のタスクにわたって優れたパフォーマンスを発揮しているのは、多重配列アライメント(MSA)への依存度が低いためだと考えられます。下の図の右側は、MSAがAlphaFold 2のパフォーマンスに与える影響を示しています。MSAの数が増えるにつれて、AlphaFold 2のパフォーマンス向上は一定の閾値(ピンクの線)を超えると停滞します。図の中央部分を見ると、AlphaFold 2と比較して、AlphaFold 3に対するMSAの影響は弱まっています(曲線の変動が非常に小さい)。 さらに、抗体の成熟には生体内での超変異プロセスがしばしば必要となるため、MSA情報はその構造予測においてあまり役に立ちません。また、タンパク質とその複合体のペアMSA情報を見つけることも困難です。この点から、AlphaFold 3の応用範囲の拡大は、MSAへの依存度が低いことに起因すると考えられます。 パート3:全原子構造の生成 + 立体回転不変性の除去 AlphaFold 3の3番目の部分(紫色の枠内)では、拡散モデルが使用されています。拡散モデルも構造モジュールのカテゴリに属します。拡散モデルとの違いは、構造モジュールにおける反復的な最適化が、拡散モデルと呼ばれる新しいメカニズムに置き換えられていることです。 *拡散モデル:モデルにノイズを追加(フォワードパス)、モデルからノイズを削除(バックワードパス)、バックワードパスプロセスを学習し、同様のデータ分布を生成します。 下図の3番目の部分に示すように、AlphaFold 3は原子レベル全体での構造生成を実現します。分子の基本構成要素である原子は、より豊富な物理情報を含んでいる可能性があるため、AlphaFold 3はタンパク質構造を予測する際に、より深い物理法則を捉えることができます。さらに、AlphaFold 3はAlphaFold 2で重視されていた立体回転不変性を放棄しました。AlphaFold 2でこの機能のための追加アーキテクチャを削除したことで、研究者は拡散モジュールの設計がより柔軟になったことを発見しました。 AlphaFold 3 はデータ利用率を向上します。 タンパク質データリソースは限られていますが、AlphaFold 3はデータセットサイズを拡大するだけでなく、データ利用率も向上させます。具体的には、AlphaFold 2の百万単位のデータセットと比較して、AlphaFold 3は億単位のデータセットに近づき、トレーニングセットのサイズを大幅に拡大しています。さらに、トレーニングセットには、PDBデータに加えて、AlphaFold 2から比較的正確な予測が得られた構造データなど、大量のデータがトレーニングセットの拡張として組み込まれています。具体的なトレーニングセットを下図に示します。 AlphaFold 3 は、その応用範囲において大きな飛躍を表しています。AlphaFold 3の最大の変更点は、応用範囲の飛躍的な拡大です。AlphaFold 2は主にアミノ酸構造を予測していましたが、AlphaFold 3は原子レベルの構造を直接予測できます。この機能拡張は、具体的には以下の4つの側面に反映されています。
AlphaFold 3 はリガンド ドッキングの状況を変えています。中でも、AlphaFold 3が科学分野にもたらした最も大きな影響は、リガンドドッキングタスクにおける改善です。下図に示すように、PostBusters Benchmarkベンチマークを用いて、4つの異なるリガンドドッキングタスクにおける様々なディープラーニングアルゴリズムの成功率を評価しました。AlphaFold 3は、未知のポケットや事前の構造知識がある状況でも、76.4%という最高の成功率を達成していることがわかります。 PostBusters Benchmark は、2021 年以降の 428 個の PDB データ ポイントを選択しました。 ミッション成功の基準は、予測された小分子のドッキング位置と実際のドッキング位置の偏差が 2 Å 未満であることです。 上の図に示すように、ポケットの位置は不明でタンパク質の構造はわかっている最初のタイプのブラインド ドッキング タスク (ポケットなし、ホロ構造) では、DiffDock は 37.9% という最高の成功率を達成しています。 ポケットの位置とタンパク質構造が不明な2つ目のタイプの共折り畳みタスク(低分子とタンパク質構造の両方が折り畳まれるタスク)では、ポケットの位置とタンパク質構造が不明な場合(ポケットなし、構造なし)、AlphaFold 2 + DiffDockを使用した予測成功率は18%に低下しました。対照的に、AlphaFold 3は76.4%という最高の成功率を達成しました。これは、AlphaFold 3が正確な予測を行うだけでなく、ポケットと構造に関する事前知識に依存しないことを示しています。 3つ目の従来のドッキングタスクでは、小分子のポケットの位置とタンパク質構造が既知(ポケットあり、ホロ構造)の場合、つまりポケットが露出している場合、Goldは51.2%の成功率を達成し、Vinaは52.3%の成功率を示し、Glideは55%まで向上しました。他のディープラーニングアルゴリズムも比較的良好な結果を示しており、ポケットが成功率に影響を与えることが示されています。 4番目のタイプのガイド付きコフォールディングタスクでは、ポケットの位置が既知でタンパク質構造が未知(ポケットあり、構造なし)の場合、モデルの成功率が大幅に向上しました。AlphaFold 3は76.4%から90.2%に向上し、ポケット情報が既知であればタスクの成功率が向上することを示しています。ただし、ポケットの定義は現在議論の的となっているため、リガンドドッキングタスクにおけるAlphaFold 3の具体的な改善を理解するには、結果が比較的安定している2番目のタイプのタスクの成功率のみを考慮する必要があります。 下の図に示すように、異なるモデル間でポケットの定義に大きな違いがあります。Goldのポケットは25Åの球体(図の左上の青い部分)ですが、Vinaモデルでは25Åの立方体をポケットとして使用しています。DeepDockのポケットは10Å、Uni-Molのポケットは8Åです。 上の画像の右側に示されているように、GoldモデルのPoseBustersベンチマークテストの成功率は、ポケットサイズが25Åから6Åへと徐々に減少しても比較的安定していました。これは、Goldの物理アルゴリズムベースの性質によるものです。一方、ディープラーニングアルゴリズムUni-Molの成功率は、ポケットサイズが6Åへと徐々に減少するにつれて68%まで上昇しましたが、25Åでは0%に低下しました。これは、一部のディープラーニングドッキングアルゴリズムがポケットサイズに依存していることを示しています。 同様に、前述の通り、AlphaFold 3はポケット情報の導入後にドッキング成功率を大幅に向上させ、76.4%から90.2%に増加しました。まとめると、ポケット情報はモデルの予測成功率向上に重要な役割を果たします。しかし、理想的には、ポケット情報や構造情報なしで高い精度を達成するモデル、例えばAlphaFold 3が最適な選択肢です。 AlphaFold 3 は抗体と抗原の構造予測を可能にします。AlphaFold 3のもう一つの応用は、抗体と抗原の構造予測です。下の図の左側は、抗体と抗原の構造予測におけるAlphaFold 3の性能評価を示しています。低い評価基準(DockQ>0.23)では、1回の実行ではAlphaFold 3の予測成功率は40%未満(水色の線)ですが、1,000回の試行では予測成功率は60%まで向上します。
さらに、より厳格な基準(DockQ>0.8)で測定した場合、1回の実行では成功率が10%程度にまで低下する可能性がありますが、実行回数を1,000回に増やすことで成功率は30%まで向上します。これは、AlphaFold 3の実行回数(ターゲットあたりのシード数)を増やすことで、抗体抗原構造予測の成功率を向上させることができることを示しています。 しかし、上図の右側に示すように、AlphaFold 3はタンパク質-タンパク質複合体の構造予測において、実行回数を増やすことでのみ成功率を向上させることができます。これは、AlphaFold 3を他の種類の複合体構造予測に適用するには、さらなる最適化が必要であることを示しています。 AlphaFold 3は共有結合修飾の予測を実現下図に示すように、AlphaFold 3は修飾予測においても優れた構造予測能力を示し、約80%、60%、40%の成功率を達成しています。共有結合修飾を研究する研究者にとって、AlphaFold 3は間違いなく強力なツールです。 RNA構造予測におけるAlphaFold 3の限界現在、RNA構造予測は依然として課題が残っています。下図に示すように、AlphaFold 3はRoseTTAFoId2NAモデルと比較して予測性能が大幅に向上しています。しかしながら、CASP15 RNA構造予測においては、AlphaFold 3の精度はAlchemy_RNA2(ヒト入力あり)モデルよりも低くなっています。 AlphaFold 3の長所と短所をさまざまなタスクで比較するAlphaFold 3のトレーニング曲線を分析することで、様々なタスクにおけるモデルのパフォーマンスを明確に把握できます。LDDTスコアが高いほど、モデルのパフォーマンスが良いことがわかります。下図に示すように、このモデルはリガンド内構造の予測において最高のパフォーマンスを発揮し、タンパク質内構造の予測においても高い精度を示しています。また、DNAの安定した二重らせん構造のおかげで、DNA内構造の予測においても優れたパフォーマンスを発揮しています。一方、RNA内構造の予測においては、このモデルのパフォーマンスは低いです。 複合体予測の分野に目を向けると、本モデルはタンパク質-リガンド複合体の構造予測において最も優れた性能を示し、次いでタンパク質-タンパク質複合体の予測に優れていました。タンパク質-DNA複合体の予測では性能が低下し、タンパク質-RNA複合体の予測では最も低い性能を示しました。この結果は、RNA構造予測の難しさを反映しています。RNAの構造データは乏しく、その構造は動的かつ柔軟であり、構造生物学における現在の課題の一つとなっています。 さらに、AlphaFold 3 を構造予測に使用する場合、研究者はPAE テーブルを使用して予測結果の信頼性を評価することもできます。 AlphaFold 3は完璧ではないAlphaFold 3は完璧ではありません。例えば、キラリティーを誤認する可能性があります。動作中に異常な状況が発生した場合は、複数回実行して結果の安定性を確認することをお勧めします。また、AlphaFold 3はタンパク質の動態予測にも限界があり、これは構造データの不足とタンパク質の多次元的な構造情報を把握できないことに起因する可能性があります。 生成モデルに共通するもう一つの問題は、幻覚です。下のタンパク質構造予測結果に示されているように、左側のタンパク質構造のうち、灰色の領域のみが解像可能であり、残りの部分は電子密度不足のために未折り畳み状態にある可能性があります。中央の画像は、同じタンパク質に対するAlphaFold 2の予測結果を示しています。青色の領域は折り畳まれているとみなされ、その他の「リボン」部分は未折り畳み状態とみなされているため、比較的妥当な予測構造が得られています。右の画像はAlphaFold 3の予測結果を示しています。AlphaFold 3は、折り畳み可能な領域をすべて折り畳む傾向があります。構造は妥当に見えますが、実際にはこれらの領域のほとんどは折り畳まれていません。そのため、AlphaFold 3の幻覚は、タンパク質が未折り畳み状態である可能性を維持するのではなく、折り畳まれていると予測する傾向があります。 AlphaFold 3の錯視問題に対処するため、研究者たちは直接的かつ効果的なアプローチを選択しました。AlphaFold 2の予測は比較的妥当であったため、それをAlphaFold 3のトレーニングデータセットに組み込み、モデルのトレーニング性能を向上させました。しかし、この方法には限界があります。AlphaFold 2の予測自体に欠陥がある場合、モデルをさらに最適化するための代替データソースを導入しない限り、AlphaFold 3の予測品質に影響を与える可能性があります。 さらに、256x OLA を AlphaFold 3 に入力として送信すると、下の図に示すように、予測結果には予想される典型的な構造ではない二重層のような構造が表示されます。 さらに、AlphaFold 3によるRNAとDNAの構造予測は正確ではありません。下の図に示すように、RNA構造の予測では、G:GやG:Aといった奇妙な相補的な組み合わせが生成されることもありました。 AlphaFold 3の使用制限データの機密性が厳密に要求されない限り、AlphaFold 3はGoogleが提供するウェブサイトからアクセスできます。ただし、このプラットフォームには、下図に示すように、いくつかの制限があります。タンパク質修飾に関しては、AlphaFold 3は現在、特定の3つの部位における限定された数の修飾(合計23種類)のみをサポートしています。DNA修飾は9種類、RNA修飾は15種類、金属イオンは10種類の金属のみをサポートしており、リガンドは14種類の小分子に制限されています。 したがって、上記の特定の制限を考慮すると、AlphaFold 3 はほとんどの調査と応答を処理できない可能性があり、真にオープン ソースになるまで待たなければならない可能性があります。 まとめると、AlphaFold 3は予測範囲の拡大において大きな進歩を遂げ、既存のAIモデルを凌駕しています。しかしながら、特定のタスク、特に微細構造の予測においては、依然として性能向上の余地があります。したがって、AlphaFold 3による大きな進歩にもかかわらず、特定の複雑な問題を完全に解決するには、継続的な研究と努力が必要です。 鍾伯子涛について鍾博子涛氏は現在、上海交通大学で人工知能の博士課程に在籍しています。主な研究分野は、ハイスループットタンパク質構造・機能予測、タンパク質コンフォメーション生成です。2019年以降、深海プロテオームと代謝経路の関連性を解析するためのハイスループットAlphaFold構造予測法に関するNature Communications誌への論文掲載など、20本以上の論文を発表しています。国際遺伝子工学機械コンペティション(iGEM)で3度の金メダルを獲得し、審査員を複数回務めています。 Google Scholar: |
AlphaFold 3 の徹底的な分解: 上海交通大学の Zhong Bozitao 氏: データを最大限に活用して、すべての生体分子の構造を原子レベルの精度で予測していますが、完璧ではありません。
関連するおすすめ記事
-
AIオープンソース南京共有セッションのハイライト
-
ドイツ・ミュンヘンに研究開発センターを建設中!中国のスマートビークル、ノルマンディー上陸作戦開始。
-
パラメータアクセスは不要!CMUは大規模モデルを用いて視覚言語キューを自動最適化 | CVPR'24
-
「なぜ最も強力なオープンソース CPU は中国製なのか?」シリコンバレーの著名なインフルエンサーがこの考えさせられる質問を投げかけ、50 万人のオンライン視聴者の注目を集めました。
-
賈陽清氏:大規模モデルはCNNの誤りを繰り返している。マスク氏:テスラでも同じだ。
-
クロードのチームは、清華大学出身の物理学の天才、ヤオ・シュンユを迎え入れることができて大喜びです!二人とも現在、大型模型製作に熱心に取り組んでいます。