618ZXW

上海交通大学の周秉馨博士:希少な生物学的データの課題を解決し、グラフニューラルネットワークがタンパク質の理解と生成を再構築

8月12日、上海交通大学AIバイオエンジニアリングサマースクールが正式に開校し、国内外の30以上の大学と27の企業から100名を超える業界関係者が参加しました。3日間にわたる学習・交流プログラムでは、多くの業界専門家、企業代表者、そして優秀な若手研究者が、AIとバイオエンジニアリングの融合と革新的発展に関する知見を共有しました。

12日午前、上海交通大学自然科学研究所兼上海国家応用数学センター(上海交通大学分校)の周秉馨助任研究員が「人工知能の過去と現在」と題する講演を行い、 AIの発展の歴史を生き生きと概説し、マイルストーンモデルの特徴をまとめた。

午後には、「人工知能の最先端進歩」に関する招待講演において、周秉馨博士が「グラフニューラルネットワークとタンパク質構造特性評価」についても知見を共有し、タンパク質予測・生成におけるグラフニューラルネットワークの定義、利点、そして最先端の応用について議論しました。HyperAIは、周秉馨博士の講演を原文の趣旨を変えることなく編集・要約しました。以下は講演の書き起こしです。

数十年にわたる急速な発展を経て、ディープラーニングは畳み込みニューラルネットワーク、リカレントニューラルネットワーク、トランスフォーマーなど、様々な特性を持つデータを処理できるモデルを生み出してきました。中でもグラフニューラルネットワークは、構造化されたデータを入力して処理する能力があるため、ソーシャルネットワーク、軌道予測、分子モデリングなど、様々なシナリオで広く利用されています。

しかし、グラフニューラルネットワークは単なるグラフ畳み込みネットワーク(GCN)であり、複雑な関数を当てはめることができず、多層構造では過剰な平滑化が発生し、多くの限界があると考えている人が多い。さらに、Transformerベースのモデルは大規模データセットに対して強力な学習能力を備えているにもかかわらず、なぜグラフニューラルネットワークの研究開発を続ける必要があるのだろうか?

これらの質問に答えるために、私は答えを「セクシーだ」と要約します。

最初の「S」は、グラフニューラルネットワークに基づく研究が健全かつ持続可能であることを示しています。下の図に示すように、様々な人間の行動における炭素消費量を比較すると、大規模モデルの強力な能力は膨大なエネルギー消費を前提としていることがわかります。さらに、大規模モデルへの計算資源と研究の過度な集中は、他のモデルの研究のための空間を奪ってしまいます。長期的には、計算資源を独占したり、支配的な発言力を持つ大企業だけがAIの研究開発を持続させることができ、大企業以外の研究者の研究空間は著しく制限されることになります。

2つ目の「E」は、人工知能の急速な発展によって自然科学における何世紀にもわたる蓄積が見過ごされてはならないという事実を表しています。グラフニューラルネットワークは、特徴表現の学習に加えて、人間の事前知識(帰納的バイアス)を巧みに取り込むことができます。さらに、他のデータ駆動型モデルと比較して、グラフニューラルネットワークは信号処理や社会ダイナミクスといった理論的な裏付けがより豊富です。

3つ目の「X」は、グラフニューラルネットワークがディープラーニングネットワークの解釈可能性の向上に役立つことです。人工知能の発展に伴い、モデル結果の意味と合理性への関心が高まっています。グラフニューラルネットワークの解釈可能性を深く研究することで、モデルの意思決定の背後にあるロジックと根拠をより深く理解し、モデルの信頼性と信用性を向上させることができます。

第四に、「Y」はグラフニューラルネットワークを表します。グラフニューラルネットワークは、まだ発展途上にある新しい分野であり、多くの未解決の問題や課題に直面しており、研究者にとって探求の余地が十分にあります。さらに、畳み込みニューラルネットワークが画像処理や自然言語処理における自己注意メカニズムに有用であるように、グラフニューラルネットワークは多くの生物学的問題、特に不十分なデータや事前知識の重要性を伴う問題に対しても有望な解決策を提供するでしょう。

次に、分子データとグラフ表現、古典的なグラフ ニューラル ネットワークの紹介、グラフ ニューラル ネットワークとその他の生物学的な質問という 3 つの側面から、グラフ ニューラル ネットワークの具体的な応用価値を共有します。

分子データとグラフィカルな特性評価:生物学的データのグラフィカル化の3つの要素

生物学的データをグラフ表現に変換するには、まず「グラフとは何か?その基本的な構成要素は何なのか?」という問いに答えなければなりません。一般的に、グラフにはノード、エッジ(ノード間の接続)、そしてグラフ自体(ノードとエッジで構成される完全なエンティティ)という3つの要素が含まれます。

生物学の研究対象を定義するために、これら3つの要素をどのように活用するのでしょうか?次の図は4つの例を示しています。

小さな分子(図)の場合、各原子をノードとして定義し、原子間の距離関係や化学結合関係をエッジで表すことができます。

タンパク質をアミノ酸レベルで観察すると、タンパク質全体をグラフとして捉えることができ、各アミノ酸をグラフ上のノードとして捉えることができます。異なるアミノ酸が空間的に比較的近い位置にある場合、それらの間に何らかの相関関係があると仮定し、空間的に近いアミノ酸ノードをエッジで繋ぐことができます。

同様に、タンパク質を二次構造を基本単位として観察すると、各二次構造はタンパク質グラフ内のノードと見なすことができ、隣接する二次構造または空間的に近い二次構造はエッジで接続されます。

最後に、疾患知識グラフでは、様々な疾患、遺伝子、薬剤、患者をすべてノードと見なすことができます。ノード間の接続は、特定の薬剤が特定の疾患を治療できる、あるいは特定の遺伝子が特定の疾患を引き起こすといった、ノード間の複雑な関係性を表します。

グラフを定義したら、次のステップは、ノードやエッジの特性など、グラフ上の情報をどのように記述するかを考えることです。

下の図に示すように、4つのノード間には特定の関係があります。これらの関係を正確に特徴付けるために、隣接行列Aを定義することができます。さまざまな生物学的データを処理する際に、隣接行列は、原子間に共有結合が存在するかどうかを特徴付けたり、特定のアミノ酸のk次隣接原子を特定したりするために使用できます。

さらに、各ノードとエッジには、一連の属性を関連付けることができます。アミノ酸ノードを例にとると、ノード属性には、その種類、物理化学的性質、その他の特性情報が含まれます。ノードを繋ぐ橋渡しとしてのエッジも、各エッジ上の特徴ベクトルなどの特性情報を運ぶことができます。特徴ベクトルは、2つのアミノ酸間の距離(配列距離と空間距離を含む)や、エッジ確立の根拠(空間構造や原子間の化学結合に基づくなど)を網羅しています。これらのエッジ特性は、ノード間の関係性をより詳細かつ深く理解するための視点を提供します。

要約すると、すべての構造化エンティティ (タンパク質など) は、次の図に示すようにグラフとして表すことができます。G はグラフ、v はノード、ε はエッジ、Xv はノード上の特徴、隣接行列 A はノードの接続性、Xe はエッジの特徴を表すために使用されます。

グラフの 3 つの基本要素 (ノード、エッジ、グラフ自体) に基づいて、グラフ上のベクトル表現と予測タスクは次のように分類できます。

  • ノードレベルの予測。例えば、タンパク質配列設計において、タンパク質グラフが与えられた場合、グラフ内の各ノードが表すアミノ酸の種類を予測します。
  • リンク予測。グラフとすべてのノードが与えられた場合、ノード間に関係があるかどうかを推論します。予測タスクの例としては、遺伝子制御ネットワークや薬物知識グラフなどが挙げられます。
  • グラフレベルの予測。固定されたノードとエッジのセットが与えられた場合、複数のグラフを同時に学習・分析し、各グラフのラベルを予測します。

グラフ ニューラル ネットワークとは: GCN 以外にも、GAT、GraphSAGE、EGNN などがあります。

グラフニューラルネットワークは、ノード間の接続に基づいて、各ノードの隠れ層表現を求め、各ノードにベクトル表現を割り当てます。他の種類のデータと比較して、グラフの最も重要な特徴は、どのノードが直接的な関係を持ち、その関係の強さがどの程度であるかを明確に示すことができることです。したがって、グラフニューラルネットワークの本質は、これらの帰納的バイアスを利用し、接続されたノード間のメッセージパッシングを容易にすることにあります。つまり、より近い隣接ノードが中心ノードに大きな影響を与えるのです。

次に、いくつかの典型的なグラフ畳み込みニューラル ネットワークを紹介します。

1つ目はグラフ畳み込みニューラルネットワーク(GCN)です(下図参照)。その核となるのは、GCNの各層が中心ノードの1次近傍ノードの情報を平均化し、集約された情報を中心ノードの全く新しい表現として用いることです。

式からわかるように、GCNとMLPの違いは、GCNが隣接行列を組み込み、一次近傍情報を用いてノード表現を更新する点です。さらに、情報集約時に自身の情報を強化するために自己ループを追加し、各近傍ノードの近傍数に基づいて加重平均を実行します。

  • 一次近傍: 中心ノードから他のノードに直接接続されている (つまり、単一のエッジで到達可能な) ノードを一次近傍と呼びます。

2つ目はグラフアテンションネットワーク(GAT)です。GCNと比較した場合、GATの主な違いは、近​​傍情報を集約する際の重みの計算方法にあります。GCNは隣接行列に基づいて計算された重みを使用するのに対し、GATは近傍ノードの特性に基づいて学習可能な重みを計算します。

上記の2つの手法は、入力として完全グラフを必要とするトランスダクティブ手法の典型的な例であり、計算量が増大します。この問題に対処するため、GraphSAGEは帰納的アプローチを提案します。このアプローチでは、各情報転送は中心ノードの一次近傍ノードのみを理解すればよく、集約には近傍ノード情報のサブセットのみがランダムに選択されます。

上記の3つの手法は、2次元トポロジカルグラフのノードにおける表現を更新します。後続のメッセージパッシングネットワーク(MPNN)は、これらの情報集約手法をフレームワークに統合します。しかし、多くの生物学的データ(分子など)は、3次元の空間構造も考慮する必要があります。空間情報を統合するために、等変グラフニューラルネットワーク(EGNN)を使用することができます。下図に示すように、この手法の核心は、ノード自体の特徴情報に加えて、ノード間の相対的な位置関係も導入することで、学習された表現の回転等変性と並進不変性を保証することです。

さらに、高度なグラフニューラルネットワーク設計も数多く存在します。一部の設計では、モデルの予測性能を向上させるだけでなく、効率性の向上、過平滑化の低減、マルチスケール表現の追加にも重点が置かれています。また、連続メッセージパッシングやスペクトルグラフ畳み込み法などを導入することで、グラフニューラルネットワークに特定の問題に対するより強力な表現力を提供することもできます。

グラフ ニューラル ネットワークの重要な応用例: タンパク質特性の予測や配列生成など。

次に、タンパク質表現学習におけるグラフ ニューラル ネットワークの応用について、予測モデルと生成モデルの 2 つの主なカテゴリに分けて説明します。

タンパク質の特徴の符号化と属性の予測

予測タスクでは、突然変異体特性予測、溶解度予測、サブグラフマッチングの 3 つのカテゴリを検討し、合計 4 つの作業を検討します。

突然変異予測に関する最初の研究では、下図に示すように、等変グラフニューラルネットワークを用いて、タンパク質中のアミノ酸の内部空間関係を特徴づけました。各ノードはアミノ酸を表し、ノードの位置はアミノ酸の種類、物理化学的性質、その他の特性を示しています。グラフ上のエッジは、共進化の可能性や相互作用力の影響など、アミノ酸間の関係性を反映しています。

その後、予測モデルを用いて様々な変異体をスコアリングし、タンパク質特性を最適化する可能性が最も高い高スコアの変異体の組み合わせを特定しました。この軽量グラフニューラルネットワークは、アミノ酸とその相互関係性を統合することで、トレーニングとデータコストを大幅に削減し、高性能を維持しながら小型で洗練されたモデルを実現しました。さらに、様々なタンパク質特性を用いたウェット実験により、このモデルが指向性進化の有効性と成功率を大幅に向上できることが実証されました。「軽量グラフデノイジングニューラルネットワークによるタンパク質工学」と題されたこの研究は、ACS JCIMに掲載されました。

論文の宛先:

https://pubs.acs.org/doi/10.1021/acs.jcim.4c00036

2つ目の研究は、構造コーディングの枠組みにタンパク質配列コーディングを追加することです。これは、構造情報において、隣接するアミノ酸間の相互作用は強く、離れたアミノ酸間の相互作用は極めて弱いと想定されるためです。しかし、この想定は現実を完全に反映していないため、長距離相互作用を考慮する際には、配列情報が必要となります。さらに、生物学的特性によって重視される情報は異なります。結合エネルギーや熱安定性に関しては構造情報が支配的ですが、触媒活性などの特性に関しては、アミノ酸の種類に関する情報がより重要になります。

下図に示すように、ProteinGymを用いて200以上のアッセイで実験を行い、非MSA法の中で最高の性能を達成しました。この研究は「生体活性と熱安定性の向上に向けた意味的および幾何学的タンパク質エンコーディング」と題され、eLifeに掲載されました。

論文の宛先:

https://elifesciences.org/reviewed-preprints/98033

第三の研究におけるアミノ酸レベルのコーディングモジュールは、タンパク質の配列と構造に基づく情報を統合するという点で第二の研究と一貫しています。違いは、タンパク質の長さや20種類のアミノ酸の比率分布など、事前知識に基づく様々なタンパク質レベルの情報も統合している点です。

下図に示すように、私たちはこのモデルのタンパク質溶解度予測性能をテストし、計算と実験に基づく数千のテストデータセットで最先端(SOTA)の結果を達成しました。「ProtSolM:マルチモーダル特徴を用いたタンパク質溶解度予測」と題されたこの研究は、IEEE BIBM2024(CCFクラスB会議)に採択されました。

プレプリント論文アドレス:

https://www.arxiv.org/abs/2406.19744

4つ目の課題は、タンパク質構造の局所的な類似性を探ることです。下の図に示すように、タンパク質は全体としては大きくても、その核となる部分は特定の局所的な構造的特徴にある場合があります。さらに、マクロな視点から見ると、2つのタンパク質は配列レベルや構造レベルでは全く異なるかもしれませんが、核となる機能モジュールは類似している、あるいは同じである場合もあります。

そこで、各タンパク質の局所構造を表す暗黙的な表現を求め、これらのベクトル間の類似度を計算します。構造間の1対1の類似関係を比較するだけでなく、2つの完全なタンパク質間に整列可能な局所構造セグメントが存在するかどうかも評価します。「配列情報埋め込みによるタンパク質表現学習:常にパフォーマンス向上につながるのか?」と題された本研究は、IEEE BIBM2024に採択されました。

プレプリント論文アドレス:

https://arxiv.org/abs/2406.19755

シーケンス生成

次に、タンパク質構造に適したアミノ酸配列の設計に関する2つの研究を紹介します。どちらの研究も、拡散確率モデルが中核モデルとなっています。

私たちの最初の研究は、既知のアミノ酸骨格に基づいて完全なタンパク質配列を設計し、タンパク質の性能を向上させることです。モデルの枠組みは下図に示されています。指向性進化とは異なり、数百個のアミノ酸を一度に改変することで、より多様なタンパク質配列が得られます。一方で、このアプローチは全く新しい進化の出発点を発見できる可能性があり、局所最適や負の上昇効果といった指向性進化に共通する問題を回避できます。他方、より多くのアミノ酸を改変することで、配列の類似性は低くても機能は同じタンパク質を得ることで、特許の壁を突破することが可能になります。

中温と超高温の両方で機能する2種類のアルゴノートタンパク質を鋳型として、40種類以上のタンパク質を生成しました。そのほとんどは室温でDNA切断が可能です。最適な設計は、野生型設計と比較して10倍以上の切断活性を示し、熱安定性も大幅に向上しました。「条件付きタンパク質ノイズ除去拡散によりプログラム可能なエンドヌクレアーゼを生成」と題された私たちの研究は、Cell Discovery誌に掲載されました。

プレプリント論文アドレス:

https://www.biorxiv.org/content/10.1101/2023.08.10.552783v1

2つ目の研究は、下図に示すように、アミノ酸のバックボーン構造を厳密に制限することなく、二次構造に基づいてアミノ酸の数と位置を自律的に決定します。バックボーンベースの生成手法と比較して、この粗粒度の生成条件は、生成される配列に配列の多様性をもたらすだけでなく、全く新しいタンパク質の改変や設計といった特定のニーズにも対応できます(例えば、膜貫通タンパク質の場合、膜貫通部分のみがヘリックス構造に制約されますが、その部分の長さや特定のバックボーンは厳密に制限されません)。「潜在グラフ拡散による二次構造誘導型新規タンパク質配列生成」と題されたこの研究は、ICML AI4Scienceに採択され、現在審査中です。

プレプリント論文アドレス:

https://arxiv.org/html/2407.07443v1

上で説明した 2 つの拡散ベースのタンパク質配列設計研究では、タンパク質バックボーンに基づいて配列全体を生成することも、いくつかの重要なアミノ酸とバックボーン構造を固定し、これを生成条件として使用して固定されていないアミノ酸配列を埋めることもできます。

グラフニューラルネットワークの生物学的問題への応用

従来の分子グラフモデリングに加えて、グラフニューラルネットワークは他の種類のデータや問題にも適用でき、より多くの生物学的な疑問に関する研究を推進します。以下に2つの例を挙げます。

最初の例は、生物学的社会ネットワークの分析と単純化です。人間の社会ネットワークにおける複雑な関係性と同様に、生物学的社会ネットワークにも、微生物ネットワークや遺伝子ネットワークなど、様々なレベルで探求すべき点が数多くあります。

我々は以前、遺伝子共起ネットワークを用いて社会ネットワークを簡素化した。下図に示すように、グラフaとグラフbはそれぞれ深海と高山の同じ遺伝子の異なるネットワークを表している。これらのネットワークは元々複雑で混沌としていた。人間の社会ネットワークに類似したグラフニューラルネットワークを構築することで、2つのネットワークを簡素化し、優勢遺伝子を特定し、どの遺伝子間の接続が強く、どの遺伝子間の接続が比較的弱いかを区別することができた。この簡素化されたネットワークは、生物学者が専門知識を活かしてネットワークや生物群集を解析するのに役立つだろう。この研究の初期バージョンは、「社会ネットワークにおける意見ダイナミクスを用いたニューラルメッセージパッシングの統一的視点」と題されていた。

プレプリント論文アドレス:

https://arxiv.org/abs/2310.01272

2つ目の例は、グラフニューラルネットワークに基づく解釈可能性の研究です。明確な例として、グラフニューラルネットワークは分子内の重要な局所構造の特定に役立ちます。この結果は、モデルの合理性を検証するために使用できます。例えば、タンパク質の機能を予測する場合、モデルが活性部位の近くにある重要な原子またはアミノ酸をある程度特定できれば、モデルには一定の合理性があることを示します。逆に、モデルの注目がタンパク質表面の複数のアミノ酸にランダムかつ離散的に分散している場合、モデルには問題が生じる可能性があります。一方、理想的には、合理的で堅牢な解釈可能なモデルは、機能予測における各ノードの役割を分析することで、将来的に全く新しいタンパク質のポケット領域の特定にも役立つ可能性があります。

大規模モデルは多くの応用において豊富な成功例をもたらしてきましたが、すべての問題に対する唯一の解決策ではありません。構造化データが豊富な分野であるグラフニューラルネットワークは、生物学における多くの問題に対する潜在的な解決策を提供することができます。分子、複合体、遺伝子、微生物ネットワーク、あるいはより大規模で複雑なシステムであっても、グラフニューラルネットワークは帰納的バイアスを組み込むことで、限られたデータであっても、人間の事前知識を最大限に活用し、簡潔な解決策を提供できます。

周炳信について

周炳信

周秉馨氏は現在、上海交通大学国立応用数学センター(SJTU支部)のアシスタントリサーチフェローを務めています。2022年にオーストラリアのシドニー大学で博士号を取得し、その後、英国ケンブリッジ大学の客員研究員を務めました。彼女の研究は、酵素工学、代謝遺伝子ネットワーク、プロテオーム構造の進化解析など、生物学における課題を解決するためのディープラーニング(特に幾何学的ディープラーニング)の活用に焦点を当てています。彼女が開発したディープラーニングアルゴリズムは、静的、動的、異種、ノイズの多いグラフの処理に用いられており、その一部はIEEE TPAMI、JMLR、ICML、NeurIPSなどの一流国際誌や会議で発表されています。タンパク質工学と配列設計のための彼女の汎用ディープラーニングフレームワークは、複雑なタンパク質を効果的に設計し、その活性を大幅に向上させることができ、その成果の一部はeLife、Chem. Sci.、ACS JCIMなどのジャーナルに掲載されています。

個人ホームページ:
https://ins.sjtu.edu.cn/peoples/ZhouBingxin

Google Scholar:

https://scholar.google.com/cita