618ZXW

NeurIPS 2024への投稿体験談を共有します!浙江大学のチームがDePLMモデルを用いてタンパク質の最適化を支援し、筆頭著者がオンラインでデモを発表しました。

米国工学アカデミーの外国人会員であるハリー・シャム氏はかつてこう強調した。「今日、私たちが絶対にやらなければならないことが一つあるとすれば、それは科学のためのAIだ。今日、これより重要なことは想像しがたい。今年のノーベル賞の授与は、その何よりの証拠だ。」

かつて科学者は、データを手作業で整理し、専門分野の理論に基づいて仮説を立てていましたが、今ではAIの支援により、膨大なデータに基づいて直接研究を行うことができます。AI for Scienceは研究効率を向上させるだけでなく、研究パラダイム全体を変革しました。これは特にタンパク質研究の分野で顕著です。

第5回Meet AI4Sライブブロードキャストでは、浙江大学知識エンジン研究所の博士課程学生である王澤元氏をHyperAIが招待しました。氏は、同氏のチームがNeurIPS 2024に選出された論文「拡散ノイズ除去プロセスを用いた大規模モデルにおけるタンパク質の最適化」の中から、「DePLM:プロパティ最適化のためのタンパク質言語モデルのノイズ除去」について詳細なプレゼンテーションを行いました。

AI分野のトップカンファレンスであるNeurIPSは、最も挑戦的で、最高レベルで、最も影響力のあるAI学術会議の一つとされています。今年のカンファレンスには15,671件の有効論文が提出され、昨年より27%増加しましたが、最終的な採択率はわずか25.8%にとどまり、採択された論文は学習にとって非常に貴重なものとなりました。今回の講演では、王澤元博士が、ノイズ除去タンパク質言語モデルDePLMの設計理念、実験結果、デモ運用、そして将来の展望について詳細に説明しました。また、トップカンファレンスへの投稿経験についても共有し、皆様の参考になれば幸いです。

具体的には、論文を提出する際には、トピックの選択、革新的な点、論文の執筆、学際的なレビューへの対応などの側面から始めることができると述べました。

まず、トピックの選択という点では、トップカンファレンスの論文を幅広く読むことで、コミュニティにとって現在関心が高く意義のある研究の方向性を理解することができます。例えば、DePLM論文を準備する際に、Wang博士は、タンパク質工学、特にタンパク質予測タスクが昨年のICLRとNeurIPSカンファレンスでホットな話題であったことを発見しました。

第二に、イノベーションに関して、彼は問題発見能力を養うことが非常に重要だと考えています。AI for Scienceの分野では、まず科学分野の知識を深く理解し、それをAI分野のコンテンツと比較することで、AIがまだ探求していない空白領域を見つけることが重要です。

論文執筆に関しては、論文が分かりやすいものになるよう、論理的に明確で適切な詳細さを盛り込む必要があると述べた。また、自身の固定観念に陥らないよう、指導教員やクラスメイトと積極的にコミュニケーションを取ることも重要だと付け加えた。

最後に、AI for Science論文は、AI技術に重点を置く査読者と、科学応用に重点を置く査読者という2種類の異なるタイプの査読者によって査読される可能性があることを考慮すると、論文執筆時には論文の中核となるポジショニングを明確にする必要があります。つまり、論文がAIコミュニティ向けなのか、科学コミュニティ向けなのかを明確にし、それに応じて論理的な枠組みを構築することで、論文内容がトピックと密接に関連していることを確認する必要があります。

彼の見解では、大規模モデル研究の現在の傾向は変化している。既存のモデルを単純に採用するのではなく、より深く理解することへと移行している。以前は大規模モデルを様々な下流タスクに適応させていたが、今では下流タスクが大規模モデルの事前学習段階とどのようによりうまく連携するかに重点が置かれている。両者の適合度が高ければ高いほど、モデルのパフォーマンスは向上する。

例えば、従来の単純なファインチューニング手法は、適応的景観を予測する際の一般化において性能が低いという問題があります。そのため、大規模モデルと教師なし学習パラダイムをより深く理解し、その欠点を特定して改善する必要があります。さらに、モデルの性能を最適化するためにモデルのバイアスを取り除く手法を探求するなど、大規模モデルに固有の限界にも注意を払う必要があります。

このモデルはオープンソースであり、テスト可能です。

本日は、NeurIPS 2024で発表した論文をご紹介したいと思います。この論文では、拡散ノイズ除去モデルがタンパク質の大規模言語モデルの最適化にどのように役立つかを検討しています。本論文では、タンパク質言語モデルによって捕捉された進化情報を、対象特性に関連する情報と関連しない情報の混合物として扱う、新しいノイズ除去タンパク質言語モデル(DePLM)を提案します。関連しない情報は「ノイズ」として扱われ、除去されます。提案されたランキングベースのノイズ除去プロセスは、強力な一般化能力を維持しながら、タンパク質の最適化性能を大幅に向上させることが分かりました。

現在、DePLMはオープンソースです。モデルの設定環境が複雑なため、 HyperAIウェブサイトに「DePLM:ノイズ除去言語モデルによるタンパク質の最適化(小規模サンプル)」というチュートリアルを公開しました。皆様がより深く理解し、再現できるよう、DePLMモデルの実行方法、関連する設定ファイル、モデルの拡散ステップの微調整方法、そしてご自身のデータセットでDePLMモデルを実行する方法について説明します。
DePLMオープンソースアドレス:

https://github.com/HICAI-ZJU/DePLM
DePLMチュートリアルアドレス:

https://go.hyper.ai/MDFUr

背景: 進化情報を最大限に活用し、データ バイアス信号の導入を最小限に抑えます。

本稿では、20個のアミノ酸が結合して構成される生体高分子であるタンパク質に焦点を当てます。これらのタンパク質は、体内で触媒、代謝、DNA複製などの機能を担い、生命活動の主役を担っています。生物学者は通常、タンパク質の構造を4つのレベルに分類します。第1レベルはタンパク質の構成を記述し、第2レベルは共通のαヘリックスやβシートといったタンパク質の局所構造を記述し、第3レベルはタンパク質の全体的な三次元構造を記述し、第4レベルはタンパク質間の相互作用を考慮します。

現在、AIとタンパク質の研究の多くは、自然言語処理研究に遡ることができます。これは、両者の類似性によるものです。例えば、タンパク質の四次構造は、自然言語の文字、単語、文、段落と相関関係にあります。文に文字の誤りがあると、その文は意味を失います。同様に、タンパク質のアミノ酸の変異は、タンパク質が安定した構造を形成できなくなり、その結果、機能を失う可能性があります。

下図に示すように、「言語モデルを用いた制御可能なタンパク質設計」という論文では、研究者らが自然言語をタンパク質にマッピングしました。このアプローチは研究者の間で広く認知され、2020年以降、タンパク質研究は爆発的な成長を遂げています。
原著論文:
https://www.nature.com/articles/s42256-022-00499-z

本日議論する問題は、AI + タンパク質最適化です。これは、タンパク質のアミノ酸配列が期待どおりに機能しない場合に、目的の機能を実現するためにどのように調整するかという問題です。

自然界では、タンパク質はランダムな変化(挿入、欠失、点突然変異など)を通じて継続的に最適化されています。生物学者はこのプロセスを模倣しようと試み、タンパク質を最適化するための指向性進化やディープミューテーションスキャンといった手法を提案してきました。しかし、これらの手法は多くのリソースを必要とします。そこで私たちは、タンパク質とその適応度特性の関係をシミュレーションする計算手法、つまり適応度地形を予測する計算手法を用いています。これはタンパク質の最適化に不可欠です。

この問題をモデル化するには、通常、データセット、評価指標、計算手法を用います。下図に示すように、タンパク質最適化データセットには通常、野生型配列xwt、複数の変異ペアμi、および変異後の予測適応度スコアyiが含まれています。モデル評価は主にスピアマンの相関係数に依存します。この指標は、特定の予測値ではなく、変異によって引き起こされる適応度スコアの変化の順位付けに焦点を当てています。実際の変異R(Y)が予測適応度スコアの順位付けに近いほど、モデルの学習効率は高くなります。

計算手法は、教師あり学習と教師なし学習に大別できます。教師あり学習はラベル付きデータを用いて損失関数を最適化することでモデルを学習し、適応度予測能力を向上させます。一方、教師なし学習はラベル付きデータを必要としません。代わりに、適応度とは無関係な大規模なタンパク質データセットを用いて自己教師学習を行います。モデルは一度学習するだけで、様々なタンパク質予測タスクに一般化できます。

例えば、マスク言語モデリングは教師なし学習手法です。モデルを学習させる際には、汚染されたシーケンスを与える必要があります。これは、単語をマスクする(下の画像の赤い枠で示すように)か、ランダムに別の単語に変更することで実現でき、言語モデルが元のシーケンスを復元できるようにします。NeurIPS 2021で発表された論文で、研究者たちは、このようなモデルがタンパク質変異の確率と適応度ランドスケープの間に一定の相関関係を予測することを発見しました。この問題に対処するため、彼らは下の画像の右側に示すように、4つの変異スコアリング式を設計しました。
原著論文:
https://proceedings.neurips.cc/paper/2021/file/f51338d736f95dd42427296047067694-Paper.pdf

まとめると、教師あり学習法は性能は優れているものの、一般化能力は限られているのに対し、教師なし学習法はやや劣るものの、一般化能力は高いということになります。両者の利点を組み合わせるために、下の図に示すように、NLP分野の事前学習+微調整戦略を借用しました。いくつかの実験を行った結果、この手法は性能は優れているものの、一般化能力は教師あり学習と同様に低いことがわかりました。そこで、教師なし学習法が優れた一般化能力を持つ理由を分析し、この能力は進化情報(EI)に由来すると仮定しました。これは、生物が自然進化を通じてタンパク質を最適化でき、これらの進化的突然変異が保存されるためです。したがって、突然変異確率は適応度地形と正の相関関係にあると考えました。

しかし、モデルの微調整を試みた際、実際には埋め込み情報を利用しており、進化情報を十分に活用していませんでした。さらに、ウェット実験データには無関係な情報によるバイアスが含まれていました。進化情報は、安定性、活性、発現、結合など、様々な方向からの包括的な情報を包含していると考えています。タンパク質の安定性を最適化する際には、活性、発現、結合の​​進化は無関係になります。この無関係な情報の確率値を除去することで、モデルの性能を向上させることができ、プロセス全体が尤度空間内で行われるため、モデルの一般化能力に影響を与えません。したがって、微調整においては、データセットからのバイアス信号の導入を最小限に抑えながら、進化情報を最大限に活用する必要があります。

DePLMアルゴリズムフレームワーク:ソート空間に基づくノイズ除去モデル

これに基づき、DePLMモデルを提案する。その核となる考え方は、タンパク質言語モデルによって捕捉された進化情報を、関心のあるシグナルと関心のないシグナルの融合として扱うことである。後者は、対象属性の最適化タスクにおいて「ノイズ」とみなされ、除去する必要がある。DePLMは、属性値の順序付け空間における拡散プロセスを通じて進化情報のノイズ除去を行い、モデルの汎化能力を高め、突然変異の影響を予測する。

タンパク質のアミノ酸配列が与えられた場合、モデルは各位置における様々なアミノ酸への変異の確率を予測します。この進化尤度は、デノイジングモジュールによって注目特性の尤度を生成するために用いられます。具体的には、 DePLMは主に順方向拡散プロセスと学習ベースの逆方向ノイズ除去プロセスの2つの部分で構成されています。順方向プロセスでは、少量のノイズが真の状況に徐々に追加されます。逆方向ノイズ除去プロセスでは、モデルは蓄積されたノイズを徐々に除去し、真の状況を復元することを学習します。

下図に示すように、DePLMはESMシリーズをベースとし、Transformerアーキテクチャを採用しています。DePLMのデノージングモジュールは拡散プロセスに基づいて学習されます。ネットワークアーキテクチャは、特徴エンコーダとデノージングブロックで構成されています。特徴エンコーダは、タンパク質言語モデルから配列特徴を抽出し、ESM 1vモデルから構造特徴を抽出します。デノージングブロックは、これら2種類の特徴をアンカーとして、複数回の反復的なノイズ除去を行い、デノージングされた尤度を取得します。

従来、ノイズ除去手法は主に画像生成分野、特に拡散モデルに適用されていました。下図に示すように、元画像x0は、事前定義されたノイズ付加プロセスを経て、ガウス分布に近いノイズ空間(xT)に変換され、その後、モデルは逆ノイズ除去プロセスを学習します。

しかし、画像ノイズ除去モデルをタンパク質領域に直接適用するには、いくつかの課題があります。上図に示すように、画像ノイズ除去モデルはランダムノイズを組み込むことで、分離不可能なノイズ空間(x0からxTまで)を作成できます。しかし、タンパク質は適応度スコアと進化尤度を持ち、初期状態と最終状態は固定されています。そのため、ノイズ追加プロセスは慎重に設計する必要があります。さらに、モデルは適応度スコアに追従する傾向があるため、性能は良好ですが、汎化能力は低くなります。

したがって、ランキング空間に基づくノイズ除去モデルを提案し、ランキング関連性の最大化に重点を置きます。これは、対象となる特性空間への進化尤度をノイズ除去したいためです。その特性空間の詳細は不明ですが、そのランキングが適応度ランキングと整合していることは分かっています。

この空間にノイズを追加することで、モデルが大規模なデータセットから学習し、適応度スコアに直接合わせるのではなく、ノイズ除去された尤度がどのようになるかを徐々に理解できるようになります。 この順方向ノイズ追加プロセスでは、各ソートステップを最終状態に近づけ、ランダム性を組み込んだソートアルゴリズムを使用します。 モデルは逆のステップワイズソートの概念も学習します。 具体的には、下の図に示すように、xt-1 がある場合、ソートアルゴリズム xt-1 と xT を入力して複数のソートを実行できます。 ステップ t でのソート空間を取得した後、ステップ t からソート変数をランダムにサンプリングして、モデルがステップ t+1 からステップ t までの尤度を予測し、スピアマン損失を計算できるようにします。 画像のノイズ除去のように多くのステップを追加する必要がないため、ソートプロセスは通常 5~6 ステップで完了し、効率が向上します。

実験的結論: DePLM は優れたパフォーマンスと強力な一般化能力を示します。

タンパク質工学タスクにおけるDePLMの性能を評価するため、ProteinGym、β-ラクタマーゼ、GB1、蛍光データセットを用いて、ゼロから学習したタンパク質配列エンコーダーおよび自己教師モデルと比較しました。結果は下図に示されています。DePLMはベースラインモデルを上回りました。比較の結果、高品質の進化情報を用いることで、微調整後の結果が大幅に改善されることがわかりました。これは、提案するノイズ除去学習プロセスの有効性を実証し、タンパク質工学タスクにおいて進化情報と実験データを統合することの利点を裏付けています。

タンパク質工学タスクにおける DePLM とベースライン モデルの最高のパフォーマンスと 2 番目に優れたパフォーマンスは、それぞれ表内で太字と下線で強調表示されています。

次に、DePLMの汎化能力をさらに評価するため、ProteinGymはDMSデータセットを、測定対象となるタンパク質特性(安定性、適応度、発現、結合、活性)に基づいて5つのクラスに分類しました。そして、他の自己教師ありモデル、構造ベースモデル、教師ありベースラインモデルと比較しました。下図に示す結果は、DePLMがすべてのベースラインモデルよりも優れていることを示しています。これは、フィルタリングされていない進化情報のみに依存するモデルの限界を示しています。こうしたモデルでは、複数の目的を同時に最適化することで、目標特性が希薄化されることがよくあります。DePLMは、無関係な要因の影響を排除することで、パフォーマンスを大幅に向上させます。

一般化能力評価における最良および次善の結果は、それぞれ表内で太字および下線で示されています。

汎化性能をさらに分析し、属性に無関係な情報を除外することの重要性を判断するために、学習用とテスト用のプロパティ間でクロスバリデーションを実施しました。下図に示すように、ほとんどの場合、モデルをプロパティAで学習し、プロパティBでテストした場合、同じプロパティ(つまりA)で学習およびテストした場合と比較して性能が低下します。これは、異なるプロパティの最適化方向が一貫しておらず、相互干渉が生じていることを示しており、当初の仮説を裏付けています。

さらに、他の特性データセットでの学習とBindingデータセットでのテストにより、モデルのパフォーマンスが向上することがわかりました。これは、Bindingデータセットのデータ量が限られており、データ品質が低いため、汎化能力が不十分だったことが原因である可能性があります。これは、新しい特性を持つタンパク質を最適化する際に、その特性に関連するデータセットが少ない場合は、ノイズ除去と学習に関連特性を持つデータを使用することで、より優れた汎化能力が得られることを示唆しています。

タンパク質の分野をさらに深く探求し続ける

今回のライブ配信のゲストスピーカーは、浙江大学知識エンジン研究所の博士課程学生、王澤源氏です。陳華軍教授、張強研究員らが率いる彼のチームは、知識グラフ、大規模言語モデル、AI for Scienceの分野で学術研究に取り組んでおり、NeurIPS、ICML、ICLR、AAAI、IJCAIといったトップクラスのAIカンファレンスで複数の論文を発表しています。
張強の個人ホームページ:
https://person.zju.edu.cn/H124023

タンパク質研究の分野において、研究チームはタンパク質を最適化するためのDePLMのような高度なモデルを提案しただけでなく、生物学的配列と人間の言語の間のギャップを埋めることにも尽力しました。この目的のために、彼らは知識指示を用いてタンパク質言語を人間の言語に整合させ、2つの言語間の双方向生成能力を探求するInstructProteinモデルを提案しました。このモデルは生物学的配列を大規模な言語モデルに統合し、2つの言語間のギャップを効果的に埋めます。双方向タンパク質テキスト生成タスクに関する広範な実験により、InstructProteinは既存の最先端のLLMよりも優れた性能を示すことが実証されています。
詳細については、こちらをクリックしてください: ACL2024 メインカンファレンスに選出 | InstructProtein: 知識指示を用いたタンパク質言語と人間の言語の整合

さらに、研究チームは「事前学習とキューイング」フレームワークに基づく汎用性の高いタンパク質配列設計手法PROPENDを提案しました。バックボーン、ブループリント、機能タグ、そしてそれらの組み合わせに関するキューを提供することで、複数の特性を直接制御することができ、幅広い適用性と精度を実証しました。5つの配列を試験したin vitro実験において、PROPENDは最大105.2%の機能回復率を達成し、従来の設計パイプラインの50.8%を大幅に上回りました。
原著論文:

https://www.biorxiv.org/content/10.1101/2024.11.17.624051v1

現在、チームの発表成果の多くはオープンソース化されています。また、優秀なポスドク研究員、百人一首プログラムのメンバー、研究開発エンジニア、その他のフルタイム研究者も継続的に募集しています。ぜひご参加ください!

ラボの GitHub ホームページ:
http://github.com/zjunlp

http://github.com/zjukg