618ZXW

限られたウェット実験データを用いてタンパク質言語モデルを微調整するにはどうすればよいでしょうか?浙江大学のチームの研究成果がNeurIPS 2024に選出されました。筆頭著者が設計プロセスを説明します。

「Meet AI4S」ライブストリームシリーズの第5回は、12月10日19時より放送されます。HyperAIは、浙江大学知識エンジン研究所の博士課程学生である王澤元氏をお招きし、「拡散ノイズ除去プロセスを用いた大規模モデルによるタンパク質最適化」について、その知見を共有していただきます。

浙江大学の陳華軍教授、張強研究員、王澤元博士らが提唱する新しいノイズ除去タンパク質言語モデル(DePLM)は、タンパク質言語モデルによって捕捉された進化情報を、対象特性に関連する情報と関連しない情報の混合物として扱うことができます。関連しない情報は「ノイズ」とみなして除去することで、タンパク質の適応地形を予測し、タンパク質の最適化を支援します。

研究によると、DePLMはタンパク質変異の影響予測において既存の手法を凌駕し、新規タンパク質への高い汎用性を持つことが示されています。この成果は、世界最高峰の国際会議NeurIPS 2024への採択が決定しました。このライブ配信では、王澤元博士が本論文の背景にある革新的なアイデアを詳細に解説します。

HyperAIは、驚きのコンピューティングパワー特典もご用意しています。ライブストリームの抽選にご参加いただくと、NVIDIA RTX A6000のコンピューティングパワーを10時間分(40元相当)獲得するチャンスがあります。この特典は1ヶ月間有効です。今すぐライブストリームにご登録ください!

ライブストリームのスポットを予約するにはクリックしてください:

ディスカッション グループに参加するには、WeChat で Hyperai (WeChat ID: Hyperai01) を追加し、「AI4S」とメンションしてください。

ゲスト紹介

トピックの共有

拡散ノイズ除去プロセスは、大規模モデル内のタンパク質の最適化に役立ちます。

概要

私たちの研究グループは、大規模モデルと拡散ノイズ除去モデルを組み合わせた手法を提案しています。少量のウェット実験データを用いてモデルを微調整することで、モデルの優れた汎化能力を維持しながら、タンパク質適応型ランドスケープ予測タスクにおける大規模モデルの精度を向上させることができます。

視聴者のメリット

  1. タンパク質ベースの適応度地形を予測するための方法、データセット、および指標を理解する。
  2. 拡散モデル強化言語モデリング (DePLM) を適応型ランドスケープ予測にどのように使用できるかを理解します。
  3. この研究では、進化情報、ウェット実験データ、その他のデータを組み合わせて AI モデルをトレーニングする方法を探ります。

論文レビュー

HyperAI は以前、王澤元博士を第一著者とする研究論文「DePLM: プロパティ最適化のためのタンパク質言語モデルのノイズ除去」を分析しました。

* クリックして詳細レポートを表示: NeurIPS 2024 に選出されました! 浙江大学のチームが、変異の影響予測において最先端 (SOTA) モデルよりも優れた性能を発揮する、新しいノイズ除去タンパク質言語モデル DePLM を提案しました。

研究ハイライト

  • DePLM は、ターゲット特性に関係のない情報を効果的に除外し、PLM に含まれる進化情報を最適化することでタンパク質の最適化を改善できます。
  • DePLM は、変異の影響を予測する最先端のモデルよりも優れているだけでなく、新規タンパク質に対する強力な一般化能力も示しています。
  • 本研究では、ノイズ除去拡散フレームワークにおけるランキングベースのフォワードプロセスを設計し、拡散プロセスを突然変異確率のランキング空間に拡張する。同時に、学習目標を数値誤差の最小化からランキング関連性の最大化へと移行し、データセット非依存学習を促進し、モデルの強力な汎化能力を確保する。

データセットの取得

本研究ではProteinGymのタンパク質変異データセットを選択しました。長すぎる野生型タンパク質データセットを除外した後、最終的に201のDeep Mutation Screening(DMS)データセットが保持されました。

データセットは直接使用できます。

https://hyper.ai/datasets/32818

モデルアーキテクチャ

下図の左側に示すように、DePLMはPLMから得られた進化尤度を入力として、特定の属性のノイズ除去尤度を生成し、変異の影響を予測します。下図の中央と右側では、ノイズ除去モジュールが特徴量エンコーダを用いて、一次構造と三次構造を考慮したタンパク質特性を生成しています。これらの特性は、ノイズ除去モジュールによって尤度内のノイズを除去するために使用されます。

DePLMアーキテクチャの概要

データセットに依存しない学習を実現し、強力なモデル一般化能力を確保するために、研究者は特徴値のランキング空間で拡散プロセスを実施し、数値誤差を最小化するという従来の目的をランキング関連性の最大化に置き換えました。

浙江大学ナレッジエンジンラボ

浙江大学コンピュータサイエンステクノロジー学院とソフトウェア学院を基盤とするナレッジエンジンラボは、ナレッジグラフ、大規模言語モデル、AI for Scienceなどの分野における学術研究、オープンソース開発、革新的な産業応用に取り組んでいます。浙江大学・アントグループナレッジグラフ共同研究開発センターや浙江大学・アリババナレッジエンジン共同ラボなどを共同で設立しています。

私たちのチームでは、優秀なポスドク研究員、百人一首プログラムのメンバー、研究開発エンジニア、その他フルタイムの研究スタッフを常時募集しています。ぜひご参加ください!

ラボの GitHub ホームページ:

http://github.com/zjunlp

http://github.com/zjukg

AI4Sシリーズのライブストリームをご覧ください

HyperAI(hyper.ai)は中国最大のデータサイエンス検索エンジンであり、AI for Scienceの最新の研究成果に焦点を当て、NatureやScienceなどのトップジャーナルに掲載された学術論文をリアルタイムで追跡しています。これまでに、約200件のAI for Science論文の解釈を完了しています。

さらに、中国で唯一のオープンソースの科学向け AI プロジェクトである awesome-ai4s も運営しています。

  • プロジェクトアドレス:
    https://github.com/hyperai/awesome-ai4s

AI4Sの普及をさらに促進し、学術機関の研究成果をより幅広い産業界の学者、技術愛好家、そして産業組織へと発信する際の障壁を下げるため、HyperAIは「Meet AI4S」ビデオシリーズを開始しました。このシリーズでは、AI for Science分野に深く関わる研究者や関連組織を招き、ビデオを通じて研究成果や方法論を共有し、AI for Scienceの研究の進展と実装における機会と課題を共同で探究し、AI for Scienceの普及・発展を促進します。

これまでに、地理情報科学、生命科学、タンパク質工学の分野をカバーする 4 回の Meet AI4S ライブ ブロードキャストを成功裏に開催しました。

優れた研究グループや研究機関の皆様のライブストリームイベントへのご参加をお待ちしております!詳細については、WeChatで「NeuroStar」(WeChat ID: Hyperai01)を追加してください。