学術情報共有 | データ不足にもめげず！上海交通大学ポスドク研究員の周子怡氏が、タンパク質言語モデルのための少数ショット学習法FSFPについて解説

事前学習済みのタンパク質言語モデル (PLM) は、何百万ものタンパク質のアミノ酸配列の分布特性を教師なし学習することができ、タンパク質配列とその機能の暗黙的な関係を明らかにする上で大きな可能性を示しています。

こうした背景の下、上海交通大学自然科学研究所／物理天文学学院／張江高等研究所／薬学院の洪亮教授の研究グループは、上海人工知能研究所の若手研究者である譚潘氏と共同で、タンパク質言語モデルのための少数サンプル学習法を開発しました。この手法は、非常に少量のウェット実験データを用いて、従来のタンパク質言語モデルの変異効果予測性能を大幅に向上させることができ、実用化において大きな可能性を示しています。

「Meet AI4S」ライブストリームシリーズの第3回では、HyperAIは、本研究論文の筆頭著者であり、上海交通大学自然科学研究所および上海国家応用数学センターのポスドク研究員である周子怡（Ziyi Zhou）博士を招待しました。 9月25日には、周博士がオンラインライブストリームを通じて、タンパク質言語モデルのための少数ショット学習法についてさらに詳しく解説し、AI支援による指向性進化の新たなアイデアを探求します。

ライブストリームのスポットを予約するにはクリックしてください:

https://hdxu.cn/6Bjom

QRコードをスキャンし、メッセージに「AI4S」を追加してディスカッショングループに参加してください↓

イベントの詳細

トピックの共有

タンパク質言語モデルのための少数ショット学習法

概要

タンパク質言語モデル（PLM）はタンパク質機能予測において飛躍的な進歩を遂げてきましたが、高い精度を達成するためには、多くの場合、膨大な実験データを用いた微調整が必要となります。本論文では、わずか数十の学習サンプルを用いてPLMの変異効果予測性能を大幅に向上させることができる、PLM向けFew-Shot学習法を紹介します。

論文レビュー

HyperAI は以前、第一著者である周子怡博士による研究論文「少量学習による最小限のウェットラボデータによるタンパク質言語モデルの効率向上」を共有し、解釈しました。

詳細レポートを見るにはクリックしてください：20の実験データポイントがAIタンパク質分析における画期的な成果を生み出しました！上海交通大学は上海AIラボと共同でFSFPをリリースし、タンパク質事前トレーニングモデルを効果的に最適化しました。

FSFP メソッドは 3 つのフェーズで構成されます。

これには、メタトレーニング用の補助タスクの構築、補助タスクでの PLM のトレーニング、および LTR を介して PLM をターゲットタスクに転送することが含まれます。

FSFPでは、ListMLE損失を用いて突然変異の適応度ランキングを学習します。各学習反復において、PLMによって予測された学習サンプルのランキングは、真のランキングに修正されます。このランキング学習法は、メタ学習段階の内部最適化フェーズと転移学習フェーズに同時に適用されます。

データ収集

本研究では、ProteinGymデータセットをベンチマークデータセットとして選択しました。このデータセットには、87件のDMSシーケンシング実験から得られた約150万のミスセンスバリアントが含まれています。

ProteinGym タンパク質変異データセットのダウンロードリンク:
https://go.hyper.ai/6GvFD

FSFP法の評価

平均パフォーマンスに関しては、FSFP でトレーニングされた PLM は、すべてのトレーニングデータスケールにわたって一貫して他のベースラインよりも優れています。
外挿パフォーマンス評価の点では、FSFP トレーニング PLM のスピアマン相関評価が優れています。
FSFP は Phi29 DNA ポリメラーゼのエンジニアリングにうまく適用され、陽性率が大幅に向上しました。

視聴者のメリット:

PLM の基本原理とタンパク質工学におけるその応用を理解します。
PLM の基本原理とタンパク質工学におけるその応用を理解します。
AI支援による指向性進化の新しいアイデアの探求

上海交通大学のホン・リャン研究グループ

上海交通大学のHong Liang研究グループは、上海交通大学自然科学研究所に所属しています。グループの主な研究分野は、AIタンパク質および創薬、そして分子生物物理学であり、具体的には以下の研究を行っています。

人工知能に基づく標的タンパク質修飾、酵素工学の指向性進化、および薬物設計。
研究は中性子散乱、シンクロトロン放射の国家大型科学施設、単一分子蛍光、分子動力学シミュレーション、人工知能アルゴリズムに焦点を当て、生体高分子のダイナミクス、および生体高分子の凍結保存技術と原理を研究しています。

研究グループは実りある成果を達成し、これまでに合計 77 件の研究論文を発表しており、その多くは Nature に掲載されています。

AI4Sシリーズのライブストリームをご覧ください

HyperAI（hyper.ai）は、データサイエンス分野における中国最大の検索エンジンであり、AI for Scienceの最新の研究成果に焦点を当て、NatureやScienceなどのトップジャーナルに掲載された学術論文をリアルタイムで追跡しています。これまでに100件以上のAI for Science論文の解釈を完了しています。

さらに、中国で唯一のオープンソースの科学向け AI プロジェクトである awesome-ai4s も運営しています。

プロジェクトアドレス:

https://github.com/hyperai/awesome-ai4s

AI4Sの普及をさらに促進し、学術機関の研究成果をより幅広い産業界の学者、技術愛好家、そして産業組織へと発信する際の障壁を下げるため、HyperAIは「Meet AI4S」ビデオシリーズを開始しました。このシリーズでは、AI for Science分野に深く関わる研究者や関連組織を招き、ビデオを通じて研究成果や方法論を共有し、AI for Scienceの研究の進展と実装における機会と課題を共同で探究し、AI for Scienceの普及・発展を促進します。

優れた研究グループや研究機関の皆様のライブ配信へのご参加をお待ちしております！QRコードをスキャンしてWeChatで「NeuroStars」を追加してください。詳細はこちらから↓

618ZXW

学術情報共有 | データ不足にもめげず！上海交通大学ポスドク研究員の周子怡氏が、タンパク質言語モデルのための少数ショット学習法FSFPについて解説

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ