|
タンパク質は、人間の生命活動の担い手であるだけでなく、バイオメディカル、食品加工、醸造、化学工業など、多くの分野で重要な役割を果たしています。そのため、人々はタンパク質の構造と機能の研究を怠ることなく続け、産業応用のニーズを満たし、高い安定性を持つタンパク質を選択してきました。 しかし、生物から抽出された「野生型」タンパク質が産業環境で機能するために必要な物理化学的条件(温度やpHなど)は、多くの場合、本来の生物学的環境から大きく離れています。言い換えれば、これらのタンパク質の安定性は、過酷な産業環境に適応することが困難です。そのため、様々な応用シナリオのニーズを満たすためには、タンパク質の変異によって物理化学的特性を改善し、極端な温度/pH条件下での安定性を向上させたり、酵素の活性や特異性を高めたりすることがしばしば必要となります。 タンパク質の生物学的活性を変化させるには、その作用機構に関する長年の実験研究が必要であることに留意することが重要です。これは時間と労力を要するだけでなく、急速に変化する改変ニーズへの対応もますます困難になっています。近年、タンパク質言語モデルの登場により、タンパク質の適応度予測の精度は大幅に向上しましたが、安定性予測の精度に関しては依然として不十分です。 真に意味のあるタンパク質変異は、生物学的活性を維持しながら安定性を向上させるべきであり、逆もまた同様です。この問題に対処するため、上海交通大学自然科学研究所/物理天文学学院のホン・リャン教授の研究グループは、上海人工知能研究所の若手研究者タン・パン氏、上海科技大学および中国科学院杭州医学院の研究者と共同で、タンパク質配列の大規模言語モデルのための新たな事前学習法であるPRIMEを開発しました。この手法は、タンパク質の変異活性と変異安定性の予測、ならびにその他の温度関連特性学習において、最先端の予測性能を達成しました。 「安定性と活性を高めたタンパク質を設計するための一般的な温度誘導言語モデル」と題された関連研究が、著名なサイエンス傘下のジャーナルであるサイエンス・アドバンスに掲載されました。 研究のハイライト:
論文の宛先: オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。 https://github.com/hyperai/awesome-ai4s データセット: タンパク質配列と温度の関係を調査した 9,600 万のデータ ポイント。研究者らは、Uniprot (Universal Protein Resource) の公開データと、メタゲノム研究を通じて環境サンプルから得られたタンパク質配列を統合し、47 億の天然タンパク質配列を含む大規模なデータベース ProteomeAtlas を作成しました。
配列スクリーニングプロセスでは、研究者は全長配列のみを保持し、生物学的配列アライメントツールMMseqs2を用いて処理しました。重複を減らすため、配列同一性閾値は50%に設定され、細菌株の最適生育温度(OGT)に関連する配列を同定し、アノテーションを付与しました。 最終的に、研究者はこのようにして 9,600 万個のタンパク質配列に注釈を付け、タンパク質配列と温度の関係を調査するための豊富なリソースを提供しました。 さらに、モデルの熱安定性のゼロショット予測力の分析では、融解温度変化 (ΔTm) を研究するために使用されたデータセットは MPTherm、FireProtDB、および ProThermDB から取得され、すべての実験は同じ pH 条件下で実施されました。 これらのうち、MPThermはタンパク質の熱安定性に関する実験データを含み、FireProtDBはタンパク質の熱安定性と機能に関する変異実験データの保存に特化しており、ProThermDBはタンパク質の熱力学的特性に関するデータを特に収集しています。さらに、研究者らは、主にタンパク質変異解析データベースProteinGymから取得したディープミューテーションスキャン(DMS)データも組み込みました。 ProteinGym タンパク質変異データセット モデルアーキテクチャ:「温度センシング」に基づくディープラーニングモデル同研究所の新しいディープラーニングモデルであるPRIME(インテリジェントマスク事前トレーニングおよび環境予測のためのタンパク質言語モデル)は、事前の実験データに依存せずに、特定のタンパク質変異体のパフォーマンス向上を予測できます。 このモデルは、9,600万個のタンパク質配列データセットに基づく「温度感知」言語モデルに基づいて学習されています。トークンレベルのマスク言語モデリング(MLM)タスクと配列レベルの最適生育温度(OGT)予測目標を組み合わせ、マルチタスク学習を通じて相関損失項を導入しています。これにより、高温耐性を持つタンパク質配列を選別し、その安定性と生物学的活性を最適化することができます。 具体的には、 PRIMEは下図に示すように、3つの主要部分で構成されています。1つ目はエンコーダーモジュールで、これは配列から潜在的特徴を抽出するために使用されるTransformerエンコーダーです。2つ目はMLMモジュールで、エンコーダーがアミノ酸の文脈的表現を学習するのを支援するように設計されています。MLMモジュールは変異体スコアリングにも使用できます。3つ目はOGT予測モジュールで、これは潜在的表現に基づいて、タンパク質が存在する生物のOGTを予測できます。 PRIMEアーキテクチャ設計 PRIME の事前トレーニング段階でのマルチタスク学習には、MLM、OGT 予測、相関損失が含まれます。 MLM(平均学習モデル)は、配列データ表現の事前学習方法として頻繁に用いられます。本研究では、ノイズの多いタンパク質配列を入力として用い、一部のラベルはマスクされたり、代替ラベルで表現されたりしました。学習の目的は、これらのノイズの多いラベルを再構築することでした。このアプローチは、モデルがアミノ酸と配列の文脈情報との間の依存関係を捉えるのを支援し、また、この再構築プロセスにおける変異のスコアリングにも使用できます。 2つ目の学習タスクは教師あり最適化であり、研究者らはOGTでアノテーションされた9,600万個のタンパク質配列を含むデータセットを用いてPRIMEモデルを学習させた。このタスクへの入力はタンパク質配列であり、OGTモジュールは0℃から100℃までの温度値を生成した。注目すべきは、OGTモジュールとMLMモジュールは共通のエンコーダを用いて動作している点である。このアーキテクチャにより、モデルはアミノ酸のコンテキスト情報と温度に関連する配列特徴を同時に捉えることができた。 気温予測におけるPRIMEの応用 最後に、研究者らは相関損失を導入して、予測された OGT から MLM 分類へのフィードバックを容易にし、トークンとシーケンスのレベルでタスク情報を調整して、大規模なモデルでタンパク質シーケンスの温度特性をより適切に捉えられるようにしました。 実験的結論: この方法は、変異タンパク質配列の適合性を予測する上で最先端の方法よりも優れています。研究者らは、熱安定性のゼロショット予測能力に関して、PRIMEと最先端モデルを比較する実験を実施しました。これらのモデルには、ESM-1v、ESM-2、MSA-transformer、Tranception-EVE、CARP、MIF-ST、SaProt、Stability Oracleなどのディープラーニングモデル、および従来の計算手法であるGEMMEとRosettaが含まれていました。 研究者らは、MPTherm、FireProtDB、ProThermDBのデータセットを使用しました。これらのデータセットには、同一pH条件下で収集された融解温度変化(ΔTm)が含まれており、各タンパク質について少なくとも10点のデータポイントを確保し、合計66回のアッセイを実施しました。また、検出方法としてディープミューテーションスキャン(DMS)を採用し、ProteinGymをベンチマークとして用いました。 結果は下の図に示されています。PRIMEは、タンパク質の利用可能性と安定性の予測において、他のすべての手法よりも優れた性能を発揮します。 ProteinGymベンチマーク(下図の黄色)では、PRIMEのスコアは0.486、SaProtは0.457と2位でした。ΔTmデータセット(下図の濃い紫色)では、PRIMEが0.437で依然としてトップのスコアを維持しており、2位は0.412でした。さらに、研究者らはProteinGymのサブセットであるProteinGym-stability(下図の薄紫色)において、PRIMEを他の手法と比較しました。この結果、PRIMEは一貫して他のすべての手法を上回るパフォーマンスを示しました。 ΔTmおよびProteinGymデータセットの教師なしモデルベンチマーク 特に、タンパク質工学の実際の応用におけるPRIMEの有効性と効能をテストするために、研究者らはウェット実験も実施し、LbCas12a、T7 RNAポリメラーゼ、クレアチンキナーゼ、人工核酸ポリメラーゼ、および特定のナノボディの重鎖可変領域を含む5つのタンパク質を検証用に選択しました。 上位 30 ~ 45 の単一点変異に対する実験的テストでは、AI 推奨の単一点変異体の 30% 以上が、熱安定性、酵素活性、抗原抗体結合親和性、非天然核酸重合能力、または極度のアルカリ条件に対する耐性などの主要な特性において野生型タンパク質に対して顕著な優位性を示し、一部のタンパク質では陽性率が 50% を超えました。 PRIMEによって予測された5つのタンパク質ユニット点変異体の構造と実験結果 特筆すべきは、研究チームがPRIMEをベースとした、活性と安定性が向上した多部位変異体を迅速に得るための非常に効率的な手法を実証したことです。この少量サンプルの微調整法を用いることで、100個未満のウェット実験サンプルを用いて、2~4回の進化サイクルで優れたタンパク質変異体を生成することができます。 例えば、T7 RNAポリメラーゼは、ドライおよびウェットの反復を4回繰り返した後、高い活性と安定性を備えたマルチポイント変異体を生成することに成功しました。このマルチポイント変異体の最高Tm値は野生型よりも12.8℃高く、活性は野生型の約4倍でした。さらに、一部の製品は、10年間市場を独占していた国際的なバイオテクノロジー企業であるNew England Biolabsの類似製品よりも優れた性能を示しました。さらに、LbCas12aとT7 RNAポリメラーゼを用いた実験では、Pro-PRIMEはネガティブなシングルポイント変異を重ね合わせることでポジティブなマルチポイント変異を得ることができました。 これは、PRIME が配列データからタンパク質変異のエピスタシス効果を学習できることを示しており、これは従来のタンパク質工学にとって非常に重要な意味を持ちます。 タンパク質工学に関する専門知識を深め、少量サンプルの課題を克服します。タンパク質工学の分野では、タンパク質の発現、精製、機能試験には通常、高価な試薬や機器が必要であり、実験に時間がかかるため、生成できるサンプル数が大幅に制限されます。タンパク質機能研究において、タンパク質変異が機能(触媒活性、熱安定性、結合親和性など)に及ぼす影響を試験するには、さらに精密で複雑な実験が必要であり、単一のハイスループット試験であらゆる変異の性能を測定することは困難です。 そのため、機械学習モデルを限られたサンプルで十分に学習させることが困難になり、新しい変異の予測性能が低下します。さらに、少量サンプルデータにおける実験誤差やノイズは、モデルの学習に重大な影響を与える可能性があります。少量サンプルデータの課題は、タンパク質工学分野における研究の効率性と精度をある程度制限してきたと言えます。しかし、この課題は、機械学習、実験技術、マルチモーダルデータ分析を組み合わせ、少量サンプルの限界を克服するための革新的な技術を探求する研究者の大きな刺激にもなっています。 この記事で紹介した研究チームは、この分野で優れた成果を上げています。前述のPRIMEに加え、ホン・リャン教授のチームはタン・パン博士と共同で、小サンプル学習に関するいくつかの研究成果を発表しています。 研究チームは以前、メタ転移学習(MTL)、ランク付け学習(LTR)、パラメータ効率の良い微調整(PEFT)を総合的に活用することで、極めて限られたデータ条件下でタンパク質言語モデルを効果的に最適化するFSFPと呼ばれる学習戦略を開発しました。この戦略は、タンパク質適応性の小サンプル学習に使用でき、非常に少ないウェット実験データを用いた変異特性予測において、従来の事前学習済み大規模タンパク質モデルの性能を大幅に向上させます。また、実用化においても大きな可能性を示しています。 「少量学習による最小限のウェットラボデータによるタンパク質言語モデルの効率向上」と題された関連研究が、Nature の出版物である Nature Communications に掲載されました。 *クリックして詳細レポートをご覧ください:20の実験データポイントがAIタンパク質解析における画期的な成果を生み出しました!上海交通大学は上海AIラボと共同でFSFPをリリースし、タンパク質事前トレーニングモデルを効果的に最適化しました。 さらに、洪亮教授も「今後3年間で、タンパク質設計、医薬品開発、疾患診断、新規ターゲットの発見、化学合成経路の設計、材料設計などの分野において、専門分野の汎用人工知能が明確なパラダイムシフトをもたらし、人間の脳による散発的な試行錯誤に依存していた科学的発見モデルを、大規模なAIモデルに基づく自動化された標準設計モデルに変革するだろう」との見解を述べています。 具体的な変更点としては、ゼロショット学習または少数ショット学習手法の構築と、事前学習済みの技術モデルの構築が挙げられます。データがない場合、物理シミュレータを用いて、やや精度の低い大量の偽データを生成して事前学習を行い、その後、実際の価値あるデータで微調整することで強化学習を完了させます。 洪教授は、「フェイクデータとは、現実世界からのものではないものの、ある程度の信頼性を持つデータのことを指します。AIによって生成されたり、データ拡張のための物理計算シミュレーションによって取得されたりします。最終的に、実際の湿式実験データが最も価値が高く、モデルの最終的な微調整に使用されます」と強調しました。 実際、データ不足の課題はタンパク質工学分野に限ったことではありません。小規模サンプル、あるいはゼロサンプル学習法が不可欠です。Hong Liang教授のチームとTan Pan博士が、この課題を解決するための高品質な成果をさらにもたらすことを期待しています。 |