618ZXW

ACL 2024に選出されました!Wang Xiang率いるUSTCチームは、タンパク質データとテキスト情報のクロスモーダル解釈を可能にするタンパク質テキスト生成フレームワークProtT3を提案しています。

タンパク質動態の謎を解明することは、新薬開発の進展に不可欠なステップであるだけでなく、生命現象を理解するための重要な基礎でもあります。しかし、タンパク質の複雑さゆえに、その深層構造情報を直接的に捉え、解析することは困難です。複雑な生物学的データを直感的で分かりやすい表現に変換することは、科学研究分野における大きな課題であり続けています。

言語モデル (LM) の急速な発展により、革新的なアイデアが生まれました。言語モデルは大量のデータからテキスト情報を学習して抽出できるため、タンパク質データからタンパク質情報を「読み取る」ことを学習し、動的なタンパク質構造情報を人間が理解しやすいテキストの物語に直接変換できるのではないか、というものです。

この非常に有望なアイデアは、実用化において多くの課題に直面しています。例えば、タンパク質配列のテキストコーパスで事前学習された言語モデルは、優れたテキスト処理能力を備えているものの、タンパク質構造のような非ヒトの「言語」を理解するには不十分です。一方、タンパク質配列コーパスで事前学習されたタンパク質言語モデル(PLM)は、優れたタンパク質理解・生成能力を備えていますが、テキスト処理能力の欠如という同様に重大な限界があります。

PLMとLMの利点を組み合わせ、タンパク質構造を深く理解し、テキスト情報とシームレスに統合できる新しいモデルアーキテクチャを構築できれば、医薬品開発、タンパク質特性予測、分子設計などの分野に多大な影響を与えるでしょう。しかし、タンパク質構造と人間の言語テキストは異なるデータモダリティに属しており、統合の障壁を突破するのは容易ではありません。

これに対し、中国科学技術大学の王翔氏は、シンガポール国立大学の劉志遠氏らのチーム、そして北海道大学の研究チームと共同で、新たなタンパク質テキストモデリングフレームワークProtT3を提案した。このフレームワークは、クロスモーダルプロジェクターを用いて、モーダル非類似タンパク質モデリング(PLM)とテキストモデリング(LM)を統合する。PLMはタンパク質理解に、LMはテキスト処理に用いられる。効率的な微調整を実現するために、研究者らはLMにLoRAを組み込み、タンパク質からテキストへの生成プロセスを効果的に制御した。

さらに、研究者らは、タンパク質キャプション、タンパク質QA、タンパク質テキスト検索といった、タンパク質テキストモデリングのための定量評価タスクを確立しました。ProtT3は、これら3種類のタスクすべてにおいて優れた性能を達成しました。

「ProtT3: テキストベースのタンパク質理解のためのタンパク質テキスト生成」と題されたこの研究は、最高会議 ACL 2024 に選出されました。

研究のハイライト:

  • ProtT3 フレームワークは、テキストとタンパク質間のモーダルギャップを埋め、タンパク質配列解析の精度を向上させます。
  • タンパク質キャプションタスクでは、ProtT3 は Swiss-Prot および ProteinKG25 データセットでベースラインより 10 ポイント以上高い BLEU-2 スコアを達成しました。
  • タンパク質の質問応答タスクでは、ProtT3 により PDB-QA データセットでの完全一致パフォーマンスが 2.5% 向上しました。
  • タンパク質テキスト検索タスクでは、ProtT3 は Swiss-Prot および ProteinKG25 データセットのベースラインよりも 14% 以上高い検索精度を実現します。

論文の宛先:

https://arxiv.org/abs/2405.12564

データセットのダウンロードアドレス:
https://go.hyper.ai/j0wvp

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。
https://github.com/hyperai/awesome-ai4s

タンパク質研究のための3つの主要データセットの構築と最適化

研究者らは、Swiss-Prot、ProteinKG25、PDB-QA の 3 つのデータセットを選択しました。

タンパク質テキストデータセットの統計データ

上の表に示すように、 Swiss-Protはテキストアノテーション付きのタンパク質配列データベースです。研究者らはデータセットを処理し、情報漏洩を防ぐため、テキストアノテーションからタンパク質名を除外しました。生成されたテキスト記述は、タンパク質の機能、位置、ファミリーを関連付けたアノテーションです。

ProteinKG25は、遺伝子オントロジーデータベースから派生したナレッジグラフです。研究者たちはまず、同じタンパク質のトリプルを集約し、次にタンパク質情報を定義済みのテキストテンプレートに入力して、トリプルをフリーテキストに変換しました。

PDB-QAは、RCSB PDB2から派生したタンパク質に関する単発の質問応答データセットで、タンパク質の構造、特性、補足情報に関する30個の質問テンプレートが含まれています。以下の表に示すように、研究者は詳細な評価を行うために、回答の形式(文字列または数値)とコンテンツの焦点(構造/属性または補足情報)に基づいて質問を4つのタイプに分類しました。

PDB-QAデータセット内のQAペア

ProtT3: 革新的なタンパク質からテキストを生成するモデルアーキテクチャ

下の図 a に示すように、 ProtT3 は、タンパク質言語モデル (PLM)、クロスモーダル プロジェクター、言語モデル (LM)、およびタンパク質からテキストへの生成プロセスを効果的に制御する LoRA モジュールで構成されています

ProtT3フレームワーク

研究者らは、タンパク質理解のために ESM-2150M タンパク質言語モデルを選択しました。また、PLM と言語モデル LM 間のモーダルの違いを埋めるために Q-Former クロスモーダル プロジェクターを選択し、それによってタンパク質表現を LM のテキスト空間にマッピングしました。テキスト処理には Galactica 1.3B 言語モデルを選択しました。さらに、下流の適応の効率性を維持するために、LoRA も言語モデルに組み込まれ、効率的な微調整が行われました。

図 b に示すように、 ProtT3 は、タンパク質テキストの効果的なモデリングを強化するために、タンパク質テキスト検索トレーニングとタンパク質テキスト生成トレーニングという 2 つのトレーニング フェーズを採用しています

ProtT3には2つのトレーニングフェーズがあります

フェーズ1:タンパク質テキスト検索トレーニング

図aに示すように、クロスモーダルプロジェクターQ-Formerは、タンパク質エンコーディング用のタンパク質トランスフォーマーとテキスト処理用のテキストトランスフォーマーの2つのトランスフォーマーで構成されています。2つのトランスフォーマーは自己注意を共有することで、タンパク質とテキスト間の相互作用を可能にします。

Q-Formerのアーキテクチャと3つのトレーニングタスク

研究者らは、Swiss-ProtとProteinKG25を組み合わせたデータセットでProtT3をトレーニングし、タンパク質テキストの対比、タンパク質テキストのマッチング(PTM)、タンパク質キャプション(PCap)という3つのタスクを含むタンパク質テキスト検索を実行しました。

フェーズ2: タンパク質からテキスト生成のトレーニング

研究者らは、クロスモーダルプロジェクターを言語モデル(LM)に接続し、タンパク質表現ZをLMに入力することで、タンパク質情報を用いたテキスト生成プロセスを制御し、具体的には、線形層を用いてZをLM入力と同じ次元に投影し、生成されたデータセットごとにProtT3を学習させ、タンパク質表現の後に異なるテキストキューを追加することで、生成プロセスをさらに制御しました。

さらに、研究者らは、タンパク質からテキストを生成するタスクにおいて 3 つのデータセットを個別に微調整するために LoRA を導入しました。

タンパク質分野における多用途なパフォーマー: 3 つの主要タスクにおける ProtT3 のパフォーマンスを評価します。

ProtT3 のパフォーマンスを評価するために、研究者はタンパク質のキャプション作成、タンパク質の QA、タンパク質テキスト検索という 3 つのタスクでテストしました。

ProtT3 はタンパク質のより正確な説明を提供し、より高い精度をもたらします。

研究者らは、BLEU、ROUGE、METEORを評価指標として使用し、LoRA調整済みのGalactica1.3B、ProtT3 w/MLP Proj.、ProtT3 w/o stage 1、およびProtT3モデルについて、Swiss-ProtおよびProteinKG25データセットのタンパク質キャプション作成タスクにおけるパフォーマンスを評価しました。

  • ProtT3 w/ MLP Proj.: ProtT3 のバリアントで、ProtT3 クロスモーダル プロジェクターを MLP に置き換えます。
  • ProtT3 w/o ステージ 1: ProtT3 の最初のトレーニング ステージをスキップする ProtT3 のバリアント。

下図に示すように、LoRAを微調整したGalactica1.3Bと比較して、 ProtT3はBLEU-2スコアを10ポイント以上向上させており、タンパク質言語モデルの導入の重要性と、タンパク質入力の理解におけるProtT3の有効性を視覚的に示しています。さらに、ProtT3は様々な指標において2つのバリアントを上回っており、Q-Formerプロジェクターとトレーニングフェーズ1の使用による利点を示しています。

タンパク質のサブタイトルのパフォーマンス。太字は最適なパフォーマンスを示します。

下の図は、Ground Truth、ProtT3、Galactica の3つのタンパク質キャプションの例を示しています。Q8CFG4の例では、ProtT3のアノテーションはDMRTファミリーをより正確に特定しましたが、Galacticaはそうではありませんでした。P46427の例では、どちらのモデルもタンパク質の機能を特定できませんでしたが、ProtT3によるタンパク質ファミリーの予測はより正確でした。Q9LY66の例では、どちらのモデルも細胞内局在とタンパク質ファミリーを正しく予測しました。ProtT3はさらに進んでタンパク質の機能を予測し、真の記述に近づきました。

Swiss-Prot. のタンパク質キャプションの例の青い部分は実際の状況と完全に一致しています。タンパク質構造図は AlphaFold2 によって生成されました。

精度はベースライン モデルより 14% 高く、ProtT3 タンパク質テキスト検索能力が優れています。

研究者らは、精度とRecall@20を評価基準として使用し、ProtSTとProteinCLAPをベースラインモデルとして採用し、Swiss-ProtとProteinKG25データセットでのタンパク質テキスト検索におけるProtT3のパフォーマンスを評価しました。

下表に示すように、 ProtT3の精度はベースラインモデルよりも14%以上高く、 ProtT3がタンパク質と対応するテキスト記述のアライメントにおいて優れていることを示しています。さらに、 Protein-Text Matching (PTM) は、Q-Formerの初期層でタンパク質とテキスト情報が相互作用することを可能にし、よりきめ細かなタンパク質とテキストの類似性測定を可能にするため、ProtT3の精度を1%~2%向上させます。Protein Captioning (PCap) は、クエリトークンがテキスト入力に最も関連性の高いタンパク質情報を抽出できるようにすることで、タンパク質とテキストのアライメントを容易にするため、ProtT3の検索精度を約2%向上させます。

  • ProtT3 w/o PTM: ProtT3のPTMフェーズをスキップします
  • ProtT3 w/o PCap: ProtT3のPCapフェーズをスキップします

タンパク質テキスト検索のパフォーマンス。太字は最高のパフォーマンス、下線は2番目に優れたパフォーマンスを示します。P2Tはタンパク質からテキストへの検索、T2Pはテキストからタンパク質への検索です。

ProtT3 はタンパク質の構造と特性を予測することができ、優れた質問応答機能を備えています。

研究者らは、評価指標として完全一致を選択し、LoRA 調整された Galactica1.3B をベースライン モデル (LoRA ft) として使用して、PDB-QA データセット上で ProtT3 のタンパク質質問応答パフォーマンスを評価しました。

下の図に示すように、 ProtT3の完全一致性能はベースラインより2.5%向上しており、タンパク質の構造と特性の予測において一貫してベースラインを上回っています。これは、ProtT3がタンパク質とテキストの問題を理解する上で優れたマルチモーダル機能を備えていることを示しています。

タンパク質 QA における正確なマッチング性能。QA 分類: SP は構造/特性、SI は補足情報、ft は微調整を表します。

下の図に示すように、以下の3つのタンパク質に関する質疑応答の例では、ProtT3とGalacticaはどちらもタンパク質の特性/構造に関する最初の2つの質問に正しく回答しましたが、数値による回答が必要な3番目の質問には回答できませんでした。ProteinChatは3つの質問すべてに苦戦し、いずれの質問にも回答できませんでした。

PDBQA データセットからのタンパク質 QA 結果の例。青は正しい予測を示します。

タンパク質の言語を解き明かす:生命科学における法学修士課程の最先端探究

タンパク質からテキストを生成する分野における研究者の探求は、人間が複雑な生物学的現象を理解可能な方法で解き明かすことを可能にしています。前述の研究における言語モデルは、タンパク質の「潜在空間」に対する深い理解を示すだけでなく、生物医学的タスクと自然言語処理を繋ぐ橋渡しとして機能し、創薬やタンパク質機能予測といった研究への新たな道を切り開きます。さらに、数十億、あるいはそれ以上のパラメータを持つ大規模言語モデルを用いてより複雑な言語構造を処理できるようになることで、生命科学における将来の探究を様々なレベルで促進することが期待されます。

たとえば、浙江大学の張強と陳華軍のチームは、InstructProtein と呼ばれる革新的な大規模言語モデルを提案しました。このモデルは、(i) タンパク質配列を入力として取り、そのテキストによる機能説明を予測する、(ii) 自然言語プロンプトを使用してタンパク質配列を生成する、という 2 つの方法で、人間の言語とタンパク質の言語の両方を生成することができます。

具体的には、研究者らはLLMをタンパク質と自然言語のコーパスで事前学習させ、教師あり学習による指示チューニングを適用することで、2つの異なる言語間のアライメントを容易にしました。InstructProteinは、多数の双方向タンパク質テキスト生成タスクにおいて優れた結果を示し、テキストベースのタンパク質機能予測と配列設計における先駆的な一歩を踏み出し、タンパク質と人間の言語理解のギャップを効果的に埋めました。

「InstructProtein: 知識の指示による人間とタンパク質の言語の整合」と題された論文が ACL 2024 に採択されました。
原著論文: https://arxiv.org/pdf/2310.03269

さらに、シドニー工科大学のチームは浙江大学の研究チームと協力し、大規模言語モデル「ProtChatGPT」を共同で立ち上げました。このモデルはタンパク質構造を学習・理解し、ユーザーがタンパク質に関する質問をアップロードしてインタラクティブな対話に参加することで、最終的に包括的な回答を生成することを可能にします。

ProtChatGPTフレームワーク

具体的には、まずタンパク質をタンパク質エンコーダとタンパク質言語事前学習済み変換装置(PLP形成装置)で処理し、タンパク質埋め込みを生成します。これらの埋め込みは、投影アダプタを介してLLM(限定言語モデル)に投影されます。最後に、LLMはユーザーの質問と投影された埋め込みを組み合わせて、有益な回答を生成します。実験では、ProtChatGPTがタンパク質とその質問に対して専門的な回答を生成できることが示されており、タンパク質研究の深層探究と応用拡大に新たな活力をもたらします。
原著論文: https://arxiv.org/abs/2402.09649

将来、大規模言語モデルが膨大かつ豊富なデータを活用し、人間の認知限界をはるかに超えるタンパク質の潜在的パターンや深層構造を推論できるようになれば、その潜在能力は大きく開花するでしょう。技術の継続的な進歩により、大規模言語モデルがタンパク質研究をより明るい未来へと導くことを期待しています。