|
タンパク質は細胞の生存の基盤として、人体を含むすべての生物に存在しています。タンパク質は組織や臓器の骨格と主要成分を形成し、生命活動に不可欠な化学反応において中心的な役割を果たしています。 タンパク質は複雑かつ多様な構造をしており、従来の実験手法ではタンパク質構造の解析に時間と労力を要します。このニーズに応えるために登場したのが、タンパク質大規模言語モデル(PLM)です。これらの特殊なモデルは、アミノ酸配列を入力としてタンパク質の機能を予測し、さらには完全に新しいタンパク質を設計することさえ可能です。しかし、 PLMはアミノ酸配列の理解には優れていますが、人間の言語を理解することはできません。 同様に、タンパク質配列の機能を記述したり、特定の特性を持つタンパク質を生成したりするという課題においては、ChatGPTやClaude-2のような自然言語処理に優れた大規模言語モデル(LLM)は不十分です。これは、現在のタンパク質-テキストペアデータセットが、明示的な指示信号の欠如とデータアノテーションの不均衡という2つの大きな欠点を抱えているためです。つまり、現在のLLM研究には、人間の言語とタンパク質の言語を迅速に翻訳できないという未解決のギャップがあるのです。 これらの問題に対処するため、浙江大学の陳華軍氏と張強氏率いるチームは、InstructProteinモデルを提案しました。知識指示を用いてタンパク質言語を人間の言語と整合させることで、タンパク質言語と人間の言語間の双方向生成能力を探求し、2つの言語間のギャップを効果的に埋め、生物学的配列を大規模言語モデルに統合する能力を実証しました。 「InstructProtein: 知識の指導による人間とタンパク質の言語の整合」と題されたこの研究は、 ACL 2024 のメイン会議に採択されました。 研究のハイライト:
論文の宛先: オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。 データセット: 包括的な科学データセットモデルの事前トレーニング段階で使用されたコーパスには、UniRef100 のタンパク質配列と PubMed 抄録の文章が含まれており、研究者はそれに基づいて 280 万のデータ ポイントを含む指示データセットを生成しました。 モデルの微調整段階では、タンパク質スーパーファミリー、ファミリー、ドメイン、保存部位、活性部位、結合部位、位置、機能、関連する生物学的プロセスなど、UniProt/Swiss-Prot によって提供される注釈を使用してタンパク質知識グラフが構築されました。知識因果モデリングのデータは、InterPro および Gene Ontology データベースから取得されました。 モデル評価フェーズでは、研究者らはタンパク質機能の注釈付けを行うモデルの能力を評価するために遺伝子オントロジー (GO) データセットを選択し、次に金属イオン結合 (MIB) を予測するモデルの能力を評価するために Hu らのデータセットを選択しました。 モデルアーキテクチャ: タンパク質知識指導データセットを確立して、事前トレーニング済みモデルを微調整します。LLM がタンパク質言語を理解できるようにするために、InstructProtein は 2 段階のトレーニング アプローチを採用しています。まず、タンパク質と自然言語のコーパスで事前トレーニングし、次にタンパク質知識指導データセットを使用して微調整します。 事前トレーニング段階本研究では、多言語事前学習段階において、大規模な生物学的に関連性の高いテキストデータベースを活用し、モデルの言語理解と生物学領域における知識コンテキストを強化します。多言語処理能力とは、自然言語(英語の抄録など)と生物学的配列言語(タンパク質配列など)の両方を処理できる能力を指します。 モデルの微調整段階モデルの微調整段階において、本研究では「知識指示」と呼ばれるデータセット構築手法を提案する。これは、知識グラフ(KG)と大規模言語モデルの連携作業を活用し、バランスの取れた多様な指示データセットを構築する手法である。この手法は、大規模言語モデルによるタンパク質ベースの言語理解に依存しないため、モデルのバイアスや錯覚によってもたらされる誤った情報を回避できる。具体的な構築プロセスは、下図に示すように、主に3つの段階から構成される。 図: 命令生成方法の概要 a. シードタスクのセットが与えられたら、LLM に新しい命令データを生成するように指示します。 ナレッジグラフの構築:研究者たちはUniProtKBをデータソースとして用い、タンパク質のナレッジグラフを構築しました。連鎖思考の概念に基づき、タンパク質アノテーションにも論理的な連鎖が存在することを認識しました。例えば、タンパク質が関与する生物学的プロセスは、その分子機能や細胞内局在と密接に関連しており、分子機能自体もタンパク質ドメインの影響を受けています。 タンパク質に関する知識の因果連鎖を表現するために、研究者たちは知識因果モデリング(KCM)と呼ばれる新しい概念を導入しました。具体的には、知識因果モデルは、有向非巡回グラフ(DAG)に構成された複数の相互接続されたトリプルで構成され、エッジの方向が因果関係を表します。このグラフは、トリプルをミクロレベル(構造などのタンパク質配列の特徴を網羅)からマクロレベル(生物学的機能を網羅)まで体系化します。下の図は、KCMを含むトリプルを与えられたタスクを達成するために、知識グラフを組み込んだ大規模言語モデルを用いて、事実に基づいた、論理的で、多様な指示を生成するプロセスを示しています。 図: 知識グラフトリプルを指示に変換する例 ナレッジグラフトリプルサンプリング:ナレッジグラフにおけるアノテーションの不均衡問題を考慮し、研究者らは、均一サンプリングに代わるバイアス低減サンプリング戦略を提案しました。具体的には、まずタンパク質を配列と属性の類似性に基づいてグループ化し、次に各グループから均一にトリプルを抽出します。 指示データの生成:研究者はタスクを完了するために知識グラフをシミュレートし、一般的な LLM (ChatGPT など) を使用して、KCM を含む知識グラフ トリプルを指示データに変換します。 この方法により、タンパク質の言語を理解するために事前定義されたモデルに頼ることなく、タンパク質の機能と位置の指示に関する豊富でバランスの取れたデータセットを効果的に作成することができ、その後のタンパク質機能の研究と応用のためのより信頼性の高いデータサポートが提供されます。 事前学習と微調整の組み合わせによって得られたモデルは、InstructProteinと呼ばれます。このモデルは、タンパク質の機能を正確に予測したり、特定の細胞内局在を特定したりするなど、タンパク質配列に関する様々な予測およびアノテーションタスクをより適切に実行できます。これは、タンパク質工学、創薬、そしてより広範な生物医学研究にとって非常に重要です。 研究結果: InstructProtein は、パフォーマンスの点で既存の最先端 LLM を上回っています。この研究では、タンパク質配列の理解と設計における InstructProtein の機能を包括的に評価しました。 タンパク質配列の理解研究者らは、InstructProteinモデルの性能を、タンパク質の位置予測、タンパク質の機能予測、タンパク質の金属イオン結合能予測という3つの分類タスクで評価しました。これらのタスクは、自然言語による読解問題に似せて設計されており、各データポイントにはタンパク質配列と質問が含まれており、モデルは「はい/いいえ」で答える必要がありました。すべての評価はゼロショット設定で実施されました。 評価結果は下の表に示されています。すべてのベースライン モデルと比較して、InstructProtein はすべてのタスクで新たな最先端のパフォーマンスを達成しました。 表: タンパク質配列理解タスクにおけるゼロショットパフォーマンス さらに、注目すべき重要な発見が2つあります。まず、InstructProteinは、自然言語コーパスで学習したLLM(OPT、LLaMA、Alpaca)を大幅に上回ります。これは、タンパク質と自然言語の両方を含むコーパスを用いた学習がLLMにとって有益であり、タンパク質と言語の理解能力を向上させることを示しています。 第二に、GalacticaとBioMedGPTはどちらも自然言語とタンパク質の対応付けにUniProtKBをコーパスとして利用していますが、InstructProteinは一貫してこれらを上回っています。本研究の結果は、高品質な指示データがゼロショット設定においてパフォーマンスを向上させる可能性があることを実証しています。 さらに、タンパク質の細胞内局在 (bin) タスクでは、LLM (OPT、LLaMA、Alpaca、Galactica) が重大なバイアスを示し、すべてのタンパク質が同じグループに分類され、精度は 57.52% となりました。 タンパク質配列設計タンパク質の設計に関しては、研究者らは「指示タンパク質ペアリング」タスクを設計しました。タンパク質とその説明が与えられると、モデルは対応する説明と 9 つの対応しない説明から最も適切なものを選択する必要があります。 下の表に示すように、命令とタンパク質のペアリングタスクでは、InstructProtein がすべてのベースライン モデルを大幅に上回りました。 表: 命令とタンパク質のペアリングの精度 その中で、BioMedGPT はタンパク質をテキストに変換することに重点を置いており、タンパク質設計機能が欠けています。Galactica は物語型タンパク質コーパスでトレーニングされているため、指示とタンパク質を整合させるゼロショット設定ではパフォーマンスが低下します。これらの結果は、タンパク質生成における指示に従う能力において InstructProtein モデルが優れていることを裏付けています。 InstructProteinが機能関連の指示に従ってタンパク質を設計する能力をさらに検証するため、研究者らはInstructProteinを用いて特定の化合物に結合可能なヘム結合タンパク質を設計し、生成された3つのタンパク質の3D構造を可視化しました。下の図は、ドッキング結果、予測結合親和性(低いほど良好)、およびpLDDTスコア(絶対値が高いほど良好)を示しています。生成されたタンパク質は有意な結合親和性を示しており、ヘム結合タンパク質設計におけるInstructProteinの有効性を確認しています。 図: 機能指示に基づく de novo タンパク質配列設計の可視化 大規模タンパク質モデルの探究は始まったばかりです。近年、大規模言語モデルは自然言語処理分野に革命的な変化をもたらしました。これらのモデルは、言語翻訳、情報検索、コード生成など、日常生活の様々な場面で広く利用されています。しかし、これらの言語モデルは自然言語やコード言語の処理においては優れた性能を発揮するものの、生物学的配列(タンパク質配列など)の処理には不十分です。こうした背景から、大規模タンパク質言語モデルの登場は時宜を得たものと言えるでしょう。 タンパク質言語モデルは、アミノ酸配列、タンパク質のフォールディングパターン、その他のタンパク質関連生物学的データを含むタンパク質関連データに基づいて特別に学習されます。そのため、タンパク質の構造、機能、相互作用を正確に予測する能力を備えています。タンパク質言語モデルは、生物学におけるAI技術の最先端応用であり、タンパク質配列のパターンと構造を学習することで、タンパク質の機能と形態を予測することができ、新薬開発、疾患治療、基礎生物学研究において大きな意義を持ちます。 2023年4月、Science誌に掲載された研究によると、メタAIチームの研究者らは、進化情報を抽出できる大規模言語モデルを用いて、配列から構造への予測ツール「ESMFold」を開発した。ESMFoldは、単一配列タンパク質の予測精度がAlphaFold2を上回り、相同配列を持つタンパク質の予測精度はAlphaFold2に迫る一方で、速度は1桁向上した。このモデルは6億件以上のメタゲノミクスからタンパク質を予測し、天然タンパク質の幅広さと多様性を実証した。 2023年7月、Besto Biotechと清華大学は共同で、最大数千億(1000億)のパラメータ数を持つxTrimo Protein General Language Model(xTrimoPGLM)と呼ばれるモデルを提案しました。理解タスクにおいて、xTrimoPGLMは様々なタンパク質理解タスクにおいて他の最先端のベースラインモデルを大幅に上回ります。また、生成タスクにおいては、xTrimoPGLMは天然タンパク質構造に類似した新しいタンパク質配列を生成することができます。 論文リンク: https://www.biorxiv.org/content/10.1101/2023.07.05.547496v3 2024年7月、清華大学知能産業研究所の周浩准研究員は、北京大学、南京大学、清華大学チームと共同で、マルチスケールタンパク質言語モデルESM-AA(ESM All Atom)を提案しました。残基拡張やマルチスケール位置エンコーディングなどの学習メカニズムを設計することで、原子スケールの情報処理能力を拡張します。ESM-AAは、標的-リガンド結合などのタスクにおける性能を大幅に向上させ、ESM-2などの現在の最先端(SOTA)タンパク質言語モデルを凌駕するだけでなく、Uni-Molなどの現在のSOTA分子表現学習モデルも凌駕します。関連研究「ESM All-Atom:統合分子モデリングのためのマルチスケールタンパク質言語モデル」は、機械学習のトップカンファレンスであるICMLで発表されました。 論文の宛先: https://icml.cc/virtual/2024/poster/35119 タンパク質言語モデルの研究は大きく進歩しているものの、タンパク質配列の空間的複雑性を完全に理解するにはまだ初期段階にあることを強調しておく価値がある。例えば、前述のInstructProteinモデルは数値タスクの処理において課題を抱えている。これは、3D構造の構築、安定性評価、機能評価といった定量的な解析を必要とするタンパク質モデリング分野において特に重要である。今後の研究では、定量的な記述を含むより広範な指示へと拡張し、モデルの定量的な出力能力を向上させることで、タンパク質言語と人間の言語の統合を促進し、様々な応用シナリオにおける実用性を拡大していくだろう。 参考文献: 1.https://arxiv.org/abs/2310.03269 2.https://mp.weixin.qq.com/s/UPsf9y9dcq_brLDYhIvz-w 3.https://hic.zju.edu.cn/ibct/2024/0228/c58187a2881806/page.htm 4.https://mp.weixin.qq.com/s/EUgwVamWgY8aYzCeDJIjFw 5. https://www.jiqizhixin.com/articles |
ACL 2024 メインセッションに選出 | InstructProtein: 知識指示を用いたタンパク質言語と人間の言語の整合
関連するおすすめ記事
-
Mafengwo の AI エージェントは、DeepSeek と統合された最初の観光業界アプリケーションになります。
-
浙江大学GIS研究所は、深センの1.7Kマンションの住宅価格を例に、注目メカニズムを使用して地理的コンテキストの特徴をマイニングし、空間非定常回帰の精度を向上させました。
-
材料科学界のAlphaFoldが登場!MicrosoftのAIモデルはNature誌で特集され、中国のチームと協力して新材料の発見にも取り組んでいます。
-
Apple、14年ぶりの製品リーク!M4版MacBookはまだ発売もされていないのに、開封動画が溢れている。
-
AI は 30 回連続で拒否されました。ChatGPT は修正のたびに悪化し、Claude は自分の考えに固執し、読んだことに返信しなくなりました。
-
第 9 回中国オープンソース年次会議とオープンソース協会 10 周年記念カーニバルが成功裏に終了しました。