|
2021 年、OpenAI は革新的な CLIP (Contrastive Language-Image Pre-training) モデルをリリースしました。CLIP は教師なし学習を通じて、追加の注釈情報を必要とせずに画像とテキストの関係を効果的に理解して関連付けることができます。 数年後、生物医学科学者のグループがこれに着想を得ました。CLIP は画像と言語を一致させるので、同じアプローチを使用してペプチドとタンパク質を一致させることができるのではないか、と。 デューク大学生物医学工学部の研究チームは、OpenAIによる対照的な言語画像事前学習によるリアルな画像生成の画期的な研究に着想を得て、PepPrCLIP(CLIPベースのペプチド優先順位付けスクリーニング)パイプラインを開発しました。このパイプラインは、これまで治療不可能だった病原性タンパク質に結合して阻害する能力を持つ短いタンパク質(ペプチド)を設計できます。標的の3D構造を用いてペプチドを生成する既存のプラットフォームRFDiffusionと比較して、PepPrCLIPはより高速で、標的タンパク質との適合性が高いペプチドをほぼ確実に生成できます。研究者らはさらに、PepPrCLIPによって選択された「ガイドペプチド」を阻害ペプチドとして使用した場合、またはE3ユビキチンリガーゼドメインと融合させた場合、in vitroで堅牢かつ優れた標的結合と制御性を実現することを実験的に検証しました。 「対照言語モデリングによる立体構造的に多様な標的に対するペプチド結合剤の新規設計」と題された関連する研究結果は、今年 1 月に Science Advances 誌に掲載されました。 論文の宛先: 関連するデータセットのダウンロード リンク: オープンソース プロジェクト「awesome-ai4s」は、200 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。 https://github.com/hyperai/awesome-ai4s 「医薬品化できない」問題への代替解決策を探る疾患治療へのアプローチの一つは、疾患を引き起こすタンパク質を特異的に標的とし、破壊する方法を開発することです。これらの主要なタンパク質は、丁寧に折られた折り鶴のように明確な構造を持つ場合があり、従来の低分子治療の標的として容易に利用できます。 しかし、病原性タンパク質の80%以上は「絡み合った塊」のような状態にあり、無秩序に絡み合っているため、標準的な治療法ではその表面結合部位を見つけて効果を発揮することがほぼ不可能です。「アンドラッガブル(創薬不可能)」という用語は、従来の医薬品開発において、構造的および機能的特性のために標的とするのが難しいタンパク質を指す際によく用いられます。 公開されている情報によると、薬剤耐性標的には次のような特徴があることが多いです。 * 拡張された平坦な機能インターフェースを備えていますが、明確に定義されたリガンド結合ポケットがありません。 * 標的タンパク質が機能するための特定のリガンドが不足している; * このターゲットは疾患抑制剤であり、タンパク質の活性を活性化する薬剤を必要とするため、薬剤開発はより困難になります。 * 創薬不可能な標的は複雑な生理学的機能を有することが多く、医薬品の設計と開発の難易度が増します。 * 医薬品開発戦略の限界。 これらの問題を回避するため、多くの研究者がペプチドを用いて病原性タンパク質に結合し分解する方法を研究してきました。ペプチドはタンパク質の小型版であるため、結合に表面ポケットを必要とせず、タンパク質内の異なるアミノ酸配列に結合することができます。 しかし、これらの方法にも限界があります。既存の「既製」の結合剤は、不安定な、あるいは過度に絡み合ったタンパク質構造に結合するようには設計されていないからです。科学者たちは新たな結合タンパク質の開発に取り組んでいますが、これらの方法は依然として標的タンパク質の3次元構造のマッピングに依存しており、これは無秩序な標的には利用できません。 この記事では、デューク大学生物医学工学部の研究チームによる、異なるアプローチについて紹介します。彼らは病原性タンパク質の構造マッピングではなく、大規模言語モデル(LLM)から着想を得てPepPrCLIPを構築しました。その第一の構成要素であるPepPrは、天然タンパク質配列の大規模ライブラリで学習した生成アルゴリズムを用いて、特定の特性を持つ新しい「ガイド」タンパク質を設計します。第二の構成要素であるCLIPは、OpenAIが独自に開発したアルゴリズムフレームワークを用いて、これらのペプチドが標的タンパク質と一致するかどうかをテストおよびスクリーニングします。 CLIPベースのペプチド優先順位付けスクリーニングワークフローの構築—PepPrCLIPPepPrCLIP はどのように構築されるのでしょうか? 要約すると、研究者らはまずESM-2タンパク質言語モデル(pLM)を用いて、実際のペプチド結合配列の埋め込みにガウスノイズを作用させ、自然な特性を持つ候補ペプチド配列を生成した。次に、CLIPベースの対照学習アーキテクチャを用いて、これらの候補ペプチドを潜在空間でスクリーニングし、相補的なペプチド-タンパク質ペアを共エンコードするモデルを学習した。最後に、構築されたPepPrCLIPは、生成-識別フレームワークを統合し、標的配列に結合できる全く新しいペプチド候補配列を選別する。 次の図は、PepPrCLIP モデルの具体的なトレーニング プロセスを示しています。 PepPrCLIPモデルのトレーニングプロセス 上図に示すように、ESM-2に埋め込まれたネイティブペプチドをサンプリングすることでガウス分布が生成され、その後アミノ酸配列にデコードされます。学習済みのCLIPモジュールは、対応するペプチド-タンパク質埋め込みを共同でエンコードし、数千のペプチドを選別して、標的に対する特異的結合活性を評価します。具体的には、 * CLIPアーキテクチャとトレーニング まず、入力シーケンスを凍結ESM-2-650Mモデルを用いて埋め込み、入力埋め込みを生成します。次に、入力埋め込みをシーケンス長にわたって平均化し、ペプチドとタンパク質の両方に適用可能な埋め込みベクトルを取得します。hMLP層を適用し、埋め込みベクトルをCorrected Linear Unit (ReLU)活性化関数を用いて処理することで、出力埋め込みを取得します。CLIPスコアは、ペプチドとタンパク質の埋め込みベクトル間のドット積を計算することで得られ、値は-1から1までです。このモデルは、ペプチドとタンパク質の結合ペアに対して高いCLIPスコアを達成するようにトレーニングされています。 * ペプチド候補配列の生成 候補ペプチドは、トレーニングセット内のすべてのペプチドから生成され、それぞれPyTorchのESM-2-650M pLMを用いて埋め込まれます。与えられたペプチド埋め込みについて、埋め込みの全次元の分散が計算されます。ソースペプチドの各残基について、標準正規分布からノイズがサンプリングされ、分散に乗じて摂動が生成され、対応する残基の埋め込みに追加されます。推論中は、トレーニングセットからソースペプチドがランダムにサンプリングされ、各ソースペプチドに対して、前述のノイズ法を用いて1,000個のペプチドが生成されます。最終的に、これらのペプチド(約10万個)がCLIPモデルに入力され、ユーザーが提供したターゲット配列の予測値との組み合わせに基づいて順位付けされます。 研究者らはコンピュータシミュレーションテストにおいて、PepPrCLIPとRFDiffusionの性能を比較しました。PepPrCLIPとRFDiffusionで生成されたペプチドのipTMスコアを比較したところ、下図に示すように、標的ペプチドの33%においてPepPrCLIPがRFDiffusionを上回る結果となりました。さらに、PepPrCLIPは配列埋め込みのみを利用することで、生成と優先順位付けの速度を大幅に向上させ、1分間に約1,000個のペプチドを生成し、タンパク質標的ごとに約1分で10万個のペプチドをシーケンスします。一方、RFDiffusionでは1つの結合化合物を設計するのに約2分かかります。この効率性により、構造情報の入手可能性に関わらず、大規模なペプチドライブラリのスクリーニングにおいてPepPrCLIPは特に有利となります。 PepPrCLIP生成とコンピュータシミュレーションベンチマーク評価 研究チームは、秩序立ったタンパク質標的と無秩序なタンパク質標的に対するPepPrCLIPの有効性をさらに評価するために、デューク大学医学部、コーネル大学、サンフォード・バーナム・プレビス医療発見研究所の研究チームとも協力し、このプラットフォーム上で実験テストを実施しました。 最初のテストでは、研究チームは、PepPrCLIPによって生成されたペプチドがUltraID(比較的単純で安定した酵素タンパク質)に効果的に結合し、その活性を阻害できることを示しました。 次に、研究チームはPepPrCLIPを用いて、β-カテニンに結合できるペプチドを設計しました。β-カテニンは、様々な種類の癌におけるシグナル伝達に関与する、複雑で不規則なタンパク質です。下図に示すように、研究チームは6つのペプチドを生成し、CLIPによってこれらのペプチドがタンパク質に結合できることを示しました。そのうち4つは標的に効果的に結合し、分解しました。タンパク質を破壊することで、癌細胞のシグナル伝達を遅らせることができました。 PepPrCLIPによって生成されたペプチド誘導β-カテニンuAbsの特性評価 研究チームは、最も高度な試験を用いて、滑膜肉腫に関連する高度に不規則なタンパク質に結合できるペプチドを設計しました。滑膜肉腫は、全軟部組織腫瘍の5~10%を占める稀な悪性腫瘍です。滑膜肉腫は軟部組織に発生し、主に小児および若年成人に発症します。この疾患は、特異な高度に不規則な腫瘍形成性融合タンパク質であるSS18-SSXの存在を特徴としています。 研究チームは、滑膜肉腫細胞にペプチドを導入し、10種類のデザインを試験しました。下図に示すように、PepPrCLIPによってSS18-SSX1に結合すると予測されたペプチドのうち、SS_PpC_4はSS18-SSX1-mCherryの蛍光を著しく減少させました。次に、研究者らはSS_PpC_4の過剰発現が内因性SS18-SSX1融合タンパク質のレベルに及ぼす影響についても試験しました。特に、SS_PpC_4ペプチドの過剰発現はSS18-SSX1タンパク質レベルを著しく減少させました(>40%)。 PepPrCLIPによって生成されたペプチド誘導uAbによるSS18-SSX1融合タンパク質の特性評価 つまり、 PepPrCLIPによって設計されたペプチドは、タンパク質に結合し、分解することができるのです。もしタンパク質を破壊できれば、研究者はこれまで治療不可能だったがんに対する治療法を開発する機会を得ることができ、多くの刺激的な臨床的可能性を切り開くことになります。 AIは「治療不可能な」病気を克服するための新たなツールを提供します。2023年9月にNatureのサブジャーナルに掲載された最近のレビューでは、「アンドラッガブル(創薬不可能)」なタンパク質を標的とした創薬の最新動向とその臨床応用について包括的にレビューしました。類似した「アンドラッガブル」な特性を持つ様々な分子は、以下のように分類されました。 ① 小型 GTPase: KRAS、HRAS、NRAS などの RAS ファミリータンパク質など。表面に標的となるポケットがないため、治療不可能と考えられています。 ②ホスファターゼ:各ホスファターゼの構造には多くの類似性があるため、選択性が低い、副作用が避けられないなどの問題があり、創薬の進歩を大きく妨げています。 ③ 転写因子(TF):多くのヒト疾患は、多くの生物学的プロセスに関与する転写因子の調節異常と関連しており、そのほとんどは、構造の異質性と管理可能な結合部位の欠如のために、従来の小分子では標的とすることができません。 ④ エピジェネティックターゲット:エピジェネティックターゲットは遺伝子発現パターンの調節に重要な役割を果たし、さまざまな生物学的プロセスや疾患に影響を及ぼします。 ⑤ その他のタンパク質:タンパク質間相互作用(PPI)とそのネットワークは、生物学的プロセスと細胞周期の調節において重要です。平坦な相互作用面を持つPPIの中には、他のPPIよりも標的化が困難なものがあり、ある程度「アンドラッグ(薬物治療不可能)」となっています。 今日、いわゆる「創薬不可能(undruggable)」な標的に対し、学術界は数十もの革新的な手法を開発してきました。創薬不可能なタンパク質のメカニズムに基づき、フラグメントベース創薬(FBDD)、コンピュータ支援創薬(CADD)、バーチャルスクリーニング(VS)、DNAコードライブラリ(DEL)といった最先端技術を駆使し、体系的な創薬戦略を構築してきました。そして今、人工知能の発展と大規模タンパク質言語モデルの台頭により、この課題を克服するための新たなツールが提供され、近年、産業界と学術界の両方で大きな進歩がもたらされています。 2023年12月、生成AI抗体発見のリーダーであるAbsci Corporationは、単一の腫瘍標的を標的とするAI設計抗体の開発でAstraZenecaと提携すると発表しました。この提携は、Absciの統合医薬品創出プラットフォームとAstraZenecaの腫瘍学の専門知識を組み合わせ、潜在的な新しいがん治療候補の発見を加速します。Absciの統合医薬品創出プラットフォームは、何百万ものタンパク質間相互作用を測定することで独自のデータを生成します。このデータは、Absci独自のAIモデルをトレーニングし、後続の反復で新しいAIモデルを使用して設計された抗体を検証するために使用されます。このプラットフォームは、データ収集、AI駆動型設計、実験室検証を約6週間で完了することで創薬を加速し、これまで創薬不可能と考えられていたものも含めて、創薬ターゲットの範囲を拡大すると期待されています。 学術界では、 2025年1月、AI駆動型製薬企業Insil Intelligenceとカナダのトロント大学が共同で行った研究において、量子コンピューティングモデルと古典コンピューティングモデル、そして生成型人工知能(GAI)が融合されました。大規模なデータセットの学習、生成、スクリーニングを通じて、より幅広い化学的可能性を探求し、「創薬不可能」とされるがんドライバータンパク質KRASを標的とする新規分子を発見しました。 KRAS変異は癌における最も一般的な変異の一つであり、ヒト腫瘍の約4分の1に発現しています。KRAS変異は制御不能な細胞増殖を引き起こし、最終的には癌を引き起こします。本研究では、新たなKRAS阻害剤候補を創出するため、量子変分生成モデル(QCBM)と長短期記憶ネットワーク(LSTM)を組み合わせた量子・古典ハイブリッドフレームワークモデルを提案し、量子コンピューティングと古典的計算手法を統合して新規分子を設計しました。本研究は、セントジュード小児研究病院をはじめとする研究機関の支援を受け、「量子コンピューティング強化アルゴリズムが新たなKRAS阻害剤候補を発見」と題された関連研究結果がNature Biotechnology誌に掲載されました。 関連技術の飛躍的進歩により、人類は病気との闘いにおいて新たな想像力と無限の可能性をもたらしました。 |
デューク大学は PepPrCLIP を使用して「治療不可能」な癌の課題を克服し、新たな癌治療法の開発につながる可能性を秘めています。
関連するおすすめ記事
-
DeepSeekは本日、3つの新しいリポジトリソースをリリースしました。最適化された並列戦略の開発には、Liang Wenfeng氏自身が参加しました。
-
「Huang (Nvidia CEO) は嘘をついた!」 5070 の最初のレビュー: 4090 の 1/3 の価格で競合すると約束したが、実際には 4070Ti よりも劣っていた。
-
イーロン・マスクがテスラのリソースを犠牲にしてOpenAIに挑戦する新しい大規模モデルを発表。直接テストがここにあります。
-
唯一のオープンソース70B Llama 3.3モデルをオンラインで実行できます。405Bモデルに匹敵するパフォーマンスを実現!数式認識に役立つLaTeX OCRデータセットもオンラインで利用可能になりました。
-
Tsinghua NLP オープンソース RAG フレームワークはすぐに使用でき、モデル選択の手間をかけずに知識ベースに自動的に適応します。
-
インテリジェンスの世界を実現する | 2024 Google Developer Conference ライブ ストリーム ガイド