|
ChatGPT、ChatGLM、LLaMAといった大規模言語モデルは、未知の世界を探索するための強力なツールとなっています。数十億のパラメータを持つこれらのモデルは、大規模なテキストコーパスを用いた綿密な学習を通じて、テキスト生成と文脈理解において優れた能力を発揮しています。しかし、これらのモデルは一般的なタスクでは優れた性能を発揮する一方で、特定の分野、特に創薬においては大きな課題に直面しています。 自然言語処理分野とは異なり、創薬には統一された標準的なパラダイムが存在せず、研究開発プロセスは複雑でコストがかかります。さらに、計算化学、構造生物学、バイオインフォマティクスといった複数の分野が関与するため、関連データの入手が困難です。さらに、薬物関連エンティティ間の相互作用データのアノテーションには高度なドメイン知識が必要です。これらの要因が相まって、創薬における大規模言語モデルの適用を制限しています。 これに対し、湖南大学、中南大学、湖南師範大学、湘潭大学の研究チームは共同で、マルチスケールのバイオメディカル知識に基づく大規模言語モデル「Y-Mol」を提案しました。Y-Molは、様々なテキストコーパスや指示に合わせて微調整可能な自己回帰型シーケンスツーシーケンスモデルであり、モデルの性能と医薬品開発における可能性を大幅に向上させます。これは、医薬品開発分野における大規模言語モデルにとって新たなブレークスルーとなります。 「Y-Mol: 医薬品開発のためのマルチスケール生物医学知識誘導型大規模言語モデル」と題されたこの研究は、arXiv にプレプリントとして公開されています。 研究のハイライト:
論文の宛先: オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。 https://github.com/hyperai/awesome-ai4s 2 つの主要なデータセットを徹底的に調査することで、包括的な生物医学コーパスを構築できます。Y-Mol の事前トレーニング データセットを構築するにあたり、本研究では 2 種類のデータセットを選択しました。バイオメディカル PubMed 出版物からのテキスト コーパス、バイオメディカル知識グラフに基づいて構築された教師あり指示、および専門家モデルから抽出された推論データです。 本研究では、出版物に含まれる豊富な生物医学的知識をより深く掘り下げるため、PubMedなどのオンライン出版プラットフォームから、複数の分野を網羅する3,300万件以上の出版物を抽出し、前処理を行いました。図Aに示すように、研究者らはこれらの出版物から可視的な抄録と概要を抽出し、それらを生物医学テキストデータ(再構成テキスト)として使用することで、コーパスの品質と関連性を確保しました。 出版物のコレクション 本研究では、生物医学知識ベースからドメイン知識を効率的に抽出するため、知識ベース内の事実を自然言語プロンプトに変換する。図Bに示すように、本研究では、サブグラフ内の各推論チェーンが明示的な関係的意味論を有すると仮定する。したがって、各一貫性のあるパスを抽出し、慎重に設計されたテンプレートを用いて自然言語記述に変換し、プロンプトコンテキストとして使用する。構築されたこれらのコンテキストは、対応する質問と組み合わせられ、Y-Molに入力されて教師あり回答を出力する。 ナレッジグラフの説明 さらに、薬物特性とドメイン知識に基づく大規模な指示を得るために、本研究では既存の小規模モデルから専門家が合成したデータを用いて指示を構築し、薬物知識スペクトルをY-Molに精緻化しました。最終的に、本研究では1,120万件のコーパスエントリと230万件の綿密に作成された指示を集積しました。 図Cに示すように、本研究では、特定の薬物分子についてより包括的な分子特性を抽出するために、ADMETlab、RDKit、TDC、DrugBANといった一連の高度な分子ツールと計算モデルを統合しています。これらのツールとモデルは、QED、SA、LogP、毒性、吸収、部分構造など、公開されているデータセットから様々な特性を持つ分子情報を抽出します。このように、本研究では最新のモデルとツールを継続的に統合し、それらの予測データを用いてモデルを学習することで、Y-Molをリアルタイムで進化させ、創薬分野におけるリーダーシップを維持しています。 専門家が合成したデータの説明 最後に、下図に示すように、本研究では、事前学習および教師あり微調整段階におけるY-Molの様々なタスクにおけるデータ分布を示しています。推論能力の評価に関しては、薬物標的相互作用(DTI)および薬物間相互作用(DDI)予測におけるY-Molの性能を包括的にテストするため、研究チームはDTI予測において広く認知されているベンチマークデータセットであるDrugBankとDrugCentralを選択しました。 異なるタスク間のY-Molデータ分布 一方、DDI予測の性能を評価するために、研究者らはRyu氏とDeng氏によって提供されたデータセットを使用しました。これらの評価方法は、Y-Molが医薬品開発における業界標準に基づいて公平かつ包括的にテストされ、その有効性が実証されるよう、慎重に選択されました。 Ryuのデータセット: https://doi.org/10.1073/pnas.1803294115 鄧小平のデータセット: https://doi.org/10.1093/bioinformatics/btaa501 Y-Mol: LLaMA2-7b をベースにしており、特に医薬品開発に使用されます。本研究では、医薬品開発に特化した高水準の学習・推論フレームワークであるY-Molを構築するために、基礎となる大規模言語モデルとしてLLaMA2-7bを選択しました。下図に示すように、 Y-Molの開発は2つの主要なフェーズで構成されています。 まず、Y-Molは大規模な生物医学出版物コーパスを用いて事前学習され、LLaMA2は自己教師あり事前学習によって微調整されます。これにより、Y-Molは医薬品開発の背景知識を基礎的に理解できるようになります。次に、LLaMA2は医薬品関連のドメイン知識と専門家が合成したデータを用いて、さらに教師あり学習と微調整が行われます。このプロセスにより、Y-Molに大量の医薬品関連情報が入力され、医薬品開発プロセスにおける相互作用メカニズムに対するモデルの理解が深まります。 Y-Molアーキテクチャ 本研究では、Y-Molを微調整するための多様な指示セットを綿密に設計しました。これらの指示には、分子テキストペアからの指示と、薬物データベースから抽出された記述が含まれています。これらの記述は、薬物の特性、構造、機能を自然言語で提示し、豊富な意味情報を含んでいます。これは、薬物実体認識における人間と大規模言語モデル間の一貫性を高めるのに役立ちます。 下図に示すように、本研究では生成された指示を教師あり学習の入力として用い、Y-Molに入力する。具体的には、構築されたプロンプトコンテキストと質問をY-Molに入力し、構築された回答を用いてモデルによって生成された出力を教師とする。 Y-Molは設計指示に基づいて微調整プロセスを監督した 研究者たちは、生成された指示に基づいてY-Molを綿密に微調整した後、リード化合物の発見から前臨床および臨床予測に至るまで、複数の段階にわたる下流タスクにY-Molを適用しました。この教師あり微調整アプローチにより、Y-Molは医薬品開発における複雑な問題をより正確に理解し、対処できるようになり、コンピュータ支援による医薬品発見のための強力なツールを提供します。 研究結果: Y-Mol が最高の予測性能を示しました。Y-Molの医薬品開発における有効性を完全に検証するため、本研究では、リード化合物の発見、前臨床研究、臨床予測など、様々な段階を網羅する一連のタスクを綿密に設計しました。具体的な主要タスクは以下のとおりです。(1) リード化合物発見のためのバーチャルスクリーニングと医薬品設計、(2) 前臨床段階における発見されたリード化合物の物理的・化学的特性の予測、(3) 臨床段階における潜在的な薬物有害事象の予測。 バーチャルスクリーニングでは、未知の薬物-標的相互作用ペアを特定することが極めて重要です。下表に示すように、Y-MolはLLaMA2と比較して、DrugBankデータセットとDrugCentralデータセットのAUCスコアをそれぞれ5.02%と4.13%向上させました。これは、Y-MolがマルチスケールデータソースにおけるDTI予測において非常に優れた性能を示しており、バーチャルスクリーニングにおける優れた性能を証明しています。 4つのデータセットにおけるDTIとDDIの予測性能の比較 医薬品設計において、Y-Molの新規リード化合物発見における性能を検証するため、本研究では特定の条件下で有効な化合物を生成するタスクも設計した。すなわち、ターゲット条件と記述クエリが与えられた場合、Y-Molがコンテキスト情報から対応するSMILES配列分子を正確に生成できるかどうかを評価するタスクである。 下表に示すように、本研究では、BBBやLogPを含む様々な単一目的を予測するために、妥当性、独自性、新規性、多様性といった標準的な指標を導入しました。結果は、Y-Molが全体的に優れたパフォーマンスを発揮することを示しています。対照的に、LLaMA2-7bモデルのみがドメイン適応性が低く、効果的な分子を生成できないことが示されています。同時に、本研究では、複数の目的におけるY-Molの医薬品設計パフォーマンスもテストしました。結果は、Y-Molがこれらの条件下でも優れたパフォーマンスを発揮することを示しています。 医薬品設計におけるY-Molの性能 分子特性予測では、下図に示すように、Y-Mol はすべてのタスクで LLaMA2 よりも低い R² スコアを示しており、Y-Mol の方が物理化学的特性の予測においてより強い一般化能力を持っていることがわかります。 γ-モルの物理化学的性質が予測されました。 医薬品開発の臨床段階において、潜在的な薬物間相互作用を予測することは、医薬品の安全な使用を確保するために不可欠です。下の図に示すように、Y-Molは潜在的な薬物相互作用(DDI)を特定するタスクにおいて非常に優れた性能を発揮します。 4つのデータセットにおけるDTIとDDIの予測性能の比較 下図に示すように、 Y-Molによって設計された薬剤は、クエリで提案された制約を効果的に満たしています。同様に、Y-Molは与えられた分子のLogDを7.4と正確に予測することができ、予測結果は実際の値に非常に近いため、Y-Molが医薬品開発タスクの解決に有効であることを証明しています。 医薬品設計と分子の物理化学的性質の予測に関する事例研究 AI技術:新薬発見の新たなエンジン実際、医薬品開発の長い道のりにおいて、科学者たちはこのプロセスを加速できる新しい技術を模索してきました。近年、AI技術はこの分野において大きな応用可能性を示しており、疾患のメカニズムをより深く理解するだけでなく、創薬や臨床試験といった重要な段階において重要な役割を果たしています。 ビジネスの世界では、AIを活用した医薬品開発において既に大きな成果を上げている企業もいくつかあります。例えば、AIを活用した医薬品開発企業であるInsilico Medicineは今年初め、特発性肺線維症の治療に新たなメカニズムを持つ新規臨床候補薬を発見したと発表しました。この薬効は、複数のヒト細胞および動物モデル実験によって検証されています。さらに、Huawei Cloudは中国科学院上海薬物研究所と共同で、Pangu薬物分子大規模モデルを発表しました。このモデルは、低分子医薬品開発の全プロセスにおいてAI支援による医薬品設計を可能にし、効率と精度を向上させます。 科学研究分野では、本研究の著者の一人である湖南大学の曽向祥教授のチームが、ペプチド配列のための大規模言語モデルを設計しました。彼らは計算条件とスクリーニング条件を段階的に追加することで、このモデルを訓練しました。わずか3ヶ月で、このモデルは29種類の抗菌ペプチドの設計と合成に成功し、そのうち26種類は広範囲の抗菌スペクトルを示しました。マウス実験では、これらの抗菌ペプチドのうち3種類がFDA承認の抗生物質に匹敵する抗菌効果を示し、25日間の連続培養とモニタリングにおいて顕著な薬剤耐性は観察されませんでした。この成果は、*Nature Communications*に正式に受理されました。 論文リンク: さらに、本研究のもう一人の著者である中南大学の曹東勝教授は、浙江大学の侯廷軍教授および謝長宇教授と共同で、分子最適化ツールPrompt-MolOptを最近開発しました。このアルゴリズムは、手がかりに基づく学習トレーニング戦略を用いることで、ゼロショット学習と少数ショット学習を多特性最適化に適用することを可能にします。 論文リンク: AI技術は、疾患メカニズムのより深い理解から創薬の加速、臨床試験設計の最適化に至るまで、医薬品開発の新たな原動力となりつつあります。技術の進歩に伴い、将来の医薬品研究においてますます重要な役割を果たすようになるでしょう。 |
初!4つの主要大学が共同で、LLaMA2を総合的に凌駕する性能を持つ医薬品開発向け大規模言語モデル「Y-Mol」をリリースしました。
関連するおすすめ記事
-
今年もインテリジェントドライビングを取り巻く状況は大きく変化しています。VLAテクノロジーがレースのルールを塗り替え、NVIDIA Thorが量産され、車両に搭載されるようになりました。固定点測位よりも、大ヒット製品が重要なのです。
-
オープンソース:人工知能の「シェアバイク時代」 - DeepSeekと技術民主主義の革命のケーススタディ
-
LLMベースのエージェントに関する詳細な記事
-
AIはあらゆる産業をどう活性化させるのか?テンセント グローバル デジタル エコシステム カンファレンスにぜひお越しください!
-
「Datawhale Li Hongyi チュートリアル」が公開されました!
-
ByteDanceの最新動画生成モデルが話題沸騰中!ネットユーザーがマーケティングツールとして直接盗用し、Soraの魅力を低下させている。