|
タンパク質は生命の構成要素であり、生命活動の主要な担い手です。ポストゲノム時代において、タンパク質シーケンシング技術の発展に伴い、タンパク質配列データベースは爆発的に増加しています。タンパク質の多様性と機能をより深く理解するために、タンパク質の同定は生物学において特に重要になっています。 タンパク質同定のプロセスにおいて、タンパク質配列の相同性決定は極めて重要な作業であり、科学者がタンパク質の進化的関係、構造的特徴、そして機能を理解する上で重要な役割を果たします。従来のタンパク質配列アライメント法は多くの場合良好な結果をもたらしますが、遠距離相同遺伝子を扱う際には不十分です。これらの遠距離相同遺伝子は配列類似性が低いため、日常的なアライメントでは見落とされがちであり、研究者によるタンパク質の多様性と複雑性に関する包括的な理解を阻害しています。 タンパク質の遠距離相同性研究における課題に対処するため、香港中文大学の Yu Li 氏は、復旦大学知能複雑系研究所および上海人工知能研究所の若手研究者 Siqi Sun 氏、およびイェール大学の Mark Gerstein 氏と共同で、タンパク質言語モデルと高密度検索テクノロジーに基づく超高速かつ高感度の相同性検出フレームワークである高密度相同性検索 (DHR) を提案しました。 DHR(Dense Response Detection)は、デュアルエンコーダー構造とタンパク質言語モデルの強力な機能により、従来の配列アライメントに頼ることなく、配列の奥深くに隠れた遠距離のホモログを同定できます。これにより、ホモログ同定にかつてないスピードと感度をもたらします。「Deep Dense Retrievalを用いたタンパク質ホモログの高速かつ高感度な検出」と題されたこの研究は、国際的に著名な学術誌「Nature Biotechnology」に掲載されました。 研究のハイライト:
論文の宛先: https://doi.org/10.1038/s41587-024-02353-6 オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。 データセットは、より広範囲のタンパク質配列ファミリーを探索するために複数の次元を使用して構築されています。本研究のために構築されたトレーニングセットは、UR90から厳選された200万のクエリ配列で構成されました。JackHMMERアルゴリズムを用いて、Uni-Clust30で候補配列を反復的に検索し、多重配列アライメント(MSA)と比較しました。各MSAには1,000個の相同配列が含まれており、最も関連性の高い配列のみが保持されるよう配慮されています。厳密なスクリーニングの後、JackHMMERは得られた異なる配列を処理するために再導入され、公平な比較を行うためにAF2(AlphaFold 2)と同じハイパーパラメータ設定が使用されました。 大規模データセットの研究では、約 3 億個のタンパク質を含む大規模なデータベースである BFD/MGnify データセットを使用して、より広範囲のタンパク質配列ファミリー ラインを調査しました。 DHR法:タンパク質相同遺伝子探索のための超高速・高感度パイプラインDHR法の核となるアイデアは、タンパク質配列を高密度埋め込みベクトルにエンコードすることで、配列間の類似性を効果的に計算することです。具体的には、本研究では、ESMを初期化し、アンサンブル対照学習技術を用いることで、配列エンコーダを効果的に学習させることで、タンパク質言語モデルの構築に必要な条件を整え、相同遺伝子検索においてDHRをより効果的に活用できるようにします。 図aに示すように、デュアルエンコーダのトレーニングフェーズを完了することで、本研究では高品質なオフラインタンパク質配列埋め込みを生成することができました。次に、これらの埋め込みと類似性検索アルゴリズムを用いて、各クエリタンパク質の相同遺伝子を検索しました。類似性を検索指標として指定することで、従来の方法よりも正確に類似タンパク質を見つけることができ、2つのタンパク質間の類似性はさらなる分析に利用できるようになりました。最後に、JackHMMERは取得した相同遺伝子のMSAを構築し、迅速かつ効果的な相同遺伝子発見のためのDHR技術を確立しました。 DHRフレームワークのトレーニング構造 さらに、この研究では、DHR と AF2 デフォルトを組み合わせることで、CASP13DM (ドメイン シーケンス) および CASP14DM ターゲット上の個々のパイプラインよりも優れたパフォーマンスを発揮するハイブリッド モデル、DHR-meta が開発されました。 本研究では、生成されたタンパク質埋め込みデータを取得した後、標準的なSCOPe(タンパク質構造分類)データセットを用いて、DHRの性能を評価するために、それらの手法と比較しました。下の図cに示すように、DHRデータの感度は他の手法よりも優れています。 DHRと他の方法の感度比較 さらに、下図hに示すように、d1w0haクエリの具体的な例では、PSI-BLASTとMMseqs2のどちらも結果を取得できませんでしたが、DHRはSCOPeでd1w0haと同じファミリーに分類される5つのホモログを取得しました。これは、DHRがより多くの構造情報を取得できることを意味します。PSI-BLAST、MMseqs2、DIAMOND、HMMERなどの従来の手法と比較して、DHRは最も多くのホモログを検出しました(感度93%)。これは、 DHRが豊富な構造情報を統合し、多くの場合100%の感度を達成できることを示しています。 k-mer法に基づくc.55.3.5ファミリーの研究 研究結果の信頼性を高めるため、本研究ではもう一つの標準的な指標、すなわち最初のFP前の曲線下面積(AUC-1FP)も取り入れました。図dに示す通り、DHRは89%のスコアを達成しました。一方、他の手法も同等の性能を示しましたが、実行時間が大幅に長くなりました。さらに、より難易度の高いスーパーファミリーレベルの遠縁ホモログを解析したところ、全ての手法で大幅な性能低下が見られ、全体で約10%の低下が見られました。しかしながら、DHRは依然としてトップの座を維持し、AUC-1FPスコアは80%に達しました。 SCOPeファミリーとスーパーファミリーにおける異なる方法を用いたAUC-1FP指標の比較 本研究では、BLASTを用いてSCOPeとUniRef90データベースを比較したところ、ほとんどのサンプルで一致数が100未満であり、約500のサンプルでは一致が全く見られなかったことも明らかになりました。これは、これらのサンプルがトレーニングデータセットでは「未知の」構造であったことを示しています。対照的に、DHRはこれらの構造に対しても高品質の予測を達成し、AUC-1FPスコアは89%に達しました。これは、 DHRが全く新しいデータも処理できる能力を実証しています。 図aに示すように、本研究では相同性検索プロセスにおいて、DHR配列埋め込みには膨大な構造情報が含まれており、相同性検索におけるDHRの精度は構造ベースのアライメント手法を凌駕することが明らかになった。この結果に基づき、本研究ではDHR配列類似度ランキングと構造類似度との相関関係をさらに明らかにした。 DHRのt分布ランダム埋め込みの可視化 研究結果: DHR は優れた精度と有効性を示し、大規模なデータセット上で高品質の MSA の構築を可能にします。本研究では、DHRが提供するホモログを用いてJackHMMERからMSAを作成し、デフォルトのAF2パイプラインと比較しました。下図aに示すように、DHR + JackHMMERの全構成の平均実行速度は、標準のAF2 JackHMMERよりも高速です。さらに、UniRef90上でMSAを構築する際、DHRはJackHMMERと約80%の重複が見られました。これは、 MSAに関連する多くの下流タスクをDHRを用いて実行し、より高速に同様の結果を得られることを示しています。 異なるTOP-K条件下での計算速度 図eとfに示すように、DHRのもう一つの利点は、JackHMMERが線形に拡張するのに対し、一定時間内に様々な長さの相同遺伝子を同数構築できることです。さらに、AF2と比較して、DHRはクエリ埋め込みに対してより多くの相同遺伝子とMSAを提供します。これらの結果は、DHRがあらゆるカテゴリにわたるMSA構築に有望な手法であることを示しています。 異なる設定下でのDHRを用いたMSA構築のための配列長 DHRは様々なMSAを生成できますが、本研究では、AF2ベースラインのMSAを補完できるかどうかをさらに分析しました。図aとbに示す結果から、様々なDHR設定において、全てのMSAをAF2と統合することで最適な結果が得られることがわかりました。これは、DHRがAF2のMSAパイプラインを迅速かつ正確に補完できることを意味します。 異なるDHR構成におけるTMスコアとlDDT評価 大規模言語モデルのタンパク質構造予測における潜在的な利点を検証するため、本研究では、MSAを大規模言語モデルに置き換えることで、CASP14DMのすべてのターゲットにおいてより良い結果が得られるかどうかを評価しました。図cに示すように、利用可能なMSAの数が多い単純なケースでは、言語モデルはMSAと同等の情報を伝えることができます。しかし、配列長が長くなるにつれて、DHR-metaのパフォーマンスは向上し、ほぼすべてのケースでESMFoldを上回りました。これは、言語モデルベースの手法と比較して、 MSAベースのモデルは予測の精度と有効性を大幅に向上できることを意味します。 予測構造におけるMSA log MeeffとTMスコアの関係 大規模データセットにおけるDHRのスケーラビリティを調査するため、本研究ではBFM/MGnifyに基づくDHRの詳細な分析を実施しました。図bに示すように、周波数変調された標的タンパク質(FMターゲット)の構造予測という複雑なシナリオにおいて、DHRはより意味のあるMSAを生成する点で際立っています。MMseqs2を用いてMSAを構築するColabFold法は、ColabFold法をTMスコアで0.007上回りました。 下の図cでは、DHRはColabFold-MMseqs2と比較してわずかなパフォーマンス向上を示しています。また、下の図dは、CASP14とSCOPeの類似性テスト後、DHRが単にクエリやヒット結果を記憶するのではなく、すべてのターゲットに対して包括的な類似性評価を実行していることを示しています。これらの結果は、DHRが多様性の高い大規模検索データセットにおいて、ディスオーダータンパク質のMSAを構築できることを示しています。 CASP15でDHRを拡張および評価する タンパク質構造予測分野の若手人材タンパク質構造予測は、医薬品開発や抗体設計といった応用において、疑いなく重要な役割を果たしています。AIは、タンパク質構造予測の精度限界という歴史的課題を打破する鍵となる可能性があります。この重要な分野において、国内の研究チームは徐々に活気に満ちた多様な人材を擁する体制を整えており、新進気鋭の若手研究者は紛れもない勢力となっています。前述の研究を主導した李宇氏と孫思奇氏は、この分野における最高峰の研究者の一人です。 李裕 Li Yu は、2015 年に中国科学技術大学の北世章エリートクラスから生物科学の理学士(優等)を取得し、2016 年 12 月にサウジアラビアのキングアブドラ科学技術大学(KAUST)でコンピュータサイエンスの理学修士号を取得し、2020 年に同大学でコンピュータサイエンスの博士号を取得しました。 同年12月、彼は中国に戻り、香港中文大学コンピュータサイエンス・エンジニアリング学部の助教授に就任し、ヘルスケアにおける人工知能(AIH)グループを率いました。機械学習、ヘルスケア、バイオインフォマティクスの交差点において詳細な研究を行い、生物学とヘルスケアにおける計算問題、特に構造化学習問題を解決するための新たな機械学習手法の開発をチームを率いました。 生物学とヘルスケアにおける自身の専門知識について、李宇氏は「私の長期的な目標は、ヘルスケアシステムを改善し、人々の健康と福祉を向上させることで社会に直接貢献することです」と述べています。注目すべきは、彼が2022年にフォーブス・アジア誌の「30 Under 30」(ヘルスケア・科学分野)に選ばれたことです。 スン・シキ 孫思奇氏は、世界的なタンパク質構造予測コンペティションで優れた成績を収め、現在は復旦大学知能複雑系基礎理論・基幹技術研究所および上海人工知能研究所で若手研究員として活躍しています。彼は、生命科学や自然言語処理といった学際分野におけるディープラーニングの応用に尽力しており、モデルの精度と速度の向上、そしてこれらのモデルの実用化における具体的な問題の解決に注力しています。 タンパク質予測の分野では、ディープラーニングモデルを用いてタンパク質の構造と配列を予測することに注力しています。モデルを訓練し、配列のパターンや規則性を識別することで、タンパク質の配列とフォールディングを予測し、de novoタンパク質配列決定と構造予測の精度と効率を向上させ、創薬と疾患治療における新たな可能性を創出します。 中国のAI4S分野では、ますます多くの若者が積極的に参加しています。AI技術がタンパク質構造予測においてますます重要な役割を果たすことが予測されますが、その道のりは長く険しいものとなります。しかし、国内の研究チームは揺るぎない献身と革新力を発揮し、アルゴリズムの最適化やモデル構築に注力するだけでなく、データ処理や実験検証といった分野にも深く取り組み、研究成果の科学的厳密性と実用性を確保しています。こうした努力は徐々に実用化へと繋がり、医薬品研究開発やバイオテクノロジーといった分野に新たな活力と希望をもたらしています。 最後に、学術共有イベントをお勧めします! 「Meet AI4S」第3回では、上海交通大学自然科学研究所および上海国家応用数学センターのポスドク研究員、周子怡博士が登場します。ライブ配信を視聴するには、こちらをクリックしてお席をご予約ください! https://hdxu.cn/6Bjomhdxu.cn/6Bjom |
香港中文大学、復旦大学、イェール大学などの研究機関が共同で開発した、タンパク質相同体の検出における新しい方法が提案され、感度が 56% 向上しました。
関連するおすすめ記事
-
Datawhale 慈善団体は、子供たちが自分の興味や情熱を発見するのを支援します。
-
「なぜ最も強力なオープンソース CPU は中国製なのか?」シリコンバレーの著名なインフルエンサーがこの考えさせられる質問を投げかけ、50 万人のオンライン視聴者の注目を集めました。
-
知乎の人物をAIがまとめました。
-
アジェンダ紹介 | Webアプリケーション開発フォーラム
-
XPengがゲームに復帰!過去最高の財務報告書では、すべての指標が過去最高を記録し、損益分岐点も検討されている。
-
高性能、低電力の NPU と組み合わせた異種コンピューティング: Qualcomm はエッジでの生成 AI の開発を推進しています。