|
「CASP14の大会前、多くの研究グループはDeepMindの参加を知り、自分たちの成果が前回(CASP13)と似ているかもしれないと考え、誰も真剣に受け止めませんでした」と、当時ミシガン大学の張洋教授の研究室に在籍していた南開大学の鄭偉教授は語る。彼はチームと共にCASP14の大会に3回参加し、第一世代のAlphaFoldの登場とAlphaFold 2の瞬く間に名声を博した。 「素人は大局を見、専門家は細部を見る」という諺があるように、メディアはAlphaFoldの勝利を圧倒的に報道していましたが、CASP13でAlphaFoldと対峙した競合他社は、外の世界ほど驚きと熱狂に包まれていませんでした。鄭偉氏は当時、AlphaFoldはまだ「距離予測」の枠組みの中にあり、「努力すれば数ヶ月でAlphaFoldを追い抜くことができるかもしれない」と誰もが同意していたと振り返ります。同時に、業界が短期間で方法論的な革新を生み出すことは困難であり、「ボトルネック期」に入っていると感じていました。 このため、当初は CASP14 における DeepMind のパフォーマンスに大きな期待は寄せられていませんでした。 2020年11月末、CASP14の結果が発表され、鄭偉氏率いるチームはサーバー部門で優勝を果たしました。しかし、組織委員会は結果発表の際に、もう一つ考えさせられるニュースをもたらしました。 「あるチームが他の参加チームとは大きく異なる素晴らしいパフォーマンスを見せ、他の参加チームをはるかに凌駕しました。」彼はすぐに、DeepMindが「何か大きなものを開発したかもしれない」と悟りました。 結果がすべてを物語っています。AlphaFold 2はまさに素晴らしいものでした。「本当に驚きました。彼らは本当に素晴らしい仕事をしました」と、鄭偉氏らは当時分析しました。「AlphaFold 2は、学術界における過去の研究グループの高品質な成果と経験を効果的に統合し、モデルのトレーニングにより多くの労力を費やして最適な解を見出しました。AlphaFold 2のパフォーマンスは本当に素晴らしいです。」 その後開催されたCASP15は、「ポストAlphaFold 2時代」のヘビー級コンテストとして高く評価され、参加チーム数も急増し、タンパク質構造予測におけるAIの普及により、より広い注目を集めました。基礎研究から応用研究まで、学界から産業界まで、誰もがさらなる驚きを期待していました。鄭偉氏はCASPへの4回目の参加となり、構造最適化から構造予測への移行を経験し、豊富な経験を積んできました。激化する競争の中で、氏が開発を主導したDI-TASSERアルゴリズムとDMFold-Multimerアルゴリズムは、様々な部門で複数の優勝を果たしました。 CASP15では、鄭偉教授チームの予測結果とAlphaFold 2の予測結果が実験構造(実構造)と比較されました。 2024年、 CASP16は予定通り開催された。彼は南開大学に戻り、再びチームを率いて大会に出場した。出場したトラックや種目はさらに広がり、AlphaFold 3がオープンソース化されたことでも、彼は「原点に忠実であり続ける」という信念を貫き、複数のトラックで優勝を果たした。 結果発表後、HyperAIは鄭偉教授に詳細なインタビューを行う機会を得ました。教授は、この国際的に影響力のあるコンペティションを通して、現在の業界の発展動向を分析し、自身の経験に基づいて科学研究者のためのAIの成長経路をまとめてくれました。 さらに、鄭偉教授は、1月15日19時よりオンラインライブ配信にて、深層学習に基づく生体高分子の3次元構造予測とそれらの相互作用に関する研究成果を発表します。ぜひご視聴ください。 CASP入門:最適化から予測まで鄭偉氏は南開大学で学士号、修士号、博士号を取得し、当初は数学部で情報科学を専攻していました。しかし、当時同大学はバイオインフォマティクスも提供しており、多くの教授がタンパク質構造研究に深く関わっていました。そのため、基礎数学研究から応用研究への転向を決意した際、彼はこの方向を選びました。 「まず問題に直面し、次にツールに出会いました」と彼は言います。修士課程では、タンパク質構造の研究に注力し始めました。当時、この分野におけるAIの応用は現在ほど普及しておらず、彼が使用したツールは「非常に多岐にわたりました」。統計ツール、従来のアルゴリズム、機械学習、ディープラーニングなどです。 他の卒業生たちと同じように、彼も修士課程の終わりが近づくにつれ、就職活動を始めるべきか、それとも博士課程に進むべきか、迷いに悩んだ。「日本の慶応義塾大学への交換留学中、アカデミックな雰囲気を肌で感じ、科学研究の道を歩み続ける決意を固めました」と、日本とアメリカへの2度の交換留学が自身に与えた深い影響を振り返りながら語った。 2015年、博士課程の最後の2年間に米国ミシガン大学へ合同研修に行き、張洋教授の研究室で急成長を遂げた。 「構造予測の分野に導いてくれた張洋教授に感謝します。」前述の通り、鄭偉は張洋教授の研究室と共にCASPに3回参加した。「タンパク質構造予測のオリンピック」として知られるこのコンテストで、彼は豊富な実践経験を積んだ。 アメリカに到着して数ヶ月後、彼は十分な知識もないまま、CASP12タンパク質構造最適化(リファインメント)コンペティションに参加しました。新人だったこともあり、結果は理想的とは言えませんでしたが、自分の興味がどこにあるのかに気付くには十分でした。他人の構造予測の精度を向上できるなら、自分でタンパク質構造予測をやってみてもいいのではないか、と。 「このシンプルな論理的アイデアに基づいて構造予測を行うことにしました。」CASP13では、張楊教授の指導の下、テンプレート比較とテンプレート検索から構造予測に焦点を当てました。その後、テンプレート構造予測に基づくCEthreaderというアルゴリズムを構築し、他のチームメンバーと協力してアルゴリズムサーバーCI-TASSERを開発し、サーバーグループで1位を獲得しました。 この業界のコンテストでの最初の成功は彼に大きな自信を与えました。「構造予測は非常に優れており、ある程度の可能性があると思ったので、徐々にこの分野をさらに深く掘り下げ始めました。」 構造最適化から構造予測への飛躍を振り返り、鄭偉氏は率直に「課題もありましたが、共通点もありました」と認めています。第一に、両分野の方法論はそれぞれ独立したシステムであるため、相互に学び合ったり、経験を直接移転したりすることが不可能です。「最適化」は初期モデルの品質にばらつきがあり、改善の余地がほとんどなく、場合によってはエラーが発生する可能性があるという課題に直面しています。一方、「予測」はゼロから始めるため、はるかに困難です。第二に、どちらも原子レベルの空間座標に固定されており、空間の移動や変形といった共通点があるため、「想像していたほど難しくはありませんでした」と述べています。 鄭偉は構造予測分野に注力することを決意し、CASP14とCASP15に参加しました。CASP15では、タンパク質モノマーとタンパク質複合体に焦点を当て、他の参加チームをはるかに上回るスコアでタンパク質複合体予測部門で優勝しました。 CASP15では、鄭偉教授チームの予測結果とAlphaFold 2の予測結果が実験構造と比較されました。 業界のトレンドセッター:実用的な問題の解決に焦点を当てる1994年に始まったCASPは、2年に一度開催される国際コンテストであり、過去30年間で業界において数々の重要な成果を上げ、生物学分野の発展の潮流をよく反映しています。CASPに5回参加した鄭偉教授は、 CASPの問題と競技形式は組織委員会が思いつきで考案したものではなく、委員間の議論を通じて決定されたと説明しました。委員会はまた、参加チームを招集し、意見を募り、業界の現状把握に努めています。 このハイレベルなコンペティションに参加するチームは、長年にわたりこの分野に深く関わり、それぞれの研究分野において独自の洞察力を持つベテランの専門家や学者であることは間違いありません。鄭偉氏は次のように述べています。「皆が議論し、提案する方向性は、計算構造生物学における現在のホットなトピックである可能性もあれば、生物学と密接に関連し、緊急に取り組む必要がある方向性である可能性もあります。」 言い換えれば、 CASP は業界の重要な問題に対するアドバイスとソリューションを提供してきました。 最近終了したCASP16を振り返り、彼は「全体的な競争と難易度は例年に比べて高まっている」と感じている。まず、参加チームが例年に比べて大幅に増加した。「今年は大会開始以来、参加チーム数が最も多い年になるはずだった。主に学術界が中心で、経験豊富なCASP参加者も多く、競争は非常に熾烈になった」と付け加えた。次に、近年、国内チームがCASP大会に参加し、目覚ましい成果を上げていることを指摘した。さらに、アジアチームの割合も増加しており、韓国のバイオインフォマティクス分野は複数の業界リーダーの「パラシュート人事」の恩恵を受けており、参加チーム数に大きな変化が生じている。 第二に、コンテストの難易度が上昇したことは、タンパク質構造予測分野における技術の全体的な進歩と、産業界のニーズへのより明確な理解の両方を象徴しています。したがって、このコンテストは「より実用的な生物学的問題に重点を置いたもの」となっています。 CASPの難易度上昇と問題形式の多様化について、鄭偉教授は主に2つの理由を分析した。第一に、タンパク質予測の全体的な精度は、学界と産業界の両方で継続的に向上している。2015年から2020年にかけて、タンパク質モノマー構造予測の精度は既に急速に向上しており、学界の大きな成果により「モノマー構造予測の問題は限界に非常に近づいた」とされている。特に、産業界の優位性を統合したAlphaFold 2のリリース後、モデルの能力はさらに強化され、精度は新たなレベルにまで引き上げられた。 「一部の分野ではタンパク質モノマーの予測精度の向上が困難になり、タンパク質複合体やタンパク質アロステリックなど、他の新しい問題の研究に人々が目を向け始めている」と言えるでしょう。この傾向は、競技問題にも直接反映されています。しかし、新しい分野における予備研究は不足しており、そのため、問題がより難しく感じられる可能性があります。 一方、過去10回程度の大会では、運営委員会が用意した問題には、既に「実際の生物学的問題とは多少乖離した」生物学的情報や背景が含まれていました。さらに、参加チームは概ねこの種の問題で優れた成績を収めていました。例えば、タンパク質AとBという2つのタンパク質を含むタンパク質複合体の構造予測では、これまでの大会では構造予測の難易度を下げるため、AとBの含有量や割合を公開していました。しかし、実際の応用においては、当然ながらこれらの情報は容易に入手できません。そこで、今回の大会では問題設計を変更し、より現実的な問題構成にすることで、参加チームに完全な構造を一から予測させるようにしました。 これは鄭偉氏を含む出場者たちにとって「サプライズ」となった。彼によると、主催委員会から水曜日に0ベースの問題が翌週から公開されるとの通知があったという。新しいパイプラインの準備期間はわずか5日間だった。チームは小規模なアルゴリズムの開発に「昼夜を問わず」取り組み、生物学文献に基づいた推論やキャリブレーションを行うため、馴染みの生物学者チームに「アドバイザー」として協力を求めた。 CASP16では、既存のタンパク質モノマー構造予測(REGULAR)、タンパク質複合体構造予測(MULTIMER)、精度評価(EMA)、核酸構造予測(RNA)、リガンド複合体構造予測(LIGAND)に加え、高分子マルチコンフォメーション予測(ENSEMBLES)トラックが追加されました。これら6つのトラックはさらに多くのサブプロジェクトに分かれており、互いに重複する部分もあります。 鄭偉率いるチームは、それでもなお目覚ましい成果を上げました。彼とチームは、低分子結合を除く5つのトラックに参加しただけでなく、異なるトラックごとに個別のアルゴリズムを開発しました。その結果、タンパク質モノマー単一ドメイングループで2位、核酸多量体サーバーグループ(Zスコア> -2.0)で1位、複合体の総合フォールディング精度推定で1位、タンパク質-核酸複合体予測で1位、そして多構造予測のTMスコアで1位を獲得しました。 注目すべきは、CASP16開始から1週間後の5月8日にAlphaFold 3サーバーが稼働し、参加チームの一部がすぐに自社のアルゴリズムをAlphaFold 3に置き換えようと試み始めたことです。「当時はかなり自信があったので、AlphaFold 3はあまり使いませんでした」と、あるチームメンバーは語ります。しかし、チームメンバーと協議した結果、 「原点に忠実に従う」ことを決意し、タンパク質複合体構造予測の上位ランキングで唯一AlphaFold 3を使用しないチームとなりました。 Zheng Wei教授と他のCASP16参加チームが、CASP組織委員会の委員長John Moult氏と集合写真を撮りました。 鄭偉教授は今、「今振り返ると、少し自信過剰だったかもしれない」と笑うが、当時の競争相手全員が「複数のバフ」を持っているというプレッシャーの大きい競争環境の中で、そのような決断を下し、そのような結果を出すには、勇気と強さが必要だったと私は思う。 蓄積された知識と経験:AI4Sの導入と基盤実際、CASP16で生物学者から技術サポートを求める鄭偉氏のチームの動きは、科学のためのAIの分野では一般的な協力モデルです。 いわゆる「AI for Science」は、AIの利点を活用して、従来の科学研究における困難な課題の解決、あるいは効率性と精度の向上を目指しています。そのためには、研究分野のニーズと課題を理解し、AI技術を習得することが不可欠です。こうした学際的なバックグラウンドを持つ人材は、明らかに非常に貴重です。この潮流を受け、多くの研究者が独学でAIを学び始めています。同様に、AIやコンピューティングを専門とする研究者も、バイオメディカル、材料化学、地理情報科学といった分野にますます注目するようになっています。 情報科学からスタートした鄭偉教授は、バイオインフォマティクスの特徴について、「始めるのは簡単ですが、実際には蓄積のプロセスが非常に長いです。知識を蓄積した後は、ブレークスルーも比較的速いですが、その後ボトルネック期に入り、さらに向上したいと思ったときに再び蓄積するのに長い時間がかかることがあります」と述べました。 鄭偉教授の「蓄積曲線」 具体的には、タンパク質関連の研究における生物学のバックグラウンドに対する要件は比較的緩やかです。「アミノ酸20種類程度理解していれば、おそらく1、2ヶ月で始められるでしょう。」その後、実用的な問題に対するアルゴリズムの開発と適用に移ります。このプロセスには、経験を積むための一定の時間が必要です。 「修士課程の間、アルゴリズムの基礎研究を積み重ねていました」と彼は振り返ります。 タンパク質構造予測は、ボトルネックを乗り越える上での突破口となりました。ミシガン大学のヤン・チャン教授の研究室への留学・研究を通して、彼はAI支援によるタンパク質構造予測と関連研究をさらに深めるようになりました。 「ポスドク時代にこの分野で知見を蓄積し、徐々に成果を上げていきました。」 研究が深まり、その対象が広がるにつれて、一方的な「計算論的」な視点だけでは問題のあらゆる側面に対処することは難しくなり、場合によっては解決不可能な状況につながる可能性があります。さらに、AIアルゴリズムとモデルは、現実世界の生物学的問題を通して改良を重ね、反復とアップグレードを繰り返す必要があります。孤立したソリューションの開発を避けることが重要です。この点において、鄭偉は生物学者や関連チーム、機関と継続的に協力し、意見交換を行っています。 興味深いことに、彼は生物学チームに対し、AIに過大な期待を抱くべきではないという考えを一貫して植え付けていました。AIのエラー率もかなり高くなる可能性があるからです。まさにこの科学研究への敬意こそが、彼が「ドライアプローチとウェットアプローチの組み合わせ、つまり双方が互いに情報を提供し、補完し合うことで、実用的な問題に直面した際に、より確実な実装を実現する」ことを強調する理由です。 チームワークと多様な開発このインタビューでは、鄭偉教授にCASPにおけるご自身の経験と業界観察についてお話いただきました。CASP12からCASP16までの道のりを辿りながら、私は教授の変遷を目の当たりにしてきたかのようでした。最初は漠然と構造最適化を選択していましたが、やがて構造予測へと転向し、その面白さに気づき、そして次々と蓄積とブレークスルーを達成していく過程を目の当たりにしてきたかのようでした。 本日、南開大学からさらに多くの教員がCASPコンペティションに参加しました。鄭偉教授は、「チームの関心に基づいて全員が協力し、連携していくためには、より多くのトラック、つまりより多くの方向性が必要です」と述べています。そのため、CASP16では、チームは従来の強みに注力するのではなく、分野全体にわたって取り組みを多様化しました。「成果も損失もありました。全体として、CASP15ほど良い結果は得られなかったかもしれませんが、チームは貴重な教訓を得ました」と述べています。これは「蓄積曲線」における重要なステップであり、南開大学チームがCASPとバイオインフォマティクス分野全体において、さらなる飛躍を遂げることを期待しています。 新メンバー募集南開大学統計・データサイエンス学院の鄭偉教授のバイオインフォマティクスチームが新メンバーを募集しています。 計算構造生物学、バイオインフォマティクス、データサイエンスに興味がある方は、修士課程、博士課程、ポスドク課程のいずれの課程を修了しているかに関わらず、ぜひ Zheng Wei 教授のチームにご参加ください。 興味のある学生は、以下の方法で Zheng Wei 教授に連絡できます。
科学の謎を探求する旅に皆様のご参加をお待ちしております! |
タンパク質構造予測の先行指標であるCASPが5回目の開催を迎えました。南開大学の鄭偉氏は、「競争と難易度が高まっており、実用的な生物学的問題に焦点を当てる必要がある」とコメントしました。
関連するおすすめ記事
-
アジェンダ紹介 | RISC-Vフォーラム
-
香港中文大学、復旦大学、イェール大学などの研究機関が共同で開発した、タンパク質相同体の検出における新しい方法が提案され、感度が 56% 向上しました。
-
1月11日開催の北京開催の登録受付が始まりました!OceanBaseは、360、TuGraph、Zuoyebang、Boss Zhipinなどと共に、コミュニティの年末カーニバルに皆様をお誘いいたします!
-
ImageNet の空間インテリジェントバージョンが登場しました。Fei-Fei Li と Jia-Jun Wu のチームによって制作されました。
-
ロボットが靴ひもを結べる!スタンフォード大学チームがロボットに新たなスキルを付与 | オープンソース化
-
1000 元以下の最高のロボット開発キットが登場: Digua Robotics が RDK X5 をリリース。