618ZXW

ハーバード大学哲学科からタンパク質設計の修士へ:デイビッド・ベイカー:AlphaFoldのおかげでディープラーニングの威力を深く認識した

タンパク質設計をリードする世界トップクラスの巨匠といえば、ワシントン大学のデイビッド・ベイカー教授は間違いなく有力候補です。この分野の第一人者として、ベイカー教授はタンパク質に関する700本以上の研究論文を発表し、累計引用数は17万7000件を超えています。今年10月、ベイカー教授はタンパク質設計への多大な貢献により2024年のノーベル化学賞を受賞し、学術界への大きな影響力を示しました。

しかし、ベイカー氏の影響力はそれだけにとどまりません。業界においても、彼の名は広く知られています。ワシントン大学タンパク質設計研究所のウェブサイトによると、ベイカー氏は21社の設立に直接関わっています。今年4月には、彼が共同設立したAI駆動型製薬会社Xaira Therapeuticsが、2022年ノーベル化学賞受賞者のキャロリン・ベルトッツィ氏の参加を促しただけでなく、10億ドルという巨額の資金調達を達成し、第2四半期の世界資金調達ランキングでトップに躍り出ました。セコイア・キャピタルやARCH Venture Partnersといった大手投資会社もこの投資を支持しています。

学界で数多くの学生を指導し、産業界で目覚ましい成功を収めた科学者、デビッド・ベイカー氏の成長と成功の秘訣は何でしょうか?

デビッド・ベイカー氏のノーベル賞受賞を祝う(画像提供:タンパク質設計研究所)

共通の利益から始めて、世界的な資源を結集し、課題を克服することができます。

デビッド・ベイカーは1962年10月6日、ワシントン州シアトルのユダヤ人家庭に生まれました。両親はそれぞれ物理学者と地球物理学者でした。しかし、ベイカーは当初科学に興味を持っていませんでした。ハーバード大学で哲学と社会学を専攻しましたが、今振り返ってみると「あれは完全に時間の無駄だった。会話の多くは無意味だった」と語っています。

大学4年生の時、ベイカーは発生生物学の講義を受講し、驚くべき実験を目の当たりにした。タンパク質変性剤を加えるとRNaseはRNAを切断する活性を失ったが、溶液から変性剤を蒸発させると奇跡的に活性が回復したのだ。タンパク質はどのようにして自律的に正しい構造を見つけ、瞬時に機能するのだろうか?科学的な問いに対する明確な答えを求める探求は、哲学の曖昧さよりも彼を突き動かした。そして、彼は古典的教科書『細胞・分子生物学』を読み始め、生物学にますます魅了されていった。

その後、ベイカー氏はノーベル生理学・医学賞受賞者のランディ・シェックマン氏の研究室に加わり、1989年にカリフォルニア大学バークレー校で生化学の博士号を取得しました。

博士号取得後、ベイカーはカリフォルニア大学サンフランシスコ校のデイビッド・アガード教授の研究室でポスドク研究を始めました。そこで彼は、コンピューターを用いて結晶構造を解明しようと試み、コンピューターを使ってタンパク質の構造を予測するというアイデアを思いつきました。「私がポスドク研究員として働いていた構造生物学研究室には、結晶構造を解明するための専用の部屋がありました。皆がコンピューター端末の前に座り、アミノ酸鎖と電子密度マップを一致させるのに忙しくしていました。私は座って3分間試してみたところ、頭が割れるように痛くなりました。その時、私は自分にはそんなことはできないと気づき、コンピューターを使ってもっと意味のあることをしたいと思ったのです。」

この疑問を抱き、ベイカーは1993年に故郷シアトルに戻り、ワシントン大学で学びました。そこで彼は、アミノ酸配列に基づいてタンパク質の構造を予測するソフトウェア(後に人気を博すことになるRosetta)の開発を始めました。同大学で、ベイカーは生化学の教授である妻ハンネレ・ルオホラ=ベイカーと出会い、息子と娘を授かりました。

左はベイカー氏とハンネレ・ルオホラ・ベイカー氏

Rosettaは1998年に正式にリリースされました。物理学の原理に基づいて、Rosettaはタンパク質の立体構造に対するエネルギー最小化計算を実行し、最も安定した3次元構造、つまりタンパク質の自然状態に近い安定した立体構造を予測できます。Rosettaのタンパク質構造予測の性能を検証するために、Baker氏のチームはCASPコンペティションに積極的に参加しました。このコンペティションでは、参加者は実験的に解決されているがまだ公開されていない一連のタンパク質構造に対してブラインド予測を行い、さまざまなアルゴリズムの精度を評価しました。その後、RosettaはCASPで徐々に台頭し、2004年のCASP6では、標的タンパク質T0281に対してほぼ原子レベルの精度のab initioタンパク質構造予測を達成して歴史を作り、タンパク質構造予測の分野をリードするようになりました。

ロゼッタのウェブサイト: https://levitate.bio/rosetta

しかし、より正確な予測には、より多くの計算リソースの消費が必要です。「タンパク質構造予測を始めた当初、この作業には大量の計算リソースが必要であることがわかりました。新しいコンピューターを買い続けましたが、非常に高価なだけでなく、すぐに設置スペースが不足してしまいました。そこで、世界中の人々に余剰の計算能力を使ってタンパク質構造計算を行ってもらうために、Rosetta@homeプロジェクトを立ち上げました。これは、コンピューターが計算を実行する際に、タンパク質の折り畳みを画面に表示するスクリーンセーバーです」とベイカー氏は述べています。

現在、Rosettaは学術界と産業界の現場で広く採用されており、構造生物学と創薬における標準ツールとなっています。Rosettaソフトウェアを継続的に改良するため、ベイカー氏は学術コミュニティ「Rosetta Commons」も設立しました。このコミュニティには、化学、生物学、生理学、物理学、工学、数学、コンピュータサイエンスなどの分野を網羅する、世界60以上の機関から研究者が集まっています。毎年、コミュニティは会議を開催し、メンバーが研究成果を共有し、アイデアを交換しています。現在、Rosetta Commonsは大規模な国際共同プロジェクトとなっています。

ロゼッタ@home URL: https://boinc.bakerlab.org

ロゼッタ@ホーム

Rosetta@homeプロジェクトに触発されたベイカー氏は、「人海戦術」アプローチの重要性を深く理解していました。彼は、未知の領域で迅速なブレークスルーを達成するには、協力と相互利益が長期的な成功の鍵であると信じていました。2008年、ベイカー氏のチームは、専門家と初心者の両方が楽しめる、タンパク質フォールディングをテーマにしたオンラインパズルゲーム「Foldit」を正式にリリースしました。ベイカー氏は、「私たちの夢は、世界中の人々が協力し、科学とグローバルヘルスに大きく貢献することです」と述べています。

Folditでは、プレイヤーはゲーム内のツールを使用して、選択したタンパク質構造を可能な限り完璧に折り畳みます。最高得点の解は研究者によって分析され、現実世界での適用可能性と標的治療への潜在的な応用が評価されます。特筆すべきことに、Folditは40万人以上の参加者を集めており、一部のプレイヤーはベイカーの論文の寄稿者として名を連ねています。例えば、2011年にNatureに掲載された論文では、Folditのプレイヤーが、15年間科学者を悩ませてきたM-PMVレトロウイルスプロテアーゼの結晶構造解読に貢献しました。プレイヤーはわずか10日間で酵素の十分に正確な3Dモデルを構築し、分子置換とそれに続く構造決定に成功しました。

Folditアドレス: https://fold.it

フォールディット

その後長年にわたり、ロゼッタとフォルディットはタンパク質構造の分野で高い評価を得てきました。もしこの傾向が続いていたら、今年のノーベル化学賞のもう半分である「タンパク質構造予測への貢献」は、デミス・ハサビスとジョン・ジャンパーに授与されることはなかったかもしれません。転機は2020年末に訪れました。

AlphaFold2へのオープンソースでの対応

2020年11月に開催された第14回CASPコンペティションにおいて、AlphaFold2は画期的な成果として登場し、Science誌の年間トップ10ブレークスルーの1つに選ばれました。AlphaFold2のタンパク質構造予測精度は他のどのチームをもはるかに上回り、ベイカー率いるロゼッタチームさえも大きく引き離しました。主催者は、AlphaFold2が科学者を50年間悩ませてきた問題を解明したと発表しました。

1位:AlphaFold2、2位:Rosetta

物理学に基づく手法に重点を置き、計算エネルギーを最小限に抑えることでタンパク質構造を予測するRosettaとは異なり、AlphaFold2はディープラーニングと物理学、生物学、その他の関連分野の知識を組み合わせ、タンパク質の3D構造情報のエンドツーエンド予測を実現しました。この成果は科学界に大きな衝撃を与え、タンパク質研究における画期的な出来事として称賛されました。しかし、DeepMindは当時、AlphaFold2の具体的な詳細を明らかにしていませんでした。

これに対し、ベイカー氏は「皆が驚愕しました。最初はメディアでたくさん報道されたのに、その後は何も報道されなくなりました。私たちの分野は大きな進歩を遂げてきたのに、それをさらに発展させることができない。不思議なことです」と述べた。

師であるランディ・シェックマン氏と同様に、ベイカー氏もオープンソースと共有科学の推進者です。師が3つの主要ジャーナルに「宣戦布告」した一方で、ベイカー氏はAlphaFold2に匹敵するオープンソースモデルの開発を決意していました。

ランディ・シェックマンは科学文献へのオープンで自由なアクセスを主張し、ネイチャー、サイエンス、セルなどのクローズドアクセスジャーナルを強く批判し、これらのジャーナルに論文を投稿することは決してないと発表しました。

画像出典:Wikipedia

AlphaFold2から着想を得て、ベイカー氏と研究室の同僚たちは数ヶ月かけてディープラーニングモデルRoseTTAFoldを開発しました。RoseTTAFoldは、タンパク質の配列パターン、アミノ酸の相互作用、そして3次元構造の可能性を同時に考慮する独自の3トラックニューラルネットワークアーキテクチャを採用しています。これらのコンポーネント間で1次元、2次元、3次元の情報フローがやり取りされるため、ニューラルネットワークはタンパク質の化学組成と折り畳み構造の関係を推測することができます。研究者たちはRoseTTAFoldを用いて、ヒトゲノム中にこれまで知られていなかった多くのタンパク質を含む、数百種類の新しいタンパク質の構造を計算しました。また、炎症性疾患や癌細胞の増殖に関連するタンパク質など、ヒトの健康に直接関連するタンパク質も生成しました。

RoseTTAFoldはAlphaFold2よりも消費電力が少なく、計算時間も短いことは特筆に値します。RTX 2080グラフィックカード1枚で、400個未満のアミノ酸残基を持つタンパク質の構造をわずか10分で計算できます。研究者たちは、「この種のソフトウェアがなければ、科学者チームは単一のタンパク質の構造を決定するのに何年もかかるかもしれない」と指摘しています。ベイカー氏は、RoseTTAFoldをリリースする時が来たことを理解していました。

RoseTTAFold オープンソース アドレス: https://github.com/RosettaCommons/RoseTTAFold

2021年6月、ベイカー氏はRoseTTAFoldの技術ロードマップを詳述したプレプリント論文を発表しました。数日後、DeepMindのCEOであるデミス・ハサビス氏はTwitterで、AlphaFold2の論文とソースコードを公開すると発表しました。同年7月15日には、RoseTTAFoldとAlphaFold2に関する論文がそれぞれScience誌とNature誌に掲載されました。Science誌はRoseTTAFoldとAlphaFoldを2021年のブレークスルーテクノロジーに選出し、学術界と産業界の戦いについに終止符を打ったのです。

画像出典: デミス・ハサビスのソーシャルメディアプラットフォーム

挑戦的なことに挑戦!タンパク質設計にディープラーニングを導入

今年のノーベル化学賞発表後、ベイカー氏は電話インタビューを受けた。RoseTTAFoldとAlphaFoldの競争についてどう考えているかと問われると、ベイカー氏はDeepMindを競合相手と考えたことは一度もないと述べた。

ベイカー氏はノーベル賞受賞後、オンラインインタビューに応じた。(画像提供:ワシントン大学タンパク質設計研究所)

「長年にわたり、私たちはタンパク質構造の予測と設計のための物理学に基づく手法を開発してきました。しかし、ジョンとデミスがAlphaFold2を開発したとき、私はディープラーニングの力を深く認識しました。彼らはその力に大きなインスピレーションを与えてくれました。」もちろん、この力を活かして、ベイカーはディープラーニングをタンパク質構造予測に活用し、RoseTTAFoldを立ち上げただけでなく、タンパク質設計にも活用しました。

ベイカー氏の弟子であるシェン・ハオ氏は、師が「革新と大胆な進歩の精神」を持ち、全く新しいタンパク質の設計といった重要かつ非常に挑戦的な課題に注力していると考えています。ベイカー氏は、人類は寿命の延長や環境汚染に起因する新たな疾患など、多くの新しく差し迫った問題に直面していると考えています。これらの問題を解決するために自然進化を待つには数百万年かかる可能性がありますが、タンパク質設計を通じて、現在の課題に対処する新しいタンパク質を迅速に開発することができます。

実際、ベイカー氏のチームは以前から、アミノ酸配列をロゼッタに入力してタンパク質の構造を予測できるのであれば、ソフトウェアを逆に使用して、目的のタンパク質構造を入力して対応するアミノ酸配列の候補を取得し、設計された配列遺伝子をバクテリアに導入して、バクテリアが目的のタンパク質を生成できるようにできないかと考えていた。

これを基に、ベイカー氏のチームは2003年に世界初の新規タンパク質 Top7 の設計に成功しました。これは画期的な発見であり、関連分野の研究に大きな刺激を与えました。

同様に、タンパク質設計におけるディープラーニングの大きな可能性に気づいたベイカー氏は、ディープラーニングを逆手に取ってアミノ酸配列を生成し、新たな機能性タンパク質を設計できるのではないかと考え始めました。彼はチームを率いて、このテーマに関する一連の成果を生み出しました。

ベイカー氏はNature誌に「RFdiffusionを用いたタンパク質構造と機能のde novo設計」と題する論文を発表しました。研究者らは、タンパク質構造ノイズ除去タスク向けにRoseTTAFold構造予測ネットワークを微調整し、 「RFdiffusion」と呼ばれる生成モデルを開発しました。このモデルは、タンパク質結合剤の設計と酵素活性部位のスキャフォールド設計において優れた性能を示しました。さらに重要なのは、このモデルが優れた汎用性を持ち、オープンソースであることです。

RFdiffusion プロジェクトアドレス: https://github.com/RosettaCommons/RFdiffusion

一方、ベイカー氏はRFdiffusionの機能を拡張するため、ディープラーニングに基づくタンパク質配列設計手法であるProteinMPNNも開発しました。ProteinMPNNはタンパク質構造を入力として、わずか1秒で対応するバックボーンに折り畳まれる新しいアミノ酸配列を生成します。RFdiffusionなどの構造生成ツールと組み合わせることで、これまでにない配列、構造、機能を持つタンパク質を設計できます。さらに、この研究では、ProteinMPNNが天然タンパク質バックボーンにおいて52.4%の配列復元率を達成したことが示されました。これは、従来のRosettaベースの物理設計ではわずか32.9%だったのに対し、大幅に改善されています。「ProteinMPNNを用いたロバストなディープラーニングに基づくタンパク質配列設計」と題されたこの研究は、Science誌に受理されています。

ProteinMPNN プロジェクト アドレス: https://github.com/dauparas/ProteinMPNN

さらに、ベイカー氏のチームは、前述の構造予測ツールであるRosettaとFolditを最適化しました。ソフトウェアに新しいモジュールとアルゴリズムを導入することで、タンパク質構造予測だけでなく、抗体設計、酵素設計、低分子ドッキングにも拡張しました。ベイカー氏は、「Folditは当初、タンパク質構造予測のために開発されましたが、現在はタンパク質設計に重点を移しています。ユーザー向けに継続的にレベルアップを行い、研究テーマの変化に合わせて進化させていきます」と説明しています。

ベイカープロジェクトチームの写真

AI技術と物理的手法を組み合わせることで、ベイカー研究室は、ウイルスを中和したり、がん細胞を標的にしたり、さらには化学反応の触媒として作用したりするなど、多くの新規タンパク質を創出してきました。さらに、ベイカー研究室は無機物質に結合できるタンパク質を設計し、タンパク質を用いて無機結晶の成長を制御する可能性を模索しています。この研究は、半導体製造などの分野への応用が期待されています。

会社を設立して技術導入を推進

ベイカー氏のメンターであるデイビッド・アガード氏はかつて、「デイビッド・ベイカー氏の研究は、タンパク質設計分野の発展をほぼ独力で推進してきた」と評しました。実際、2024年が終わる前に、ベイカー氏はすでに110本以上の論文を発表していました。これは驚異的な数字です。さらに驚くべきは、彼のアプローチです。ベイカー氏は、研究している技術が成熟期に近づいていると判断すると、新たな企業を設立するか、既に設立済みの企業に投資して育成することで、その技術の産業化を推進します。ワシントン大学タンパク質設計研究所のウェブサイトによると、ベイカー氏は21社の企業の創設者として直接関与しているほか、他の企業のアドバイザーも務めています。

画像提供:ワシントン大学タンパク質設計研究所
David Baker は創設者/共同創設者/科学的共同創設者です。

具体的には、今年4月に設立されたXaira Therapeutics社は、前述のRFdiffusionとProteinMPNNを活用しています。同社は、新興AI技術を用いた医薬品の再設計と開発に注力しています。スタンフォード大学前学長のマーク・テシエ=ラヴィーニュ博士がCEOを務め、ベイカー氏は共同創業者です。注目すべきは、ベイカー氏の研究室から数名の科学者がXaira社にフルタイムで参加していることです。

Xairaは、分子および疾患関連の生物学的特性に関する膨大なデータを統合し、高品質なモデルを訓練します。さらに、同社は産業規模の乾式および湿式実験プラットフォームを構築し、特定の細胞標的へのタンパク質接着の実験室試験や、安定性などの重要な特性評価を可能にしています。得られたデータは迅速にタンパク質モデルにフィードバックされ、分子設計の次の段階へと繋がっていきます。

Xaira公式サイト:https://xaira.com

2023年に設立されたArchon Biosciencesは、生成AIを用いて、新しいタイプのバイオ医薬品である抗体ケージ(AbC)の設計に取り組んでいます。AbCはAI設計と構造制御を統合し、抗体の配向、結合ドメインの価数、サイズ、形状、剛性を完全に制御することを可能にします。この構造制御により、細胞における正確な生体内分布と標的へのエンゲージメントが可能になり、社内の臨床データと組み合わせることで、抗体の有効性の迅速な検証が可能になります。同社はNVIDIAをはじめとする企業から支援を受けており、その技術は2024年のノーベル化学賞を受賞したベイカー氏の研究成果に由来しています。

アーコン公式サイト:https://www.archon.bio

ベイカー氏がタンパク質ナノケージを展示

さらに、モノッド・バイオは今年7月、世界初の完全de novoタンパク質製品であるLuxSit™ Proを発売しました。これは、ライフサイエンス研究および診断用のルシフェラーゼです。ベイカー氏は、「これは生物学とコンピュータサイエンスにおける重要なマイルストーンであり、今後数か月、あるいは数年のうちに、より多くのde novo設計タンパク質が成熟した商用製品へと転換されるだろうと確信しています」と述べています。この技術は、ベイカー氏が2023年にNature誌に発表した論文に端を発しています。

Arzeda(2009年設立)、Cyrus Biotech(2014年設立)、A-Alpha Bio(2018年設立)などの企業は、新薬、ワクチン、疾患治療薬、さらには新素材の製造に向けた、より多くの新しいタンパク質の開発を目指して、ベイカーの最新のAI技術を積極的に採用しています。

アルゼダ公式サイト:https://arzeda.com/
サイラスバイオテック公式サイト:https://cyrusbio.com/
A-Alpha Bio 公式サイト: https://www.aalphabio.com/

初期の哲学的探求から、タンパク質設計の「魔術師」としての地位に至るまで、ベイカー氏の歩みは未知への渇望と、飽くなき革新への探求に貫かれてきました。彼は、長期的な成功の鍵は協力と相互利益にあるという信念を一貫して持ち続け、そのオープンで分かち合いの精神は、世界中の無数の研究者や科学愛好家をこの分野に身を捧げる勇気を与えています。彼の研究は、学術界における画期的な進歩をもたらしただけでなく、研究室から産業界へと広がり、疾患治療、食品生産、材料科学など、様々な分野に貢献し、人々の生活に新たな可能性をもたらしています。

参考文献:
1.https://news.bioon.com/article/9068e156469f.html
2.https://news.qq.com/rain/a/20241010A02IB300
3.https://zh.wikipedia.org/zh-cn/Rosetta@home
4.https://www.ipd.uw.edu/2021/07/rosettafold-accurate-protein-structure-prediction-accessible-to-all/
5.https://news.qq.com/rain/a/20241010A04VNA00
6.https://m.thepaper.cn/newsDetail_forward_28994096
7.https://www.nobelprize.org/prizes/chemistry/2024/baker/interview/
8.https://finance.sina.com.cn/tech/roll/2024-10-10/doc-incsarnm2004532.shtml
9.https://news.qq.com/rain/a/20241011A02XB000