|
今年はAlphaFoldがノーベル化学賞を受賞し、AI+Scienceはかつてないほどの注目を集めました。シンプルなタンパク質構造予測モデルが、これほどまでに産業に計り知れない可能性を秘めていることに、人々は驚嘆しています。 ちょうど今、第3回中国バイオコンピューティング会議で、世界最大の基礎生命科学モデルが公開されました。 xTrimo V3は、最大2100億のパラメータスケールを誇り、タンパク質、DNA、RNA、細胞など7つの主要なモダリティをカバーしています。その背後にいるのは、ロビン・リー氏が設立・育成した百度生物科技(Baidu Biotech)です。 他の産業で応用されている基本モデルとは異なり、これらのモデルは自然言語ではなく生命の言語を解読します。つまり、複雑な生物学的配列を処理できるだけでなく、医薬品開発や精密医療に貢献し、遺伝子進化、合成生物学、生命の設計・創造といった分野でより最先端のブレークスルーを実現し、価値を創造することも可能になります。 私たち一人ひとりに関係する、この時代の最も差し迫った問題は、今や他の垂直分野に先駆けて、初の1000億元の基本モデルを導入しました。 さらに、OpenAIは当時無料トークンを提供したのと同様に、今回も期間限定で無料トークンを提供しています。今年末までに登録を完了したユーザーには、2,000クレジットが付与されます。 これは何を意味するのでしょうか?これは、ユーザーが1300万個のアミノ酸トークンを使用して微調整トレーニングタスクを完了する機会があることを意味します。 ミクロの世界のこの基本モデルが一体何なのかを見てみましょう。 大型模型の時代における生命の言語の解読第 3 回バイオコンピューティング カンファレンスでは、大規模モデルがカンファレンス全体を通じて重要な用語となり、生命科学におけるその応用のパラダイムがさまざまな分野の専門家の間で合意されました。 ライフサイエンス分野には、実験的に検証されたラベル付きデータは高価かつ希少であり、既存データは様々なシナリオで利用されることが多いため、タスクモデルを直接学習させることが困難であるという明確な特性があります。しかしながら、ゲノムデータやタンパク質配列データといった膨大な量のラベルなしデータを保有しており、これらは大規模な基礎モデルの事前学習に最適です。 これらのデータで事前トレーニングされた後、少量のラベル付き生物学実験データと組み合わせた大規模モデルは、生体システムの詳細な表現を学習し、タンパク質構造の予測や遺伝子配列の分類などの下流タスクを完了します。 BestoxTrimo シリーズのモデルは、このパラダイムの実践の最も代表的な例です。 この会議では、Besto Biotech の xTrimo シリーズ モデルがバージョン V3 に完全にアップグレードされ、注目に値する 3 つの主要な技術的ハイライトが紹介されました。 まず、大規模モデルの基本属性の観点から見ると、これは現在世界最大の基礎生命科学モデルであり、総パラメータ規模は2100億です。 パラメータスケールが大きいほど、含まれる知識の範囲が広くなり、一般化能力が強くなるため、さまざまな重要な問題やタスクを解決する際のパフォーマンスと精度が向上します。 言い換えれば、ビッグモデル時代のスケーリング則は生命科学にも当てはまるのです。 現在までに、xTrimo 基本大規模モデル プラットフォームは、200 のタスク モデルで最先端 (SOTA) のパフォーマンスを達成しており、これらのタスク モデルを使用して、新規タンパク質の de novo 設計やターゲットの発見などの革新的な生物学プロジェクトで画期的な進歩を遂げています。 このプラットフォームは、20を超える最先端の抗体と酵素の開発に貢献し、10を超える革新的なターゲットとターゲットの組み合わせを発見しました。これらはすべて実験的に検証され、前臨床研究開発などの次の段階に入っています。 アプリケーションの観点から見ると、この基本的な大規模モデルのリリースは完全なモーダル スイートであり、業界の問題を解決するための新しいツールです。 新しくリリースされた xTrimo V3 は、DNA、RNA、タンパク質、細胞、小分子、生物学的ビジョン、生物学的知識テキストなど、生命科学における 7 つの主要なモダリティをカバーしています。 このバージョンでは、以前のバージョンのタンパク質と細胞の既存の基盤を基に、ゲノミクス、トランスクリプトミクス、複雑な細胞タスク、画像分析、テキスト分析などの分野に拡張し、初期の分子研究開発から生産スケールアップ、その後の実験分析まで、プロセス全体にわたる AI モデリングのニーズをサポートします。 AIが探索プロセス全体を駆動できるようになるだけでなく、いくつかのシナリオでは全く新しいソリューションが生まれるでしょう。これは、マルチモーダルカバレッジによって大規模モデルのクロスモーダル連携が可能になるためです。 Besto Biotechの技術担当副社長であるZhang Xiaoming氏は、ターゲットの発見の例を挙げました。 現在、細胞スケールのマルチモーダル大規模モデルの観点から、標的発見における新たな探究が行われています。まず、摂動を受けていない細胞をタンパク質と細胞という2つのモダリティで特徴付けることができます。同時に、摂動作用は生物学的遺伝子アノテーションのテキストモダリティに基づいてコード化できます。グラフモデルでは、摂動後の発現レベルの変化を予測し、潜在的な標的を推奨することができます。最後に、細胞生物学的視覚モデルを用いて細胞機能の検証を支援することができます。 これは、タンパク質、細胞、テキスト、ビジョンの4 つのモダリティが関与する典型的な共同シナリオであり、有効性と効率性の両方が大幅に向上します。 各モダリティの展開に関しては、問題を解決するように設計されているため、その強力なアプリケーション属性も確認できます。 たとえば、 MoE アーキテクチャを導入した最初の大規模タンパク質モデルには、数千億のパラメーターがあります。 ご存知の通り、MoEアーキテクチャは、一般的なシナリオにおいて、垂直にセグメント化された分野での処理に有利です。抗体抗原やプロテアーゼといったタンパク質分野でも同様です。これにより、様々な特定の下流タスクにおいて、より優れたパフォーマンスと精度が得られます。 さらに、 DNA大規模モデル配列の長さは128Kにまで跳ね上がり、遠方の調節情報をよりよく捉え、超長配列を持つ生命を解読する可能性を実現できるようになった。 これは、汎用の大規模モデルが長いテキストを読み取る機能を持ち、それによって大規模モデルの機能の境界が拡大し、要約レポートやストーリー作成などのより多くのシナリオが解き放たれ、人々の生産性が解放されるのと似ています。 最後に、業界全体のエコシステムの観点から見ると、Besto Biotech はすでにライフサイエンス向け AI モデルのプロバイダーとしての地位を確保しています。 一方には、独自の言語を持ち、人類の探求を待つ広大な知識空間を擁する、厳格で専門化された科学産業があります。もう一方には、その価値がますます明確になり、あらゆるものを変革しようと躍起になっている壮大なモデルとパラダイムがあります。百度生物科技は、これらを繋ぐ存在となることを目指しています。 基本的な大規模モデルの公開に加え、ライフサイエンス分野における大規模モデル基盤に相当するワンストップモデルプラットフォームも構築しました。 トレーニング面では、クロスモーダル事前トレーニングから下流タスクの微調整まで完了できる、生物学的マルチモーダルトレーニング用の統合トレーニング フレームワークを提供します。 推論の面では、この分野向けに生物学と AI を統合したコンピューティング エンジンをカスタマイズしました。 これは議論する価値があります。大規模モデルの日常的な文脈では、AIモデル自体の推論プロセスを最適化するだけで、パフォーマンスとコストの面で良好な結果が得られるかもしれません。しかし、生物学的コンピューティングの実際のアプリケーションでは、モデルの実行時間が20分の場合、推論に充てられるのはわずか1分で、残りの時間は生物学的コンピューティングツールの実行に費やされることがあります。 したがって、推論エンジンの構築には、生物学HPC最適化とAIモデル推論最適化の両方を考慮し、パイプライン上でそれらが並列実行されるようにする必要があります。これにより、複数のシナリオにおいて推論性能が10倍以上向上したという報告があります。 さらに、さまざまなデータシナリオとユーザーニーズに対応するモデルビルダーモジュール、モデルの管理とアセンブリをサポートするモデルハブモジュール、モデルの呼び出しと物理計算を高速化するモデルブースターモジュールなど、一連のツールチェーンが搭載されています。 同社は過去4年間の業界探索経験に基づき、医薬品開発とバイオ製造という2つの主要な業界ソリューションを体系的に開発し、パートナーに包括的なAIモデルサービスを提供して大規模モデルの応用を加速させています。 医薬品開発を例にとると、顧客向けにカスタマイズされたモデルを構築できるほか、タンパク質設計などのサービスもサポートできます。 例えば、親和性モデルを用いて複数の親和性勾配を持つ抗体を設計し、 AND GATEアルゴリズムをカスタマイズして二重特異性抗体を組み合わせることで、腫瘍細胞を標的とした殺傷を実現しました。ハイスループット親和性検出と100種類以上の複雑な二重特異性抗体の発現と検証を経て、最終的により優れた治療域を持つ二重特異性抗体を開発しました。 ベストバイオは過去4年間で、多国籍製薬企業、業界大手、大手CRO、大手バイオテクノロジー企業、研究機関など、世界中で300社以上のユーザーを獲得し、総受注額は20億米ドルを超えています。技術検証と商業検証の閉ループを初期段階で完成させ、業界における初期蓄積を達成したと言えます。 強力な基盤モデルが確立されたことで、対象産業はバイオメディカル、バイオ製造、科学研究、教育など、より幅広い分野に拡大しました。 これは実は、Baitu Biotech がこの生態学的ニッチを選択したことを具体的に表したもので、より多くの生態学的パートナーを結び付けて大規模モデルの応用プロセスに参加させることを目指しています。 ライフサイエンス分野では、現在、大規模モデルが急速に適用されつつありますが、同時に、課題も同様に困難であり、エコシステムのパートナーが協力して解決する必要があります。 CEOの劉偉氏は、デジタル化とインテリジェント化の取り組みが多くの面で未だ不十分であると例を挙げて指摘した。同社の研究開発作業の多くは、依然としてWYSIWYG(What You See Is What You Get)方式で行われている。 実験は依然として、仮説を検証するために専門家の経験と人間の事前の仮定に依存し、あるいは自然界で何かを発見し、それを実験的に修正することに依存しています。 より多くの企業が大規模モデルのエンパワーメントを完了して初めて、業界全体のデジタル化とインテリジェンス化を推進することができます。 Foundation Model + Scienceが登場します。ビッグデータ ライフ サイエンス基盤モデルのリリースにより、一歩下がって、ビッグデータ モデルがライフ サイエンス分野にどのような力を与えるのかを検討してみる時期が来ています。 まず、他の業界と同様に、ライフサイエンス分野も他の分野よりも速いペースで全面的な再編が進んでいます。 過去1年間だけでも、伝統的な製薬大手はAIの活用を進めており、ファイザーやイーライリリーといった世界的な製薬大手は最高AI責任者を任命しました。また、テクノロジー大手も動きを見せており、Google MetaやNVIDIAといった企業はすでに関連分野への進出を検討しています。世界トップ10の製薬会社であるサノフィでさえ、Besto BiotechとのAIモデル共同研究に10億ドル以上の投資を表明しています。 様々な大規模生命科学モデルがトップジャーナルに採択されています。例えば、百度生命科学が以前に発表した単一細胞大規模モデルや1兆パラメータのタンパク質大規模モデルは、Natureサブジャーナルの表紙やトップクラスの学術会議で何度も取り上げられています。この古い分野の発展速度は、他の分野と比較して飛躍的な発展を遂げています。 時間的な視点から見ると、コンピューティングによる生命科学のエンパワーメントは、シングルモダリティ、シングルスケールからマルチモダリティ、マルチスケールへと進化してきました。大規模モデルの文脈において、これは「AI+」から「大規模モデル+」への移行の時代を象徴しており、生命科学におけるAIの革新的な応用は今、「カンブリア爆発」の臨界点に達しています。 すべてはノードとしての AlphaFold を中心に展開します。 実験室のツールや分析技術に頼る従来の方法は、費用と時間がかかり、データの背後にある価値を十分に実現できません。 AIディープラーニングの登場により、この問題は好転しました。DeepMindは、人間が同定した17万個のタンパク質配列ライブラリからトレーニングと学習を行い、AlphaFoldを構築しました。これは、これまでのどのチームをもはるかに凌駕する精度を達成し、「仮説をまず立て、検証を行い、その後仮説を最適化する」というドライ実験とウェット実験のクローズドループの先駆者となりました。 この時点で、ライフサイエンス分野は独自のAI 1.0 の瞬間を迎えました。 しかし、当時は単鎖タンパク質という単一のモダリティに焦点が当てられていたため、予測精度の向上には依然として大きな余地があり、膨大な生物学的データはまだ十分に調査されていませんでした。 Transformerアーキテクチャや拡散モデルといった自己教師ありパラダイムの出現により、様々なモダリティの膨大なデータを処理し、クロスモーダル・マルチスケール協調処理を実行することが可能になりました。これにより、より多くの潜在的な下流シナリオが実現され、いわゆるAI 2.0の時代が到来しました。 最新の AlphaFold3 と同様に、単鎖タンパク質の構造予測からすべての生体分子の構造と相互作用の予測へと飛躍しました。 第二に、大規模モデルは、コストを削減し効率を高めるだけでなく、イノベーションを促進することでライフサイエンスを強化します。 大規模モデルが様々な産業にもたらす力の核心は、コスト削減と効率性の向上にあります。同様に、ライフサイエンス分野では、大規模モデルは大量の生物学的データを迅速に処理・分析できるため、研究者は潜在的な創薬ターゲットのスクリーニング、創薬分子の設計、そして薬効予測をより効率的に行うことができ、ひいては研究開発コストの削減と研究開発効率の向上に一定の効果をもたらします。 しかし、これは大規模モデルがもたらす最も基本的な価値に過ぎません。イノベーションと創造こそが、ライフサイエンスの発展を促進する大規模モデルの核となる価値なのです。 生命科学における技術的障壁は、生命に関する本質的な情報が非常に複雑であることに大きく起因しており、こうした情報は生命の言語の中に隠されていることが多い。そのため、従来の自然言語モデルと比較して、大規模生命科学モデルは、生物進化、遺伝子配列、その他の生命関連分野の核心的な課題を深く掘り下げるという、より重要な使命を担うことが多い。大規模モデルは、生命の謎の深淵へと続く新たな扉を開く鍵のような役割を果たす。 生物学的データと配列を解読することで、精密医療や個別化医療など、最も差し迫った問題のいくつかを解決できる可能性があります。 ゲノミクス、遺伝性疾患予測、精密医療といった分野では、情報の正確性が極めて重要です。しかし、従来の方法では、分析のためにDNAを小さな断片に切断することが多く、重要な情報が失われてしまうことがあります。 しかし、Bestu Biotechモデルによって実現された超長DNA配列は、すべての遺伝情報を完全に保存できるようになりました。これにより、精密な遺伝子解析が可能になり、個々の患者に最適な治療計画の策定に役立ちます。 たとえば、がん治療では、完全な遺伝子配列情報があれば、がん細胞内の特定の遺伝子変異を特定できるため、標的治療の正確なターゲットが提供され、治療結果が向上します。 データ処理機能に加えて、大規模モデルは強力な一般化機能も提供し、業界の問題を解決するためのまったく新しいアイデアをもたらします。 生命の言語は自然言語よりもはるかに複雑であり、明確な変換とモダリティ間の階層的関係を伴います。例えば、DNA、RNA、タンパク質間のセントラルドグマ、細胞画像、細胞オミクス、細胞遺伝子発現、機能注釈テキストによる細胞の総合的な特性評価、そして単細胞生物から多細胞生物、そして組織構造への進化などが挙げられます。 したがって、大規模モデルは、既存の生物学的データの単純な分析以上のことを行うことができます。さらに重要なことは、未知の問題を推測できることです。 例えば、生物学的構造の背後にある機能を予測する— 新しいタンパク質の機能を予測できるため、従来の研究方法では達成が難しい革新的なブレークスルーである、まったく新しい医薬品やバイオテクノロジーを設計する可能性が生まれます。 創薬においては、これまでの研究開発は既存の経験や限られた実験結果に大きく依存していたかもしれませんが、大規模モデルは大量の生命データから学習して分析し、これまで考えられなかった創薬ターゲットや研究の方向性を提案することができます。 生命科学の未知の領域を予見する「洞察力」を持つことで、合成生物学、さらに広義にはバイオ製造の可能性が広がります。 例えば、酵素の設計や株の改変において、AIモデルは既存の生物学的データから学習し、新しい酵素配列を生成し、その触媒機能を予測します。これにより、バイオ製造における酵素触媒プロセスが加速され、生産効率が大幅に向上し、製造コストが削減されます。 さらに一歩進めば、農業、食品、化学、素材、エネルギーを含む工業製造部門全体を強化してカバーすることができます。 これは、生命を理解することから生命を予測すること、そして生命を設計し創造することまで、大規模モデルが生命科学に革新と価値をもたらす方法を示す重要な例でもあります。 これにより、生命科学の研究の方向性と考え方が根本的に変えられ、生命科学の発展がより深く前向きな方向へと促進されました。 ライフサイエンス分野は他の業界と比較して応用価値と将来性が大きく、より長期的な取り組みとなります。 産業発展を共同で促進するには、生態学的協力が不可欠です。また、ベスト・バイオテックのような企業が積極的に活動し、基本的なサービスを提供することも必要です。 今、百図生物科技は第一歩を踏み出しました。 |
巨大モデルが生命科学を変革! 最大規模の基礎モデルが発表され、パラメータスケール2100億の超長DNA配列が解明されました。
関連するおすすめ記事
-
1/30 トレーニング ステップは、DeepSeek-R1-Zero、Shen Xiangyang、Jiang Daxin、Zhang Xiangyu などのオープンソース推論モデルの RL トレーニング メソッドを再現します。
-
大規模モデル指示チューニングデータセットの10,000語の評価!テンセントと上海交通大学の共同制作。
-
テンセントの「空飛ぶ車の夢」が再燃:倒産から2カ月後、同社は買収を確保し、依然として108件の受注を抱えている。
-
E Weinan と Li Hang は、高度な学術論文検索エージェントの作成を主導し、Google Scholar を上回る再現率と精度を達成して、学術愛好家を大いに喜ばせました。
-
権威ある学術誌「Cell Discovery」に新たな発見が発表されました!上海交通大学のHong Liang氏率いるチームが、機能性タンパク質を超低コストで完全自動設計できるCPDiffusionモデルを提案しました。
-
Caiyun Xiaomeng V3.5がオンラインになりました!DCFormerアーキテクチャに基づく初の汎用大型モデルがリリースされました。