618ZXW

AlphaFold3の国産初版がリリース!優れた高分子予測精度、すぐに使えるオンラインプラットフォーム、そして圧倒的な推論コストを誇ります。

AlphaFold3に匹敵する初の国産製品が登場!

HelixFold3 は、Baidu AI Cloud と Baidu Propeller チームによって開発されました。

日常的な生体分子構造予測タスクにおいて AlphaFold3 レベルのパフォーマンスを実現し、特に RNA 分子や共有結合修飾のシナリオでは、精度の点で AlphaFold3 と同等か、大幅に上回ります

△キャプション:青はHelixFold3、黄色はAlphaFold3を表す

さらに、抗原-抗体構造予測タスクの成功率は80% 以上に向上しており、抗体の結合メカニズムを直接研究するには十分なものと思われます。

さらに重要なのは、参入障壁と使用コストが低下したことです。

これはオンライン サービスをサポートしており、ユーザーはサービスを有効にするだけで、コンピューティング能力に基づいて支払うことができます (ChatGPT のトークンに基づく支払いと同様)。

プロセス全体でコーディングは必要なく、その後のメンテナンスについて心配する必要もありません。

さらに、推論速度は非常に速く、数時間で数千の分子構造予測を完了することができます。

これを支えるチームは、Baidu AI Cloud と Propeller チームから構成されています。

あまり知られていないかもしれないが、彼らは長年にわたり生命科学分野に深く関わっており、独自に開発した mRNA 配列最適化アルゴリズム LinearDesign は、以前 Nature に掲載されている。

国内のテクノロジー企業が一流の国際誌に取り上げられるのは今回が初めてだ。

中国製モデルがAlphaFold3と激突

国産の HelixFold3 モデルのリリースは、技術的な進歩を意味するだけでなく、その強力なアプリケーション特性を実証するものでもあります。

まず、機能面では、AlphaFold3 と完全に匹敵し、いくつかの面ではそれを上回っています。

最も一般的な 2 つのコアシナリオである RNA 分子予測と抗原抗体構造予測を例に挙げると、両方のシナリオは下流の薬物設計、疾患治療、その他の研究開発に役立ちます

RNA 分子予測のタスクでは、CASP 15 RNA データセットの評価結果から、HelixFold3 が予測精度において AlphaFold3 を大幅に上回っていることが示されました。

また、PDB データベースから収集された最新のタンパク質-RNA 複合体の構造予測タスクでも、より高い精度が実証されました。

さらに、共有結合修飾を伴ういくつかの構造予測タスクにおいてほぼ同等のパフォーマンスを達成し、それを上回ります。

抗原-抗体構造予測タスクでは、HelixFold3 は 71 個の PDB 抗原-抗体構造予測の最新データで AlphaFold3server に匹敵する精度を達成しました。

HelixFold3は、抗原エピトープアミノ酸を任意の数指定することで、抗原-抗体構造予測の精度をさらに向上させます。15個のエピトープアミノ酸を任意数指定することで、HelixFold3の成功率はさらに80%以上に向上します。

第二に、オンライン サービス プラットフォームはすぐに使用でき、幅広いアプリケーション シナリオを提供します

周知のとおり、生体分子構造の高精度予測に使用される AlphaFold3 などの完全にオープンソースのツールであっても、導入障壁が高く、ユーザーに高度な技術スキルが求められる場合が多くあります。

ご覧のとおり、Web サイトはすでに多くの機能をサポートしており、プロセス全体がゼロコードで、視覚的なプレゼンテーションもサポートしています。

例えば、タンパク質、DNA、RNAなどの高分子の任意の側鎖修飾をサポートしています。分子実体を入力すると、その横にリガンド構造が表示されます。

修飾グループやリンケージサイトの指定など、いくつかのパラメータ制約を設定したら、残りはHelixFold3に任せます。

最終的には 3D 構造と対応するパラメータ結果が得られ、カーソルを移動したときにポイントが明確に説明されます。

AlphaFold3は46種類の定義済み修飾しかサポートしていませんが、HelixFold3はSMILESを用いて側鎖修飾を定義することで、PDBデータベースの修飾シナリオの50%以上をカバーする、はるかに広い化学空間をカバーしています。一方、AlphaFold3は5%未満しかサポートしていないため、実質的に修飾シナリオは10倍に拡張されています。

これにより、ライフサイエンス専門家の研究範囲が大幅に拡大し、小さなタンパク質/ペプチドの発見や酵素の修飾などの特定のアプリケーションがカバーされます。

オンライン サービスに加えて、API 呼び出しもサポートしており、API SDK を介したバッチ推論や大規模な分析が可能になります。

最後に、そして最も重要なことは、推論コストを大幅に削減し、高スループットのバイオインフォマティクス アプリケーションの処理能力を直接的に向上させることができることです。

現在の汎用言語モデルは推論コストに重点を置いていますが、ライフサイエンス分野では課題は実際にはより深刻です。

生命の言語は、マルチモーダルデータの融合だけでなく、3次元空間における精密なモデリングも必要とするため、計算リソースへの要求は非常に高くなります。通常、研究者は高価で複雑な計算リソースを自ら購入、導入、維持する必要があり、研究コストと技術的障壁がさらに高まります。

Baidu AI Cloud CHPC プラットフォームを活用し、MSA 検索とモデル推論のパフォーマンスを最適化することで、推論コストが大幅に削減され、数千の正確な生体分子構造予測を数時間以内に完了できるようになり、実務者の研究速度が大幅に向上しました。

より一般的な例として、Baidu Cloudプラットフォームでは、 500バイトのタンパク質推論スクリプトのコストはわずか4元です。クラウドでGPUをレンタルしたり、自社でGPUを展開したりするコストは、数千元、あるいは数百万元に達することがあり、これと比較すると、これは実に飛躍的に低いと言えます。

実践者の場合は、ノウハウを提供するだけで、残りはHelixFold3 が処理します

現在、ウェットラボ実験の実現可能性を検証するために、いくつかの研究機関/CRO製薬会社などと連携しています。

従来のプロセスでは、ハイスループットのウェット実験で候補分子を特定するのに数か月かかることがありましたが、現在では初期スクリーニングに必要なのは計算だけであり、その後は潜在能力の高い分子をウェット実験に使用できるため、全体的な研究開発のペースが大幅に向上します。

ライフサイエンスは大規模モデル応用の時代に入りつつあります。

数か月前、AlphaFoldがノーベル賞を受賞しました。そして今、HelixFold3が登場しました。導入障壁は低く、同等の優れた性能を備えています。大規模モデルは、ライフサイエンスにおける技術から応用への移行を加速させ、新たな時代を先導しています。

一方で、これは業界の課題解決にも反映されています。大規模モデルには、伝統的な産業の発展を加速させる自然な利点がいくつかあります。

例えば、医薬品開発のシナリオでは、業界は長い間「ダブルテンジレンマ」に直面してきました。これは、新薬の開発に10年の歳月と10億ドルの費用がかかることを意味します。

しかし、大規模モデルの開発により、バイオ医薬品業界はかつてないほどの機会を迎えており、これは医薬品開発の様々な段階に反映されています。

たとえば、仮想スクリーニングの段階では、大規模モデル技術により、780 万個の分子のライブラリから 6 個の潜在的に活性な分子を迅速に選別することができ、これは従来の手動スクリーニングよりも数千倍効率的です。

一方、より最先端のシナリオでは、革新的なブレークスルーが期待されています。HelixFold3のような障壁の低い製品は、より多くの学際的な才能を惹きつけ、ライフサイエンスの最先端のテーマに参入させることでしょう。

前述の通り、ユニバーサル・ビッグモデルの一般的な価値はコスト削減と効率性の向上です。ライフサイエンス分野では、コスト削減と効率性の向上に加え、イノベーションと創造という価値も存在します。

たとえば、遺伝子編集、個別化医療、合成生物学、さらには農業、食品、化学薬品、素材、エネルギーを含む工業製造部門全体に力を与えることができる可能性があります。

この波の中で、強力なプレーヤーである百度を無視することはできません。同社は長年にわたりライフサイエンス分野に深く関わってきました。

同社はこれに先立ち、一般化合物特性評価モデルHelixGEMおよびHelixGEM-2、タンパク質構造解析モデルHelixFold、単一配列タンパク質特性評価モデルHelixFold-Singleを含むWenxin Biological Computational Large Modelシリーズを独自に開発していた。

これらのモデルは、仮想スクリーニング、ADMET 予測、タンパク質構造予測、mRNA 配列設計のためのポータブルで強力なアルゴリズム ツールを提供します。

企業は、百度のPaddleHelixバイオコンピューティングプラットフォームを通じて関連サービスを利用しています。百度はすでに複数の製薬会社と緊密な連携関係を築き、医薬品開発パイプラインの加速を図っています。

さらに、百度AIクラウドは、医薬品開発から下流の診断・治療シナリオに至るまで、ライフサイエンス分野における包括的なソリューションを構築しています。例えば、業界をリードする初の大規模医療モデルであるLingyiは、現在、医療診断・治療プロセス全体にわたる大規模モデルの導入を加速させており、ライフサイエンス分野における大規模モデルの価値限界をさらに拡大しています。

現在、Baidu の HelixFold3 は大幅なアップグレードを実施しており、モデルの精度と効率が向上するだけでなく、業界にさらなる可能性をもたらします。

大規模モデルは、生命科学におけるより深く広い方向性を探求します。

プラットフォームリンク:

https://paddlehelix.baidu.com/

論文リンク:

https://arxiv.org/pdf/2408.16975

詳しくは「原文記事を読む」をクリックしてください。