618ZXW

Bayesian Computing の AI4S 観察: 機械学習を使用して世界を認識し、推論する最大の魅力は、水平スケーリングの有効性にあります。

従来の研究手法は、研究者自身の特性や問題定義能力に大きく依存しており、一般的に小規模なデータセットを使用するため、一般化や拡張性に疑問が生じます。一方、AI研究手法では、大規模かつ高品質なデータの導入と機械学習を用いた特徴抽出が不可欠であり、その結果得られる研究成果は現実世界の問題に対して非常に有効となります。

COSCon'24のAI for Scienceフォーラムにおいて、OpenBayesの創設者である王晨漢氏は、「AI主導の科学研究における新たなパラダイム:人間の知能による統計手法の包括的アップグレード」と題したプレゼンテーションで、AI4Sの開発に関する見解を共有しました。HyperAIは、王氏のプレゼンテーションを原文の趣旨を変えることなく編集・要約しました。以下は、王氏の要点の書き起こしです。

機械学習は統計の効果的な応用である

OpenBayesは中国を代表するAIサービスプロバイダーです。トップクラスの大学や研究機関への支援を通して、科学研究、特にSTEM分野におけるAI技術と手法の応用が著しく増加していることを確認しています。本日は、 AIと機械学習が科学研究と産業研究の両方において新たなパラダイムになりつつある理由についてお話ししたいと思います。

機械学習理論は1990年代に確立されました。長年にわたる反復的な発展にもかかわらず、現在の分野のバックボーンから見て、機械学習は依然として伝統的な統計学の領域から脱却できていません。これが、統計システムの解釈可能性の欠如という、AIが批判される重要な理由の一つです。

皆さんの中には、OpenBayes Computationという弊社の社名をご存知の方も多いでしょう。ベイズの定理を用いて自動化システムにおける複雑な計算を実行するだけでなく、機械学習は統計学におけるベイズ学派であると考えています。

教師あり学習は、産業応用や科学研究においてより信頼性が高いです。特に科学研究では、ラベル付けされた構造化データに大きく依存します。これらのデータセットを様々な構造モデルを用いてモデル化することで、具体的な研究課題を分析することが可能になります。このプロセスにおいて、研究者が収集した研究サンプルを統計的に分析し、現実世界の課題を反映させることこそが、科学研究の本質であると私は考えています。

大規模データ×モデル構造=AI研究成果 - 従来研究

つい最近、AlphaFoldがノーベル化学賞を受賞し、大きな議論を巻き起こしました。実際、AlphaFoldは近年、継続的に改良を重ね、人間の限界を超え、ヒトプロテオームの比較的正確な予測を実現しています。2018年にリリースされたAlphaFold 1は、第13回CASP(タンパク質構造予測の批判的評価)コンペティションにおいて、43種類のタンパク質のうち25種類の構造を正確に予測しました。同コンペティションの準優勝者は、わずか3種類しか正確に予測できませんでした。

2020年までにGoogle DeepMindはAlphaFold 2へとアップグレードし、タンパク質構造予測において94%~98%の精度を達成しました。これは製薬分野にとって重要な指標となり、クライオ電子顕微鏡などの観察方法の85%~90%以上を代替できる可能性を秘めています。さらに、人類がタンパク質構造の謎を解明すれば、抗体やバイオ医薬品研究のための最も効果的かつ迅速なツールを手に入れることができます。これがAlphaFoldがノーベル賞を受賞した主な理由と考えられています。

AlphaFoldの事例に加え、ベイジアンコンピューティングの分野で著名な国内研究者である北京大学人工知能研究所のShi Baixin教授のチームが発表した論文「EventPS:イベントカメラを用いたリアルタイムフォトメトリックステレオ」もご紹介したいと思います。この論文はCVPR 2024の優秀論文の一つに選ばれました。

この研究はCVPR 2024で最優秀論文の1つに選ばれました。

本研究では、イベントトリガーと表面法線との相関関係を示す「ヌルベクトル」情報を活用し、最適化と深層学習を用いてフォトメトリックステレオ法線推定問題を解く。自社開発の高速ターンテーブル上に構築したデータ取得システムとGPU最適化アルゴリズムを組み合わせることで、毎秒30フレーム以上のリアルタイム表面法線再構成を実現した。

  • 論文の宛先:
    https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf

要約すると、人間は現実世界をマクロとミクロの両方の視点から理解する必要があるため、 2次元情報に基づく3次元情報モデルの再構築は、学術界において常に重要な研究対象となってきました。AlphaFoldは空間における1次元の化学情報と生物学的情報を再構築し、EventPSは​​イベントカメラを用いて物体の3次元輪郭を復元します。

上記で紹介した2つの事例は、機械学習手法が最先端の研究を推進する上での価値を実証しています。これに基づき、ベイズが研究コミュニティについて行った観察を踏まえ、私はシンプルな式をまとめました。大規模データ × モデル構造 = AI研究の成果 - 従来型研究。

具体的には、研究プロセスにおいて、大規模データを効果的なモデル構造に適用することで「乗算的」な効果が得られ、あらゆる産業研究プロジェクトにおいて従来の手法を大幅に凌駕する成果が得られます。これが、AI主導の研究が過去2年間で2~5倍の成長を遂げた主な理由です。

提案する式が加算ではなく積を用いるのは、単一のパラメータの増加のみに頼っていては有意な結果が得られないからです。モデル構造を変更せずにデータ量を増やすと、収穫逓減につながり、パフォーマンスの向上が困難になる可能性があります。同様に、データサイズが固定されている場合、モデルパラメータを大きくすれば必ずしも良いとは限りません。

下図に示すように、データセットに対して線形関数を用いて2値分類タスクを実行すると、単変量線形関数の有効性は非常に限られていることがわかります。これを2値関数に拡張すると、一部のサンプルが間違っているものの、全体的な汎化が達成されていることがわかります。さらに、データを変更せずに、より高次元の関数やより大きなパラメータスケールを持つモデルをデータセットに適合させ続けると、結果の適合度と予測精度は非常に高くなりますが、同時に過剰適合につながり、モデルがデータセット外への汎化能力を失うことになります。

したがって、データの規模が大きいほど必ずしも良いわけではなく、モデルの複雑さが増すほど必ずしも良いわけでもありません。

近年、業界で熱く議論されているスケーリング法則では、データサイズとパラメータサイズが等しく増加した場合にのみ、モデル損失関数の下限、つまりその予測誤差率が低いレベルに低下するとも述べられていますが、これは、データサイズとパラメータサイズが小さいモデルでは達成できません。

教師あり学習は科学研究における革新と向上を促進します。

科学研究の分野では、科学研究を推進するために、通常、教師あり学習法が使用されます。

教師あり学習は本質的にサンプリング調査であり、研究者が利用可能なデータセットとサンプルを用いて現実世界の課題を解決しようと試みます。データセットのサイズと複雑さがモデルのサイズと複雑さと同時に増加すると、学習サンプルは本質的に大きくなり、研究者はより大きなサンプルサイズからより多くの特徴を抽出できるようになります。これが機械学習の利点です。研究者は特徴の定義と抽出という作業から解放されます。

そのより高度な価値は、データセットの特徴が複雑すぎる場合、人間の脳では主要な特徴を抽出し、それに応じた重みを割り当てることが困難であるという事実にあります。しかし、機械学習は特徴を自動的に抽出し、大規模なサンプルの特徴抽出の問題を非常にうまく解決できます。サンプルが大きくなるほど、モデル構造は現実世界により適合しやすくなります。

機械学習が成熟するにつれて、研究者の主な仕事は、問題の定義、データセットの規模の拡大と改良、そして適切な機械学習モデルの選択へと移行していくと推測するのは妥当でしょう。これは革命的なイノベーションをもたらし、産業研究やSTEM研究を、工場で製品を製造するのと同じように、効率的に生産することを可能にするでしょう。

機械学習を使って世界を認識し、推測する

ベイズ・コンピューティングは、AIが科学研究に応用され、新しいパラダイムが継続的に推進されるにつれて、人類はカンブリア紀のような爆発に直面し、ほぼすべての産業、科学、技術研究分野の限界を押し上げることになると考えています。

私たちは、機械学習が科学研究に貢献する理由は 2 つあると考えています。1つ目は、機械学習を使用して世界を理解/認識すること、2 つ目は、機械学習を使用して世界を外挿することです。

その中で、認識面における最も大きな推進力は、世界をオーバーサンプリングする機械学習手法から生まれています。

人間は主に視覚、聴覚、嗅覚、味覚といった感覚を通して世界を認識します。コンピュータサイエンスの分野では、これはセンサーと大規模なデータ記録を用いて世界をサンプリングすることを意味します。人々がさらに大規模なデータセットを持つ場合、機械学習の手法を用いることで、サンプリングの精度と規模を比例的に拡大することができます。これが、機械学習を用いて世界を理解する本質です。

言い換えれば、機械学習は私たちの世界に対する認識を高め、それによって世界の本質を研究するのに役立ちます。

例えば、中国科学院や上海交通大学などの大学や研究機関では、質量分析やスペクトルデータの処理に機械学習を活用し始めています。例えば、機械学習を用いてスペクトルをモデル化することで、地下鉱物の発見精度を向上させています。

さらに、機械学習を用いて世界の法則を推論することに関して、時系列データの研究パラダイムを共有したいと思います。

時系列データとは、物事の時間の経過に伴う発展を定量的に定義したものです。最も一般的な例としては、株式市場データ、降雨量、気温の変化などが挙げられます。AI分野における大規模言語モデルの本質は、人間の言語や知識をテキストで表現し、テキストのシーケンスを一種の時系列データとして理解し、前回の入力テキストに基づいて次のトークンが出現する確率を予測することです。

まとめると、時系列データはモノの最先端の発展や運用パターンを表現できるため、機械学習を用いて大量のデータをフィッティングし、先行する入力データに基づいて後続の出力データを推測することが自然に可能になります。

例えば気象学の分野では、中国、米国、フランスなどの様々な研究機関が、機械学習モデルを様々な次元の予報に積極的に応用しています。現在の天気予報は、予測範囲と予測期間が拡大しているだけでなく、精度も継続的に向上しています。

ご覧のとおり、認知から推論まで、これらは機械学習が大規模な科学研究成果を生み出す可能性が最も高い 2 つの方向です。

従来の研究手法とAI研究手法

ここでは、従来の研究方法と AI 研究方法を比較します。

従来の研究手法は、研究者の特性や問題設定能力に大きく依存し、「少量データ」のみを用いていました。しかし、データ量が少ないと、研究成果の産業分野や広く人間社会への応用に疑問が生じます。

AIを科学研究に導入する際、まずは大規模データを導入する必要があります。機械学習モデルを用いて、関連する特徴量を抽出するのです。前述の通り、大規模データと効果的なモデル構造を用いることで、科学研究におけるブレークスルーが期待できます。一般的に、このようにして得られた研究成果は、実社会における応用においても有効であり、まさにこれこそがAIが科学研究を推進する上で最大の魅力、すなわち水平スケーリングの有効性なのです。

OpenBayes ベイズ計算: クラスターソフトウェアの構築

最後に、中国を代表するAIサービスプロバイダーであるOpenBayesをご紹介します。同社は、クラスターアーキテクチャ、コンパイラ、モデル構造において、豊富な革新的な成果と製品を有しています。現在、OpenBayesのモデル構築システムは、100社以上の企業や研究機関に民間導入されています。また、当社のオンラインパブリックサービスには17万人以上の登録ユーザーがおり、そのほとんどが研究分野のターミナルエンジニアや学者です。主なユーザーには、清華大学、北京大学、天津大学、上海交通大学といった中国のトップクラス大学(985プロジェクト大学と211プロジェクト大学)の工学系研究機関や産業研究機関が含まれています。

当社のAI for Scienceツールセットは、AIモデル開発のライフサイクル全体をエンドツーエンドでカバーします。AIとHPCに関するグローバルなオープンソースデータセットと多数のチュートリアル、そして構築済みのオープンソースモデルと独自モデルを統合し、研究分野の要素を単一のクラスターソフトウェア、すなわち当社の主力製品であるOpenBayesに統合します。NVIDIAやその他の国産チップを搭載したコンピューティングクラスターにOpenBayesを展開することで、研究者やチームにすぐに使えるサービスを提供し、モデル構築、モデル推論、産業用ソフトウェアコンピューティングをシームレスに統合することを可能にします。

スイート全体を使用することで、モデルのトレーニングコストを、従来のAIを使用してこのレベルのモデルを構築する場合の8.25%にまで削減できます。例えば、以前は数千万のクラスターを必要としていた計算を、OpenBayesソフトウェアを使用することで数十万ドルにまで削減できます。

AIと科学の融合という分野への深い支援によって、AIが未だ到達しておらず、探求が必要な科学研究分野が数多く存在することに気づきました。また、科学研究におけるカンブリア紀が間もなく到来し、ほぼすべての産業研究や科学技術研究がAIのパラダイムと手法を用いて実施されるようになると確信しています。