618ZXW

周期表をほぼ網羅!MetaがオープンソースのOMat24データセットをリリース。1億1000万件のDFT計算結果が含まれています。

再生可能エネルギーの世界的な需要増加に伴い、エネルギーを貯蔵し、必要に応じて放出できるソリューションとして、エネルギー貯蔵技術への注目が高まっています。しかし、多くの再生可能エネルギー貯蔵技術は初期投資コストが高く、運用・保守が困難であるため、現在も研究段階または実証段階にとどまっています。

これを受けて、当時まだ名称が正式だったFacebookのAIリサーチラボ(FAIR)は、カーネギーメロン大学と提携し、2020年にOpen Catalystプロジェクトを立ち上げました。このプロジェクトは、AIを用いて再生可能エネルギー貯蔵のための新たな触媒を探索することを目的としていました。プロジェクトの立ち上げに伴い、研究チームはOC20触媒シミュレーションデータセットを公開しました。

OC20 データセットのダウンロード リンク:
https://go.hyper.ai/dYeNS

2022 年、研究チームは OC20 データセットを拡張し、Open Catalyst 2022 (OC22) データセットを立ち上げて、モデルのトレーニングの精度を高めました。
OC22データセットのダウンロードリンク
https://go.hyper.ai/9FhFL

Metaは最近、大規模オープンソースデータセット「Open Materials 2024(OMat24)」とそれに付随する事前学習済みモデル群を公開し、材料科学における新たな飛躍的進歩を達成しました。OMat24データセットには、構造および組成の多様性に焦点を当てた1億1000万件を超える密度汎関数理論(DFT)計算が含まれています。事前学習済みモデルはEquformerV2(eqV2)モデルを用いて学習されており、eqV2-MモデルはMatbench Discoveryリーダーボードで最先端のパフォーマンスを達成し、基底状態の安定性と形成エネルギーを予測する能力を備え、材料安定性予測における新たなベンチマークを確立しました。

研究のハイライト:

  • OMat24 データセットは、MPtrj、Materials Project、Alexandria などのオープンソース データセットに基づいて構築されており、周期表のほぼ全体をカバーする要素が含まれています。
  • 事前学習済みモデルには、eqV2-S、eqV2-M、eqV2-Lの3つのサイズがあります。その中で、eqV2-Mモデルは、Matbench DiscoveryリーダーボードでF1スコア0.916を達成し、平均絶対誤差はわずか20 meV/atomでした。

論文の宛先:
https://arxiv.org/pdf/2410.12771

OMat24 データセットのダウンロード リンク:
https://go.hyper.ai/gALHP

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

OMat24 データセットには、さまざまな原子構成をカバーする 1 億 1000 万を超える DFT 計算が含まれています。

OMat24データセットは、材料のDFT代替モデルの学習に現在利用可能な最大規模のオープンソースデータセットの一つです。このデータセットは、無機バルク材料の一連のシングルポイント計算、構造緩和、分子動力学トラジェクトリで構成されています。研究者らは、4億コアを超える計算リソースを用いて、総エネルギー、力のノルム、セル応力がラベル付けされた約1億1,800万の構造を計算しました。

これらの構造は、ラトル構造のボルツマン サンプリング、第一原理分子動力学 (AIMD)、ラトル構造の緩和という 3 つの手法を使用して生成されました。

OMat24データセット生成、応用分野、サンプリング戦略の概要

OMat24データセットは、エネルギー、力、応力の分布が広範囲にわたります。下の図は、OMat24、MPtrj、およびAlexandriaデータセットにおける全エネルギー(eV/原子)、力(eV/A)、応力(GPa)ラベルの分布を示しています。

  • MPtrjデータセット(Materials Project Trajectory Dataset)には、150万を超える無機構造のDFT計算データが含まれています。その大規模さと多様性により、材料科学および計算材料科学の分野において大きな応用価値を有しています。
  • Alexandria データセットは、力場開発、密度汎関数開発、評価のための豊富な分子特性データを提供する量子化学データベースです。

オレンジ色の破線は MPtrj データセット、青色の破線は Alexandria データセット、緑色の実線は OMat24 データセットを表します。

ご覧のとおり、OMat24 データセットのエネルギー分布は、入力構造として使用された Alexandria データセットのエネルギー分布よりもわずかに高く、MPtrj データセットのエネルギー分布よりも大幅に高くなっています。また、OMat24 データセットの力とセル応力の分布は、MPtrj および Alexandria データセットのものよりもはるかに高くなっています。

OMat24データセットには、周期表をほぼ完全にカバーする元素が含まれていることは注目に値します。下の画像をご覧ください。

OMat24データセットにおける要素の分布

OMat24データセットは他のデータセットよりも優れているものの、研究者たちはその限界も指摘しています。PBEおよびPBE+UレベルのDFT計算に基づいているため、周期的なバルク構造のみが含まれており、点欠陥、表面、非化学量論性、低次元構造といった重要な効果を考慮していないため、固有の近似誤差が生じます。しかしながら、これらの誤差は他の汎関数によってある程度軽減されています。

下の図に示すように、研究者らは WBM データセットの計算結果と OMat24 DFT 設定を使用した単一ポイントの計算結果を比較し、両者の平均絶対誤差は 52.25 meV/原子であることを発見しました。

  • WBM データセットは、形成エネルギー、エントロピー変化、比熱容量など、DFT 計算を使用して得られた材料の大量の電子構造および熱力学的特性データを含む大規模な計算材料データベースです。

WBM データセットの計算結果と OMat24 DFT 設定の単一点計算結果を比較した図。

EquformerV2 をモデル アーキテクチャとして使用し、3 つの主要なデータセットでモデルをトレーニングしました。

研究者らは、OMat24データセットに加え、MPtrjデータセットとAlexandriaデータセットを用いてモデルの学習を行いました。Alexandriaデータセットとテストに使用したWBMデータセットは構造が類似しているため、研究者らはAlexandriaデータセットをサブサンプリングし、学習用データセットとテスト用データセット間でデータの欠落がないことを確認しました。

まず、研究者らはWBMの初期構造と緩和構造に一致する部分をすべて削除し、アレクサンドリア(sAlexandria)の新しいサブセットを作成しました。データセットのサイズを縮小するため、全エネルギーが0 eVを超え、力のノルムが50 eV/Åを超え、応力が80 GPaを超える構造を削除しました。最後に、残りの軌道においてエネルギー差が10 meV/原子を超える構造のみをサンプリングしました。学習と検証に使用された最終的なデータセットには、それぞれ1,000万個と50万個の構造が含まれていました。

モデル アーキテクチャとして、研究者は EquiformerV2 を選択しました。これは現在、OC20、OC22、および ODAC23 リーダーボードで最高のパフォーマンスを誇るモデルです。

モデルのトレーニングのために、研究者は次の 3 つの戦略を検討しました。

  • EquiformerV2モデルは、ノイズ除去拡張目標の有無にかかわらず、OMat24データセットのみで学習されました。これらのモデルは、古いMaterials Project設定に関連付けられた基礎擬ポテンシャルの重要な更新を含むデータセットにのみ適しているため、物理的に最も強い意味を持ちます。
  • ノイズ除去強化ターゲットの有無にかかわらず、MPtrj データセットのみでトレーニングされた EquiformerV2 モデルは、Matbench Discovery リーダーボード (準拠モデルとしてラベル付け) と直接比較するために使用できます。
  • MPtrj または sAlexandria を組み合わせたデータセットで OMat24 または OC20 をさらに微調整して EquiformerV2 モデルをトレーニングし、Matbench Discovery リーダーボードで最高のパフォーマンスを発揮するモデル (非準拠モデルとしてマーク) を実現しました。

以下の表は、EquiformerV2 アーキテクチャでトレーニングされたモデルと、さまざまな仕様のモデルのパラメータの合計数と推論スループットを示しています。

モデルトレーニングの異なる仕様

EquiformerV2 でトレーニングされたモデルは、Matbench-Discovery リーダーボードで最高のパフォーマンスを発揮しました。

研究者は Matbench-Discovery ベンチマークを使用して EquiformerV2 モデルを評価し、その結果、 EquiformerV2 モデルは、準拠モデル (MPtrj のみを使用してトレーニング) でも非準拠モデル (追加データを使用してトレーニング) でも、リーダーボードで最高のパフォーマンスを達成したことが示されました (F1 スコアが主な評価指標でした)。

下の画像は、Matbench-Discovery リーダーボード上の他の非準拠モデルのパフォーマンスを示しています。

画像出典: Matbench-Discovery公式サイト

結果によると、eqV2-M モデルの F1 スコアは 0.916、平均絶対誤差 (MAE) は 20 meV/原子、平均二乗平方根誤差 (RMSE) は 72 meV/原子であり、材料安定性の予測における新たなベンチマークが確立されました。

さらに、MPtrajデータセットのみで学習したEquiformerV2モデルも、不均衡構造に対するDeNSなどの効果的なデータ拡張戦略のおかげで、非常に優れたパフォーマンスを示しました。上の表に示すように、OMat24データセットで事前学習したモデルは、精度の点で従来のモデルを上回り、特に不均衡構造の処理において優れた性能を示しました。

オープンソースは、材料科学と AI の統合を促進するものになりつつあります。

今日のデータ駆動型時代において、AIはかつてないスピードと精度で材料科学の研究パラダイムを変革しています。特に、材料科学を取り巻くオープンソースのAIの知識、ツール、そしてデータは、より多くの研究者、開発者、そして熱心な研究者に、イノベーションプロセスへの参加と、材料科学の発展を共同で推進する機会を提供しています。

OMat24オープンソースデータセットとそのモデルのリリースに関して、 Microsoft Researchの機械学習の第一人者でチーフサイエンティストのマックス・ウェリング氏はソーシャルメディアで次のように述べています。「新しい最先端(SOTA)機械学習力場基盤モデルを生み出した新しいOMat24データセットに特に興奮しています。」

実際、米国バークレー国立研究所(LBNL)は2011年という早い時期にMaterials Projecを公開しました。このデータセットには、結晶構造、電子構造、熱力学的特性など、無機材料に関する膨大な計算データが含まれており、現在の材料科学研究にとって重要なデータリソースとなっています。
論文の宛先:
https://go.hyper.ai/KExvK

マテリアル プロジェクト データセットのダウンロード リンク:

https://go.hyper.ai/BOQS0

例えば、ノースウェスタン大学は2013年にオープンソースの量子材料データセットOQMDをリリースしました。これには1,226,781種類の材料の熱力学的および構造的特性の計算結果が含まれており、さまざまな材料アプリケーションのハイスループットDFT分析に広く使用されています。
論文の宛先:
https://www.nature.com/articles/npjcompumats201510

OQMDデータセットのダウンロードアドレス:
https://go.hyper.ai/X4fE5

2018年、MITはCGCNNモデルを発表しました。このモデルは材料科学において幅広い応用が可能で、グラフニューラルネットワークを用いて結晶材料のバンドギャップ、磁気特性、熱力学的安定性といった材料特性を予測します。
論文の宛先:
https://arxiv.org/pdf/1710.10324

2020年、米国国立標準技術研究所(NIST)は、材料特性と電子構造の予測に重点を置いたオープンソースプラットフォームJARVISをリリースしました。JARVIS-MLはその機械学習モジュールであり、豊富なデータセットと機械学習ベースの材料スクリーニングツールを提供します。DFT、分子動力学シミュレーション、機械学習をサポートし、研究者が新しい材料を迅速にスクリーニングして発見することを可能にします。
論文の宛先:
https://arxiv.org/abs/2007.01831

2021年、NISTはALIGNNモデルを発表しました。このモデルは、原子間の複雑な相互作用を捉えるための線グラフを導入することで、材料特性予測の精度を効果的に向上させます。
論文の宛先:
https://www.nature.com/articles/s41524-021-00650-1

ハイスループットスクリーニングから自動化された材料設計まで、オープンソースは材料科学と AI の統合を促進する重要な加速器となり、材料科学をより高いインテリジェンスと効率性の新時代へと導いていることがわかります。

参考文献:

1.https://www.marktechpost.com/2024/10/20/meta-ai-releases-metas-open-materials-2024-omat24-inorganic-materials-dataset-and-models/

2.https://www.notebookcheck.net/Meta-unveils-OMat24-AI-powered-materials-discovery-goes-open-source.904139.0.htm

3.https://www.technologyreview.com/2024/10/18/1105880/the-race-to-find-new-materials-with-ai-needs-more-data-meta-is-giving-massive-amounts-away-for-free/