618ZXW

安定した材料生成効率が300%向上!Meta FAIR、45,000種類以上の材料を網羅するデータセットを備えた材料生成モデルFlowLLMをリリース。

結晶材料は、原子、イオン、分子が規則的に配列した材料の一種であり、産業や科学技術において重要な役割を果たしています。

しかし、結晶材料の生成と設計のプロセスは単純ではなく、通常は離散変数と連続変数の組み合わせを考慮する必要があります。離散変数は材料の基本的な枠組み(原子の種類や初期の結晶格子構造など)を定義し、連続変数はこの基本的な枠組み内で微調整と最適化を行うことで、最終的に特定の物理的および化学的特性を持つ結晶材料を生成します。

AI技術の学際的な応用により、モデル内の離散変数と連続変数を効果的に組み合わせて高品質の結晶材料生成結果を得る方法が、結晶材料生成分野における中核的な課題となっています。

自己回帰大規模言語モデル (LLM) やノイズ除去モデル (ノイズ除去拡散モデルやフロー マッチング モデルなど) などの既存の方法はこの分野である程度の成功を収めていますが、それぞれに限界があります。

具体的には、LLMは離散値モデリングに優れており、特に原子の種類などの離散要素の取り扱いに優れていますが、格子構造や原子間の位置を正確に記述することは困難です。一方、ノイズ除去モデルは連続変数の取り扱いに優れており、結晶構造の等変動性をより適切に維持できますが、原子の種類などの離散要素のモデリングには課題があります。

これに基づき、MetaのFAIRラボはアムステルダム大学と共同で、マテリアル生成モデルFlowLLMをリリースしました。これは、大規模言語モデル(LLM)とリーマンフローマッチング(RFM)を組み合わせた革新的な生成モデルであり、LLMの自然言語プロンプト提供能力を維持しながら、安定したマテリアル生成において従来のモデルよりも300%以上、SUNマテリアル生成において約50%高い効率を実現しています。

  • SUN材料とは、AI技術によって安定性、独自性、新規性を備えた材料科学分野の材料を指します。この概念は、MatterGenモデルの議論においてMicrosoftによって提案されました。

「FlowLLM: 大規模言語モデルを基本分布として用いたマテリアル生成のためのフローマッチング」と題された関連研究がプレプリントウェブサイト arXiv にアップロードされ、NeurIPS 2024 に受理されました。

研究のハイライト:

  • FlowLLM は LLM と RFM を組み合わせ、離散モデリングと連続モデリング間のギャップを効果的に埋め、安定した独自の新しい材料を生成する効率を大幅に向上させます。
  • FlowLLM は、CD-VAE、DiffCSP、FlowMM、CrystalLLM などのモデルよりも新しく安定した材料を生成する点で大幅に優れており、以前の最高モデルよりも約 300% 高い安定率と約 50% 高い沈下率を達成しています。

論文の宛先:
https://arxiv.org/pdf/2410.23405

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。
https://github.com/hyperai/awesome-ai4s

データセット: 45,231 個のマテリアルが含まれており、モデルのトレーニングは MP-20 データセットで実行されます。

FlowLLMモデルは、無機結晶材料データセットMP-20でトレーニングされました。MP -20には45,231個の材料が含まれており、Materials Projectのサブセットであり、準安定状態と見なされる最大20個の原子が含まれています。

まず、研究者らはMP-20データセットを用いてLLMを独立して学習し、LoRA(Low-Rank Adapters)法を用いてPyTorchとTransformersで微調整を行いました。次に、微調整後のLLM(重み固定)をベース分布、MP-20データセットをターゲット分布として用いて、RFMモデルをさらに学習しました。

相補的な利点: 2 つの主要モデル LLM と RFM を組み合わせて、新しい生成モデル FlowLLM が登場しました。

FlowLLMは、大規模言語モデル(LLM)とリーマンフローマッチング(RFM)モデルを組み合わせた新しい生成モデルです。これは、LLMとRFMを創造的に組み合わせた、これまでの研究に基づくさらなる発展です。

本研究で使用されたLLMは、Meta FAIRとニューヨーク大学が今年2月に発表した「微調整された言語モデルが安定した無機物質をテキストとして生成する」という研究結果に基づいています。この研究では、微調整されたLLM(LLaMA-2 70B)が、準安定物質の生成を予測する上で、競合拡散モデルCDVAEの約2倍の成功率を示すことが実証されました。

論文の宛先:
https://arxiv.org/abs/2402.04379

FlowMMは、Meta FAIRとアムステルダム大学が今年6月に発表した「FlowMM:リーマンフローマッチングによる物質生成」という研究成果に基づいています。生成モデルであるFlowMMは、安定した物質の発見において、従来のオープンソース手法よりも3倍の効率性を発揮します。

論文の宛先:
https://arxiv.org/abs/2406.04713

下図に示すように、研究者らはまず、微調整されたLLMを用いて無条件クエリによる初期物質表現を生成した。次に、RFMモデルを用いて物質を反復的に変形し、原子位置と格子定数を更新した。RFMでは、原子の種類は変化しない点に注意する必要がある。

FlowLLMモデルアーキテクチャ

研究者たちは、これら2つのモデルを組み合わせることで相補的な利点が得られると指摘しています。まず、LLMはRF​​Mに優れた学習ベース分布を提供します。LLMの出力分布は、一般的に使用される均一なベース分布に代わる、RFMの学習ベース分布として機能します。LLMは既に材料データで学習されているため、学習ベース分布は目標分布に近くなり、RFMとの統合が大幅に簡素化されます。

  • フローモデル(RFMなど)では、基本分布はモデルがサンプルを生成する際の初期分布です。基本分布を学習することで、データの真の構造とパターンをより正確に捉えることができます。特に複雑なデータ(材料設計における結晶構造など)を扱う場合、基本分布を学習することで、生成されるサンプルの品質とモデルの性能を効果的に向上させることができます。

一方、RFMはLLMの出力を最適化します。LLMは連続値を処理する際の精度が限られているため、近似的な材質表現を生成します。RFMは反復的なノイズ除去によってこの近似を最適化し、より正確な表現を生成します。

優れたパフォーマンス: モデル安定化材料生成効率が 300% 向上し、SUN 材料生成効率が 50% 向上しました。

モデルの性能をテストするために、研究者らは FlowLLM モデルを CD-VAE モデル (変分オートエンコーダと拡散モデルのハイブリッドモデル)、DiffCSP モデル (拡散モデル)、FlowMM モデル (リーマンフローマッチングモデル)、CrystalLLM モデル (物質配列を微調整するための LLaMA-2 モデル) と比較し、各モデルに対して 10,000 個の新しい構造を生成しました。

性能比較において、研究者たちは安定性とSUN率を主要な指標として注目しました。具体的には、安定性とは、生成された材料中の熱力学的に安定な材料の割合を指し、合成可能性の重要な指標です。一方、SUN率は、安定で、独自性があり、新規な材料の割合を指します。結果は下の図に示されています。

モデル材料生成性能の比較

安定性とSUN率に関して、FlowLLMモデルは熱力学的に安定な材料を生成し、全体の17.82%を占め、SUN率は4.92%でした。研究チームは論文の中で、FlowLLMは従来の最適モデルと比較して、安定性を300%、SUN率を50%向上させたと述べています。

Ehull値は、物質の安定性と合成可能性を測る重要なパラメータの一つです。ある物質構造において、Ehull値がゼロに近い場合、その物質は非常に安定しており、実際に合成される可能性が高いことを示します。逆に、Ehull値が高い場合、その物質は容易に安定化されず、合成がより困難であることを示す可能性があります。

FlowLLMによって生成された材料の安定性と合成可能性をさらに検証するため、研究者らはFlowLLMで生成された材料のEhull値を既存のモデルと比較しました(下図参照)。破線は熱力学的安定性閾値(Ehull = 0)、赤線はFlowLLMモデル、青線はそれぞれCD-VAE、DiffCSP、FlowMMを表しています。

ご覧のとおり、FlowLLMは他のモデルと比較して、より低いEhull値を持つ物質をより多く生成できます。つまり、 FlowLLMを用いて生成された物質は、他のモデルで生成された物質よりも安定性と合成性が高いということです。

モデルEhullの価値比較

さらに、研究者らはモデルのN値(N進値)を評価しました。N値とは、材料に含まれる異なる元素の種類の数を指し、 N値が高いほど材料の複雑さが増し、合成の難易度が増すことを意味します。下図に示すように、研究者らは異なるモデルのN進値分布を比較しました。その結果、FlowMMとFlowLLMは拡散モデルと比較してデータ分布への適合度が高いことが示されました。これは、FlowMMとFlowLLMモデルが、材料データをフィッティングする際に、材料の固有の構造と分布特性をより正確に捉えることができることを意味します。

モデルのN値の比較

最後に、研究者らはモデルのRFM積分ステップの比較分析も行いました。下図に示すように、数百または数千の積分ステップを必要とする拡散モデルやフローマッチングモデルと比較して、 FlowLLMはわずか50ステップで収束します。

FlowLLMとFlowMMの統合手順の比較

結晶材料生成の分野では百もの学派が争っている

材料科学研究分野において、MetaのFAIRラボは最近、生産性の高まる時期を迎えています。数週間前には、構造と組成の多様性に焦点を当てた1億1000万件以上のDFT計算を含むOMat24データセットをリリースし、モデルトレーニングのための新たな高品質な「原材料」を提供しています。

詳細レポートを見るにはクリックしてください: Meta は、周期表のほぼ全体を網羅する 1 億 1000 万件の DFT 計算結果を含むオープンソースの OMat24 データセットをリリースしました。

実際、結晶材料生成の分野では、本稿で述べたLLMやノイズ除去モデルの他にも、生成的敵対的ネットワーク(GAN)に基づく材料生成、変分オートエンコーダ(VAE)に基づく材料生成、グラフニューラルネットワーク(GNN)に基づく材料生成など、さまざまな手法が存在します。

2018年、パリ東大学はソルボンヌ大学と共同で、2つのクロスドメインGANモジュールを組み合わせたCrystalGANを提案しました。特に、CrystalGANは水素貯蔵材料の発見に実用化されており、現実世界の化学および材料科学の課題解決における有効性を実証しています。

関連研究「CrystalGAN: 生成的敵対ネットワークによる結晶構造の発見の学習」が ICLR 2019 で発表されました。

論文の宛先:
https://openreview.net/pdf?id=SyEGUi05Km

2021年、MITコンピュータ・人工知能研究所は、安定した物質のデータ分布を学習することで物質安定性の物理的な誘導バイアスを捉えるCD-VAEを提案しました。関連研究「周期的物質生成のための結晶拡散変分オートエンコーダ」は、ICLR 2022で発表されました。

論文の宛先:
https://openreview.net/forum?id=03RLpj-tc_

2023年、タイのチュラロンコーン大学は、タイ物理学エクセレンスセンターと共同で、CD-VAEの研究を基にDP-CDVAEをリリースしました。DP-CDVAEは、 CD-VAEに匹敵する性能を維持しながら、エネルギー精度、発電性能、格子生成品質において大きな利点を発揮します。

「拡散確率モデルは結晶構造生成モデリングのための変分オートエンコーダを強化する」と題された関連研究が Nature に掲載されました。

論文の宛先:
https://www.nature.com/articles/s41598-024-51400-4

2023年、Google DeepMindの材料チームは、材料探索のためのグラフニューラルネットワークモデルであるGNoMEをリリースしました。短期間で、220万個の新しい結晶(人類の科学者による約800年分の知識蓄積に相当)を発見しました。そのうち38万個の新しい結晶は安定した構造を持ち、実験的に合成され実用化される可能性が最も高い潜在的な新材料となっています。

クリックしてレポート全文をお読みください: 人類より 800 年先を行く? DeepMind が GNoME をリリース、ディープラーニングを使用して 220 万個の新しい結晶を予測。

今年、日本の東北大学とMITの研究者もGNN法に基づくGNNOptモデルを提案し、太陽エネルギー変換効率が32%を超える物質246種と量子重量の高い量子物質296種の特定に成功し、エネルギー・量子物質の発見を大きく加速させた。

詳細レポートを見るにはクリックしてください: 東北大学と MIT は、944 個の材料のデータに基づいて GNNOpt モデルを共同でリリースし、数百個の太陽電池および量子候補材料を特定することに成功しました。

研究成果はこれにとどまらず、結晶材料生成の分野では、多様な視点が花開く様相を呈しています。研究が深まるにつれ、これらの革新的な手法と理論が、エネルギー、環境、健康といった分野における地球規模の課題に対する重要な解決策をもたらすと確信しています。