618ZXW

超伝導材料の探索効率が5倍に向上!フロリダ大学をはじめとする研究機関がディープラーニングで材料発見に革命をもたらし、その成果はNatureのサブジャーナルに掲載されました。

SF映画『アバター』で、緑の蔓が絡み合い雲間に浮かぶハレルヤ山脈は、観る者に深い印象を残したに違いありません。その浮遊の秘密は、山脈に秘められた常温超伝導鉱物「アンオブタニウム」にあります。映画の中で、人類は地球上に存在しないこの宝を求めて、ナヴィ族の故郷を破壊することも厭いませんでした。これはあくまで架空の話ですが、現実世界でも物理学者たちの超伝導物質への渇望と探求は、映画における「アンオブタニウム」への執着に劣らず激しいのです。なぜなら、超伝導物質は理論上、無尽蔵のエネルギー源となる可能性があるからです。

超伝導材料の研究は、2023年に韓国の研究チームが室温超伝導材料LK-99の発見を発表したことでピークを迎えました。この発見は世界的な注目を集め、ChatGPTに続く新たな技術的ブレークスルーとして称賛されたことさえありました。この発見は最終的に誤報であることが判明しましたが、超伝導材料への関心を再燃させ、この分野の計り知れない可能性を浮き彫りにしました。

AI for Scienceの台頭により、人々は大胆に想像し始めています。AI技術を用いて常温超伝導材料を発見できるでしょうか?理論的には、これは完全に実現可能です。課題は残っていますが、いくつかの研究チームはすでにこの方向で大きな一歩を踏み出しています。例えば、フロリダ大学とテネシー大学の研究者は、ディープラーニングモデルBETE-NETを用いて、金属の電子-フォノン相互作用のエリアシュバーグスペクトル関数α²F(ω)を予測することに成功し、高温超伝導体の探索効率を5倍向上させました。この成果は、超伝導材料の発見に新たなアイデアと方法を提供するだけでなく、材料科学分野におけるAI技術の応用におけるベンチマークを確立するものでもあります。

「電子-フォノンスペクトル関数の強化されたディープラーニングによる超伝導体の発見の加速」と題されたこの研究結果は、学術誌npj Computational Materialsに掲載された。

論文の宛先:

https://www.nature.com/articles/s41524-024-01475-4

データセットのダウンロードアドレス:

https://go.hyper.ai/GjZDo

オープンソース プロジェクト「awesome-ai4s」は、200 を超える AI4S 論文の解釈をまとめ、膨大なデータセットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

超伝導材料のジレンマ: トレーニング データセットと機械学習技術の選択。

超伝導体に対する人工知能モデルの有効性は、一般的に2つの重要な要素、すなわち学習データセットと機械学習手法の選択に依存します。これら2つの重要な要素に対処することによってのみ、超伝導材料の研究開発をより一層推進し、将来の技術革新のための確固たる基盤を築くことができます。しかしながら、どちらの方向性も多くの課題に直面しています。

まず、金属の超伝導特性を迅速かつ正確に推定できるモデルは、通常、材料情報科学データベースから数万点のデータポイントを必要とします。しかし、他のデータベースとは異なり、対応する大規模なα²F(ω)データセットの開発は極めて困難です。これは、コストが高いだけでなく、α²F(ω)を正確に計算するための密度汎関数理論パラメータ(k点密度、q点密度、平滑化値など)の標準化されたセットが存在しないことにも起因します。これらの障害を踏まえ、科学者は、現在の苦境を克服し、超伝導特性推定モデルの開発を前進させるために、小規模なデータセットを効果的に処理できる機械学習技術を必要としています。

第二に、超伝導研究の分野では、研究者はこうしたモデルの使用においてしばしば大きな課題に直面します。利用可能なデータセットは一般的に不均一で、数も限られているのです。長年にわたり、超伝導材料の研究は、超伝導特性に関するデータの不足という問題に対処するため、実験的なTc値を含むよく知られた「SuperCon」データベースに大きく依存してきました。しかし、このデータベースには、重複エントリ、疑わしい値、曖昧な化学式など、多くの問題があります。大規模で包括的なデータセットの不足は、新しい超伝導材料の開発を著しく制限するだけでなく、エネルギー伝送、輸送における磁気浮上、医療画像における強力な超伝導磁石といった分野における超伝導材料の変革の可能性を著しく阻害しています。

グラーツ工科大学の理論および計算物理学研究所が提案したスーパーヒドラデータベース(高圧水素化物のみを含む)、ドイツのハレ物理学研究所が立ち上げたヘスラー超伝導体に焦点を当てたデータベース、ポルトガルのコインブラ大学物理学部の研究者が7,000の電子フォノン計算に基づいてトレーニングしたモデル、米国の国立標準技術研究所が開発した626の動的に安定した材料とそれに関連するα²F(ω)を含むデータベースなど、物質構造とα²F(ω)に関するいくつかのデータベースが登場しているにもかかわらず、これらのデータベースはα²F(ω)の予測においてまだパフォーマンスが低い。

これらの課題へのより適切な対応のため、フロリダ大学とテネシー大学の研究者らは、包括的なエリアシュバーグスペクトル関数データセットを作成し、最新のディープラーニング技術を用いた堅牢なモデルを開発することで、本研究における2つの重要な要素を解決することに成功しました。この画期的な進歩は、超伝導材料の研究開発に新たな道を切り開きます。この成果は、超伝導材料研究のための新たな手法とツールを提供するだけでなく、将来の技術革新と応用のための確固たる基盤を築くものでもあります。

BETE-NET: データが限られている場合でも、計算探索の境界を大幅に拡大します。

電子-フォノン結合を計算する際には、コーン・シャム波動関数の計算に使用するk点グリッドが、フォノンの計算に使用するq点グリッドと一致するようにする必要があります。データセットの問題に対処するため、本研究ではまず、kおよびqグリッドを選択するための標準化されたアルゴリズムを提案し、異なる単位格子体積を持つ材料を扱うために固定グリッドを使用するのではなく、ユーザーが提供するkおよびq点密度に基づいてグリッドを生成します。このアプローチは、データの均一性と品質を向上させるだけでなく、データセットの幅広い適用性を確保し、最終的に818の動的に安定な材料の高品質な電子-フォノン計算の包括的なデータベースを生成します。その後、研究者らは818の動的に安定な材料をトレーニングセットとテストセットに分割し、各セットは材料全体の20%を占めました。

データセットのダウンロードアドレス:

https://go.hyper.ai/GjZDo

データセットの品質を評価した後、研究者らは、ディープラーニングにおけるデータベースサイズの制限という課題に対処するため、BETE-NETをさらに設計しました。図に示すように、BETE-NETモデルは結晶構造をグラフに変換し、原子番号、原子質量、原子間距離、およびサイト投影からのPhDOS情報を組み合わせます。一連の畳み込みとゲートブロック演算を経て、最終的にプーリングによってα²F(ω)の予測値を生成します。PhDOS情報を組み込むことで、モデルの予測性能が大幅に向上します。この設計は、結晶構造からの情報を最大限に活用するだけでなく、材料の振動特性も組み込んでおり、超伝導材料におけるα²F(ω)の予測においてモデルの精度と信頼性を高めています。最終的に、この研究では3つのバリアントをトレーニングしました。

  • CSO (結晶構造のみ) バリアント: モデルの基本ネットワークは、予測に結晶構造情報のみを使用します。
  • CPD (粗い PhDOS) バリアント: このモデルには、サイトに投影されたフォノン状態密度 (PhDOS) 情報が組み込まれており、モデルの予測パフォーマンスがさらに向上します。
  • FPD (Fine PhDOS) バリアント: PhDOS はより細かい q グリッドを使用して計算され、材料の振動特性を捉えるモデルの能力がさらに向上します。

BETE-NETアーキテクチャ

データが限られている場合、モデルは急速な過学習に陥りがちです。従来の機械学習では、過学習はモデルの汎化能力に悪影響を与えると考えられていますが、多くのディープラーニングモデルは、損失がほぼゼロになるまで訓練しても良好な汎化誤差を維持します。「二重降下」として知られるこの現象は、制御された過学習の一種と考えることができます。下の図に示すように、二重降下は古典的レジーム、臨界レジーム、現代レジームの3つの段階で構成され、各段階の損失ランドスケープが挿入図に示されています。これらの損失ランドスケープをプロットすることで、研究者たちはニューラルネットワークのバイアスと分散を視覚的に説明する妥当な方法を提案し、二重降下現象の定性的な説明を提供しています。

二重衰退現象の3つの段階

本研究では、高Tc材料のスクリーニングにおける有効性をさらに検証しました。まず、Tc^DFTが5K以上のすべての材料を高Tc​​材料と定義し、最終的に33の材料がこの基準を満たしました。次に、各モデルの適合率-再現率曲線をプロットしました。その結果、CPDモデルとFPDモデルの平均適合率(AP)は、ランダム分類器の約5倍であることが示されました。これは、これらのモデルが高Tc材料の識別において非常に優れた性能を示し、ランダム分類器を大幅に上回っていることを示し、実用におけるモデルの有効性と信頼性を検証しました。

高Tc材料のスクリーニング

結論として、BETE-NETモデルは、ドメイン固有の知識と高度なディープラーニング技術を完璧に統合した好例です。限られたデータから、金属の電気音響相互作用のエリアシュベルクスペクトル関数α²F(ω)を効率的に予測できます。これは、計算探索の限界を大幅に拡大するだけでなく、新しい超伝導体の発見を支援することで、社会に変革をもたらす可能性を秘めています。

等変ニューラルネットワーク:材料科学の世界におけるAlphaFoldの誕生を促進する

興味深いことに、この研究が発表された直後の1月17日、マイクロソフトCEOのサティア・ナデラ氏は、同社のMatterGenモデルがNature誌に掲載されたことを自ら発表しました。このモデルは、AIを用いて特定のニーズを満たす新材料を発見することで、既存の材料を凌駕することができます。これは、材料設計分野における新たなパラダイム、すなわち従来のデータベーススクリーニングから、要件のプロンプトに基づいて新材料を直接生成する手法への移行を示すものです。一部のネットユーザーからは、「材料科学のAlphaFoldが到来した!」という声が上がりました。

MatterGenモデルの鍵となるのは、その独自の拡散モデルアーキテクチャにあることは注目に値します。この拡散プロセスにおいて、MatterGenモデルは等変数分数ネットワークを用いており、これは本研究でもα²F(ω)の学習に選択されたモデルです。このネットワークは主に、拡散プロセス、すなわちノイズ除去プロセスから元の結晶構造を復元する役割を担っています。

等変ニューラルネットワークは、従来のニューラルネットワークに等変制約を組み込むことで構築されます。ネットワーク内のすべての演算は等変である必要があり、ネットワーク全体が等変マッピングとなります。実際、等変ニューラルネットワークは、材料科学分野におけるAI for Science研究の主流となっています。

昨年9月、東北大学とMITの研究者らは、新たな人工知能ツール「GNNOpt」を発表しました。等変ニューラルネットワークを統合することで、GNNOptは944種類の物質からなる小規模データセットを用いて高品質な予測を実現し、太陽エネルギー変換効率が32%を超える246種類の物質と、高い量子重みを持つ296種類の量子物質の特定に成功しました。これにより、エネルギー物質および量子物質の発見が大きく加速されます。

昨年8月、清華大学の徐勇と段文輝の研究グループは、ニューラルネットワーク密度汎関数理論(DNFT)フレームワークを提案した。 この研究では、材料構造情報が埋め込まれた等変ニューラルネットワークを入力として用い、ハミルトン行列を出力することで、ニューラルネットワークにおける損失関数の最小化と密度汎関数理論におけるエネルギー汎関数最適化を統合した。 従来の教師あり学習法と比較して、このフレームワークはより高い精度と効率を備えており、ディープラーニングDFT法の開発に新たな道を開く。 研究チームは以前、xDeepH(拡張DeepH)法も提案しており、これはディープアイソバリアントニューラルネットワークフレームワークを使用して磁性材料のDFTハミルトニアンを表現し、効率的な電子構造計算を可能にするものである。

今日、等変ニューラルネットワークは超伝導材料分野を全く新しい研究パラダイムへと導いています。超伝導材料の研究と応用はもはや実験室にとどまらず、日常生活に徐々に浸透し、その市場ポテンシャルはますます開花し続けています。世界の超伝導材料市場は今後も拡大を続け、2027年には192億ユーロに達する可能性があると予測されています。等変ニューラルネットワークなどのAI技術と超伝導材料の深い融合により、人類は技術的な「飛躍点」に近づき、無限の可能性に満ちた新時代を迎えています。