618ZXW

マルチドメイン地球科学アプリケーション: 浙江大学のチームは、地理学、海洋学、地質学、大気の分野における時空間モデリングと予測を支援する GeoAI シリーズの手法を提案しました。

地球科学は高度に学際的な分野であり、AIによって大きな変革を遂げつつあります。膨大な地球科学データから潜在的な情報をマイニングし、隠れたパターンを発見することで、AIは地球の自然現象への理解を深めるだけでなく、地球科学における様々な要素間の時空間的非線形関係のモデリングと予測を最適化し、新たな研究パラダイムの形成を促進します。

最近、HyperAIが共催したCOSCon'24 AI for Scienceフォーラムにおいて、浙江大学地球科学学院の特任研究員であるQi Jin氏が「GeoAIとその学際的な地球科学への応用」について自身の見解を共有しました。氏は、従来の地理モデリングの限界と、住宅価格分析、海洋リモートセンシング、大気汚染、鉱化予測といった分野におけるAIを活用した従来手法の影響について議論しました。

チー・ジンのスピーチ

HyperAIは、チー・ジン教授の詳細な講演内容を、原文の意味を変えることなく編集・要約しました。以下は講演の書き起こしです。

GeoAI の学際的なアプリケーションには、住宅価格分析、海洋リモートセンシング、大気汚染、鉱化予測などが含まれます。

観測技術の継続的な進歩に伴い、地球科学分野における時空間データは爆発的な増加を遂げています。これらのデータは、海洋環境モデリング、住宅価格分析、鉱物の空間分布探査、PM2.5大気汚染シミュレーションなど、科学研究に幅広く応用できます。

これまで、対象物体の空間的異質性の変化を分析・予測するために、地理的位置が変数間の関係性に与える影響を分析するために、従来の地理重み付け回帰(GWR)モデルが用いられてきました。しかし、異なるデータセット間の複雑な相互作用により、より洗練されたモデル構造を構築し、より多くのスケールで対象物体をモデル化することが大きな課題となっています。

人工知能とビッグデータの発展に適応し、現実世界の複雑なモデリング問題に対処するために、私たちは地理加重回帰の従来の概念とニューラル ネットワーク技術を組み合わせて、地理ニューラル ネットワーク加重回帰 (GNNWR) や地理時空間ニューラル ネットワーク加重回帰 (GTNNWR) などの新しいクラスのモデルを提案しています。

GNNWR、GTNNWR、そしてその他の関連手法は、最初の論文発表以来、大きな注目を集め、海洋学、地理学、大気科学、地質学など様々な分野で広く応用され、これまでに30本以上の関連論文が発表されています。これらの成果は、当チーム内で発表された方法論的・応用研究に限定されるものではなく、多くの外部チームも同様のモデリング手法や技術アーキテクチャを研究に活用しています。現在、GNNWRはGitHub上でオープンソースとして公開されており、`pip install gnnwr`(Python 3.9以上)による直接呼び出しをサポートしています。

GNNWR オープンソースアドレス:
https://github.com/zjuwss/gnnwr

住宅価格分析を例に挙げると、住宅価格は地理的な立地条件に大きく左右されることはよく知られています。観光地や学区の立地条件は住宅価格に直接影響を与えます。統計分析を通して、地理条件は住宅価格に影響を与える要因を明らかにします。従来の回帰モデルと比較して、GNNWRモデルはフィッティング精度が高いだけでなく、解釈可能性も高く、住宅価格に影響を与える要因の作用メカニズムや空間的な差異を明らかにすることができます。本研究の具体的な詳細については、後ほど詳しく説明します。

原著論文:
https://www.mdpi.com/2220-9964/11/8/450
https://www.tandfonline.com/doi/full/10.1080/13658816.2024.2343771

海洋生態環境モデリングの観点から見ると、宇宙からのリモートセンシング衛星によって取得された海洋画像には豊富なスペクトル情報が含まれています。これらのスペクトル情報の異なる空間分布に基づいて、クロロフィルや浮遊物質などの海洋生態学的要素の含有量を分析することができます。

近年、海洋の重要な栄養塩であるケイ酸塩の時空間分布もGTNNWRモデルを用いて推定されています。ケイ酸塩の減少は沿岸赤潮の発生につながる可能性があります。GTNNWRモデルは、沿岸域における溶存ケイ酸塩の詳細な時空間動態を把握することができ、沿岸赤潮発生の早期警報シグナルをリモートセンシングによって提供することができます。本研究の具体的な詳細については後ほど詳しく説明します。

例えば、PM2.5汚染に関しては、中国北部のいくつかの重工業都市が主な汚染源である可能性が高い。GNNWRモデルは、空間的に非定常な回帰関係を確立することでPM2.5濃度を推定し、全国規模で高精度かつ詳細なPM2.5分布データを提供することができる。例えば、地理空間モデリングにより、北京から連雲港にかけてPM2.5濃度が概ね高いことがわかったが、これは風向や風速などの要因の影響を受けている可能性がある。さらに、特定の地域に保護林が存在することで、PM2.5の拡散が抑制されている可能性もある。

原著論文:
https://www.mdpi.com/2072-4292/13/10/1979

地質学分野、特に金鉱床の空間分布予測において、地質学的要因が金鉱床の形成確率に及ぼす影響を明らかにする一連の研究を行ってきました。構築したモデルでは、解釈可能性を高めるためにシャプレー法を導入し、複雑な空間環境における鉱化作用の正確な予測と解釈を実現しました。

詳細: 浙江大学の Du Zhenhong チームは、5 つの先進モデルを凌駕し、鉱化予測の精度を向上させる GNNWLR モデルを提案しました。

この研究では、ハンバーガーの価格を例に挙げて、従来の地理モデリングの限界を探ります。

従来の統計学では、PM2.5濃度に影響を与える要因を探るには、通常、重回帰分析(xを独立変数、yを従属変数とし、yとxの関係を調査する)が用いられます。しかし、地理学的研究では、空間的な位置によって変数間の関係性が異なるため、従来の統計手法では複雑な自然現象をモデル化することが困難です。

ハンバーガーの価格を例に挙げると、y はハンバーガーの価格を表します。北京ではハンバーガーの価格は 25 元、杭州では 15 元です。単純な線形モデルを用いると、江蘇省は地理的に北京と杭州の間に位置しているため、江蘇省のハンバーガーの価格は 20 元と予測されるかもしれません。しかし、地理的要因はそれほど単純な線形関係ではありません。ハンバーガーの価格は、物流費、輸送条件、原材料費など、複数の要因の影響を受けます。これらの要因は空間分布が異なるため、モデル化においては、地理的な場所によって各要因の重みを考慮する必要があります。

地理的関係のモデル化という問題をさらに解決するため、地理学者は従来の重回帰分析を地理重み付き回帰(GWR)へと拡張しました。GWRでは、各独立変数の前置回帰係数βに地理的位置に応じて変化する特性が与えられます。つまり、各回帰係数の重みは空間的位置に応じて変化します。この変化は一般に「空間非定常性」と呼ばれ、独立変数と従属変数の関係が安定した線形関係ではなく、むしろ変動することを意味します。

地理的に加重された回帰係数はどのように計算するのでしょうか。その核心は 2 つの点にあります。1 つ目は、正確な空間距離を計算すること、2 つ目は、多数のカーネル関数の中から最も正確なフィッティング関数を選択することです。

空間距離の計算には、ユークリッド距離のほか、マンハッタン距離などの方法があります。杭州から南京までが200キロメートル、北京から南京までも200キロメートルと仮定すると、ユークリッド距離に基づくピタゴラスの定理を用いて、両地点間の直線距離を計算できます。しかし、実際の応用では、大連から煙台までの距離は船で100キロメートル程度であるのに対し、高速鉄道を利用すると迂回距離が長くなり、300キロメートルを超える可能性があります。そのため、地理空間モデリングにおいては、距離計算方法の選択が非常に重要です。

次に、「カーネル関数」という概念を導入し、下図に示すようにカーネル関数のヒルグラフを描画しました。分析点(赤い点)から遠ざかるほど、重みは低くなります。ただし、この関係は単純に減少するものではなく、空間的な距離に応じて変動します。地理学者がモデル化を行う際には、重みカーネル関数として、ガウス関数や指数関数など、様々な選択肢があります。

要約すると、空間距離メトリックの不確実性と、どのカーネル関数がデータに最も適合するかの選択が、地理モデリングの精度に影響を与える主な問題です。

従来の地理モデリングとAIの統合

複雑な非線形性は現実世界のさまざまな要因に固有の特性であり、機械学習とニューラル ネットワークはこのような問題を解決するために開発されました。

地理モデリングの分野では、2点間の空間距離は非線形であることが多く、カーネル関数によって記述される重みも非線形に変化します。そこで、従来の地理加重回帰(GWR)の概念とニューラルネットワーク技術を組み合わせ、地理ニューラルネットワーク加重回帰(GNNWR)と地理時空間ニューラルネットワーク加重回帰(GTNNWR)を含む新しい手法モデルを提案します。

関連論文:

https://www.tandfonline.com/doi/full/10.1080/13658816.2019.1707834

https://www.tandfonline.com/doi/full/10.1080/13658816.2020.1775836

https://www.tandfonline.com/doi/full/10.1080/13658816.2022.2100892

この手法には主に2つの特徴がある。まず、空間距離を計算するための専用のニューラルネットワークを構築する。実際の距離が100キロメートルであろうと300キロメートルであろうと、ニューラルネットワークは大規模なデータセットを用いて2点間のモデリングに最適な距離を決定できる。次に、入力された空間距離に基づいて出力の重み値を計算する時空間重み付きネットワーク、すなわち空間重み付きニューラルネットワークを設計する。このプロセスでは、どのカーネル関数を使用するかを事前に決定する必要はなく、ニューラルネットワークがデータの特徴を学習し、それに応じて地理的な重みを自動的に構築する。これら2種類のニューラルネットワークをネストして適用することで、最終的に対応する変数yの正確な予測が実現される。

GNNWRは従来の手法とは異なり、独立変数の前にある係数βを正確に計算できます。より直感的に理解しやすくするために、回帰係数βを下図のように視覚化しています。β0の重み分布はオレンジ色の菱形、β1は上部と下部の重みが高く、中央の重みが低い独特の分布パターンを示し、β2は中央の円形分布を示します。

下の図に示すように、 GWR をニューラル ネットワークと組み合わせると、トレーニング セットとテスト セットの両方で精度が大幅に向上します。

住宅価格と海洋生態環境モデリングにおけるGNNWRの応用

住宅価格は職場環境だけでなく、交通、学区、環境といった要因も考慮する必要があります。住宅価格モデリングでは、武漢を例に、約1,000件の中古住宅取引記録からデータを収集し、トレーニングセットとテストセットに85:15の比率で分割しました。中古住宅を選んだのは、政策規制の影響を受けにくく、実体経済の流れをより正確に反映しているからです。

本研究では、標準的なニューラルネットワークモデリングプロセスに従い、データセットをテストセットとトレーニングセットに分割し、住宅価格に影響を与える可能性のある一連の変数を収集しました。このケーススタディのユニークな点は、「空間距離」という新しい概念を導入したことです。従来のユークリッド距離に加えて、実際の交通状況に基づいた「通勤距離」を提案しました。距離融合関数を構築することで、通勤距離とユークリッド距離の両方をニューラルネットワークに入力し、融合された非線形距離を決定しました。

モデル全体のアーキテクチャはほぼ変更されておらず、各要素の重みwを入力として受け取り、最終的な住宅価格yを出力します。比較実験の結果、ユークリッド距離と通勤距離を同時に考慮した場合、従来のモデリングと比較してモデル性能が12%向上し、各距離をニューラルネットワークに個別に入力した場合の性能向上を上回ることが示されました。

この研究では、武漢の住宅価格と大学都市、研究機関、テクノロジー企業、観光地の分布との相関関係も明らかになった。さらに、提案されたモデルは、特に市街地から離れた地域の住宅価格に対して高い予測力を示した。具体的には、市街地からの距離が長くなるにつれて、モデルの予測精度が向上した。これは、都市周辺地域では、特定の距離測定方法を用いることで、住宅価格の変動パターンをより正確に捉えることができることを示唆している。

海洋生態環境モデリングにおいて、長江の三峡ダムを例に挙げると、ダムは堆積物を遮断して水を透明にする一方で、重要な栄養塩であるケイ酸塩が海に流入するのを妨げています。ケイ酸塩の減少は、沿岸の有毒で有害な赤潮の割合の増加につながります。従来の研究では、等高線図を使用して栄養塩の流れの傾向を大まかに推定していました。しかし、新しい時代の文脈では、高時空間解像度のリモートセンシング衛星画像をどのように活用して栄養塩の分布を探るかが新たな課題となっています。この問題を解決するために、私たちはGeoAIに基づく非線形モデリングアプローチを提案し、ビッグデータの利点を活用して海洋栄養塩の分析を実現することを期待しています。

本研究では、当チームが独自に開発したGNNWR法を採用しました。この手法の特徴は下図に示されています。さらに、データセットのマッチング、リモートセンシングによる時空間推定、欠損データの補完といった操作をこの手法内で行いました。

研究プロセスにおいては、浙江省海洋監視管理局と協力し、同局が公開している監視データを活用し、広く知られているGoogle Earth Engine Map APIを用いて必要なリモートセンシング画像をダウンロードしました。その後、画像の時間、空間位置、解像度を定義し、標準的な手順に従い、トレーニングセット、テストセット、検証セットに分割しました。10分割交差検証を実施し、モデル化に最適な、最も安定した結果を選定しました。

モデリングを用いて、過去9年間の浙江省の海洋環境における日々のケイ酸塩濃度の時空間分布をマッピングしました。観測結果から、毎年8月は海洋生物と植物の活動が活発になるため、ケイ酸塩濃度が低くなることが明らかになりました。しかし、9月と10月には揚子江が浙江省沿岸海域に流れ込み、この地域の栄養塩濃度が大幅に上昇します。

下図に示すように、青い曲線はケイ酸塩含有量、オレンジ色の曲線は長江の流向と流速を表しています。ケイ酸塩含有量と浙江省方向の長江流の分布との間には有意な相関関係があり、ピアソン係数は0.462となっています。これは、毎年秋から冬にかけて、長江が浙江省海域により大きな影響を与えていることを示しています。

さらに、高時空間解像度データを用いて海洋生物活動の変化を分析しました。浙江省沿岸海域で発生した赤潮発生時、関連する曲線は2週間以内に2回減少傾向を示しました。これは、AI手法がモデルの精度を向上させるだけでなく、微細な時空間変化も明らかにし、珪藻類ブルームのリアルタイム監視と早期警報に重要なシグナルを提供できる可能性を示しています。

沿岸台風の影響については、台風が海に到達した日に栄養塩濃度がピークに達し、3日後には元のレベルに戻ったことを観察しました。これは、台風によって海底下の海水が擾乱され、深海底の栄養塩が表層に運ばれたことが原因と考えられます。しかし、台風通過後、栄養塩濃度は急速に正常レベルに戻り、従来の海洋研究からデータに基づいた観点から推定されたメカニズムを裏付けました。

要約すると、本研究は沿岸赤潮警報の予測シグナルを提供するとともに、台風が海洋の時空間変動に与える影響を検証するものである。研究チームは既に海洋分野において、海水質の時空間分布変化を探る一連の論文を発表しており、将来的には新たな研究方向につながる可能性がある。

浙江大学地球科学学院について

ゲストスピーカーの斉金教授は、浙江大学地球科学学院の教授です。彼の研究は、人工知能海洋学と地球科学ビッグデータ分析プラットフォームの開発に重点を置いています。彼は、第14次五カ年計画期間中の国家重点研究開発計画のサブプロジェクトや、中国国家自然科学基金のプロジェクトなど、いくつかの重要な研究プロジェクトを主導してきました。また、浙江省沿岸海洋生態環境マルチソース情報インテリジェントサービスプラットフォームの技術リーダーを務め、海洋工学科学技術賞の最優秀賞を受賞しています。

Qi Jinの個人ホームページ:

https://person.zju.edu.cn/qijin

杜振紅教授と呉森教授が率いるチームは、近年、地質科学と情報科学の学際分野において数々の成果を上げています。彼らのGNNWRシリーズモデルは、業界の専門家に広く利用されており、ダウンロード、呼び出し、引用は1万件を超えています。今後、チームはGIS理論と手法、地質科学インテリジェント分析プラットフォーム技術の完全な発展に尽力し、GeoAIの発展を継続的に探求していきます。

GNNWR 研究グループリーダー、研究員 Wu Sensen の個人ホームページと時空間インテリジェント回帰モデルの紹介:

https://mypage.zju.edu.cn/wusensen/#977161

私たちのチームでは、ポスドク研究員とリサーチアシスタントを募集しています。GIS、リモートセンシング、地理学、海洋学、地質学、コンピュータサイエンス、テクノロジーなどのバックグラウンドを持つ研究者を歓迎します。また、海外の優秀な若手研究者やその他のハイレベルな人材の参加も歓迎します。