618ZXW

イベントの概要 | 上海交通大学、浙江大学、清華大学、OpenBayes からの複数の専門家が、ヘルスケア、地理情報システム、複雑な都市システム、新たな研究パラダイムなどの分野をカバーします。

今年のノーベル賞におけるAIへの「偏愛」は、「AI for Science(科学のためのAI)」を再び世間の注目を集め、科学研究の新たなパラダイムが必然的な潮流であることを示唆する画期的な出来事と言えるでしょう。科学の発展を振り返ると、実験科学から理論科学、そして計算科学、そしてデータ集約型科学へと、それぞれのパラダイムシフトが人類文明の進歩を大きく促進してきました。そして、その過程全体を通して、データの中核的な役割は変わることなく存在してきました。

AI for Scienceの時代を迎え、データの価値はさらに探求されつつあります。基礎科学研究はどのような革新を遂げるのでしょうか?垂直分野の研究者はAIをどのように活用できるのでしょうか?

AIと科学の融合という潮流の高まりを受け、HyperAIは、最先端研究の解説、模範的な企業レポート、学術イベントの開催など、様々な手段を通じて中国におけるAI4Sの発展を促進し、国内研究者間の交流プラットフォームを提供しています。11月2日、 HyperAIは共同制作コミュニティとして、COSCon'24で開催された第9回中国オープンソースカンファレンスおよびオープンソースソサエティ10周年記念カーニバルにおいて、「AIと科学の融合」をテーマとしたオープンソースAIフォーラムを主催しました。

OpenBayesの創設者兼CEOであるWang Chenhan氏、浙江大学地球科学学院の特別研究員Qi Jin氏、上海交通大学の終身在職権准教授であり上海人工知能研究所の若手科学者Xie Weidi氏、そして清華大学電子工学部都市科学およびコンピューティング研究センターの博士研究員Ding Jingtao氏を招待できたことを光栄に思います。

このフォーラムでは、AI4Health(医療用人工知能)、GeoAI(地理情報人工知能)、科学研究のためのインテリジェントコンピューティングクラウドプラットフォーム、AI駆動型複雑都市システムなど、様々なトピックについて4名の講演者が知見を共有しました。講演者は、知識の普及、ケーススタディ、トレンド分析といったトピックについて、詳細な情報を提供しました。

その後、講演者のプレゼンテーションの要点を、書き起こしと動画の両方でさらに詳しくお伝えします。どうぞお楽しみに!

AI主導の科学研究の新たなパラダイム:人工知能による統計手法の包括的アップグレード

OpenBayesは中国を代表するAIサービスプロバイダーであり、トップクラスの大学や研究機関への支援を通して、科学のためのAI開発に関する深い洞察を有しています。最先端研究を推進する機械学習の価値について、同社の創設者兼CEOである王晨漢氏は、「大規模データ × モデル構造 = AI研究成果 - 従来型研究」という革新的な公式を提唱しました。

言い換えれば、研究プロセスにおいて大規模データを効果的なモデル構造に適用することで、あらゆる産業研究プロジェクトにおいて従来の手法を大幅に凌駕することが可能になります。これが、AI主導の研究が過去2年間で2~5倍の増加を達成した重要な理由です。

OpenBayesベイズ計算の創設者兼CEO、王陳漢氏

同時に、王晨漢氏​​は、モデル構造を変えずにデータ量を無差別に増やすと限界効果が生じ、性能向上が困難になる可能性があると強調した。同様に、データ規模が固定されている場合、モデルパラメータは必ずしも大きくなればなるほど優れているわけではない。データ規模とパラメータ規模が等しく増加した場合にのみ、予測誤差率は比較的低いレベルにまで低下する。

さらに、彼は従来の研究手法とAI研究手法の違いを強調しました。従来の手法は研究者自身の特性や問題定義能力に大きく依存し、「少量データ」のみを用いており、一般化や拡張性に疑問が残ります。一方、AI研究手法では、大規模かつ高品質なデータの導入と機械学習を用いた特徴抽出が不可欠であり、その結果、現実世界の問題に対して有効な研究成果が得られます。

最後に、Wang Chenhan 氏は、OpenBayes が AI for Science をどのように実現するかについても紹介しました。OpenBayes では、オープンソースのデータセット、AI/HPC チュートリアル、オープンソース/プライベート モデルなどの科学研究データ要素をクラスター ソフトウェアにカプセル化することで、研究者がモデル構築、モデル推論、産業用ソフトウェア コンピューティングのワンストップ統合を実現できるようにしています。

GeoAIとその学際的な地球科学アプリケーション

地理情報科学分野では、三次元観測技術の発展によりデータ爆発が促進され、時空間ビッグデータの概念が生まれました。しかし、様々なスケールの時空間プロセスによって生成される膨大なデータは、情報マイニングにおいても大きな課題となっています。

浙江大学地球科学学院特任研究員の祁金博士は、地理関係回帰分析は地理モデリングにおける研究のホットスポットであると説明した。新たな空間回帰分析手法の開発と地理関係の分析・マイニング能力の向上は、社会プロセスや地理現象の理解において重要な理論的価値と実践的意義を有する。

浙江大学地球科学学院特任研究員 チー・ジン博士

この問題に対処するため、Qi Jin博士と彼のチームは、空間重み付けの概念をニューラルネットワークモデルに統合し、地理ニューラルネットワーク重み付け回帰モデル(GNNWR)を提案しました。これにより、空間回帰法の能力が拡張され、地球科学的要素間の非線形関係をフィッティングおよび解釈することが可能になりました。同時に、チームはPyTorchベースのオープンソースモデルライブラリ(時空間インテリジェント回帰モデル)も開発しました。この方法論は、地理学、地質学、海洋学、大気科学の分野で30以上の研究に利用されています。

応用面では、都市部の住宅価格予測、大気汚染分析、沿岸生態環境モデリングなどのシナリオにおける GNNWR モデルの性能を紹介しました。

  • 海岸沿いのまばらなサンプリングポイントと未知のポイントとの間に時空間関係を確立し、時空間非定常重みを計算して沿岸水域の溶存ケイ酸塩 (DSi) の高時空間解像度分布を取得します。
  • GNNWR は都市環境における空間の非定常性を正確に記述できるため、住宅価格などの都市の地理プロセスの回帰モデル化が可能になります。
  • 処理済みの AOD、DEM、気候因子データと変電所から収集された PM2.5 データを使用して、空間的に非定常な回帰関係を確立し、PM2.5 濃度を推定しました。
  • シャプレーの解釈可能性理論を GNNWR に統合することで、複雑な宇宙環境における地質鉱物化の正確な予測と解釈が可能になります。

チームの当初の目標: 汎用医療人工知能システムを構築する。

上海交通大学の終身在職権を持つ准教授であり、上海人工知能研究所の若手科学者でもある謝衛迪氏は、コンピュータービジョンの研究に深く関わってきました。2022年に中国に帰国後、医療用人工知能の研究に専念しています。今回のフォーラムでは、オープンソースデータセットの構築やモデル開発など、多角的な視点からチームの成果を共有しました。

謝衛迪教授は、医学、特にエビデンスに基づく医療の分野における知識の大部分は、人間の経験から得られると説明しました。初心者があらゆる医学書を読み尽くすことができれば、少なくとも理論的な医学の専門家になることができます。そのため、モデルトレーニングのプロセスにおいても、あらゆる医学的知識を取り入れていきたいと考えています。

上海交通大学の謝偉迪教授

しかし、医療分野ではプライバシーへの懸念から、高品質なデータは比較的不足しています。そのため、中国に帰国後、謝衛迪教授と彼のチームは大規模な医療データセットの構築に着手しました。具体的には、

  • PMC-OA データセットは、PubMed Central から 160 万件の大規模な画像とキャプションのペアを収集することによって構築されました。
  • PMC-OA から 227,000 件の医療視覚的質問と回答のペアが生成され、PMC-VQA が形成されました。
  • Rad3D データセットは、Radiopaedia 種から 53,000 件のケースと 48,000 件の複数の画像とタイトルのペアを収集して構築されました。
  • PubMed Central(PMC)は、米国国立生物工学情報センター(National Center for Biotechnology Information)によって作成・管理されている無料の全文データベースです。生物医学および生命科学分野のオープンアクセス学術論文の出版に特化しています。
  • Radiopaediaは、放射線医学と医用画像に関する高品質かつ無料の知識を提供します。放射線科医、学生、その他の医療専門家が症例研究、記事、画像例などを投稿できる、共同作業とオープンな編集プラットフォームです。

モデル構築に関しては、主にチームが開発したPMC-LLaMAなどの医療特化型言語モデルや視覚言語モデル、多言語医療モデルMMedLLaMA、SATなどの汎用セグメンテーションモデルを紹介しました

複雑な都市システムのための時空間生成モデリング手法

清華大学電子工学部都市科学・コンピューティング研究センターの丁静涛博士は、AI駆動型生成モデリングと時空間複雑システムの応用に焦点を当てています。本プレゼンテーションでは、丁博士は都市複雑システムのモデリングにおける時空間生成AIについて説明しました。

丁静涛博士は、複雑な都市システムをモデル化する際の主な課題として、高次元でマルチモーダルな時空間データの優位性、システムの巨大な規模とさまざまな要素間の避けられない相互作用、システム間でのデータ分布が大きく異なることなどがあり、汎用的なモデル化を不可能にしていると説明しました。

丁 静濤博士、清華大学

これを受けて、彼と彼のチームは、複雑な都市システムをモデル化するための時空間生成AIの探究を始めました。彼らは、歩行者の動きをシミュレーションするための物理的知識に基づいた拡散モデル、システムの回復力を予測するためのネットワークダイナミクスによって強化された拡散モデル、そして一般的な時空間予測のための手がかり学習によって強化された時空間GPTを提案しました。

具体的には:

  • 実際の歩行者移動データセットに基づく歩行者移動シミュレーション モデル SPDiff は、6.5% ~ 37.2% のパフォーマンス向上と、小さなサンプル サイズでの一般化能力の向上を実現します。
  • システム回復力予測モデルは、拡散モデルに基づいて回復力のあるシステム/回復力のないシステムの観測サンプルを生成し、20 (2%) のラベル付きサンプルのみを使用して、87% (F1 スコア) の予測精度を維持します。
  • 汎用時空間予測モデルであるUniSTは、1億3000万以上の時空間サンプルポイントを含む20以上の時空間データセットを収集します。外部の時空間メモリネットワークを介して有効な時空間パターンを記憶し、転送汎化を実現するためのプロンプトベクトルを生成します。

結論は

HyperAIは、科学のためのAI開発に注力するオープンソースコミュニティの先駆者の一つとして、国内外の最先端のイノベーションに注目し続け、洞察に満ちた解釈とレポートを提供していきます。同時に、オンラインライブストリーミングやオフラインの学術フォーラムなど、様々な形式を通じて研究者がコミュニケーションを取り、アイデアを交換するためのプラットフォームも構築しています。関連研究に携わる研究グループの皆様は、論文の提出や最新の研究成果の共有を歓迎いたします。