618ZXW

清華大学の研究チームは、20 を超える時空間データセットと 1 億 3000 万以上のサンプル ポイントを収集し、生成 AI に基づいて複雑な都市システムをモデル化する 3 つの方法を提案しました。

都市複雑系研究の先駆者の一人として知られるマイケル・バティは、著書の中で「都市は本質的に複雑適応システムであり、その構造と機能は絶えず進化し、高度な非線形性と自己組織化特性を示す」と述べています。現代都市の継続的な発展に伴い、都市システムの複雑性は日々増大しています。

この複雑さにより、従来のモデリング手法は不十分となっていますが、生成AI技術の発展に伴い、新たな技術的アプローチである生成モデリングは、都市システムの研究と理解のための重要なツールとして徐々に重要になりつつあります。複雑な都市システムの生成モデルは、都市構造の進化をシミュレートするだけでなく、革新的な都市計画スキームを生み出し、スマートシティや持続可能な開発のための新たなアイデアを提供します。

国内の状況に着目すると、近年、複雑都市システムの生成モデルの研究が大きく進展し、様々な大学や研究機関から数多くの研究成果が出ています。

最近、HyperAIが共催したCOSCon'24 AI for Scienceフォーラムにおいて、清華大学電子工学部都市科学・コンピューティング研究センターの博士研究員であるDing Jingtao氏が「複雑な都市システムのAI駆動型モデリングとパターン発見」と題するプレゼンテーションを行い、複雑な都市システムの時空間生成モデリング手法とチームの最新の研究進捗について詳細に説明しました。

HyperAIは、丁静涛博士の詳細な講演を、元の意味を変えることなく編集・要約しました。以下は講演の書き起こしです。

複雑な都市システムの生成モデリングに焦点を当て、データ分布のパターンを発見します。

私たちのチームのスマートシティと都市コンピューティングに関する研究は、複雑な都市システムのモデリングに重点を置いています。都市は複雑系として、生態系と同様に機能し、人間はそこに居住し、都市システムと多次元的に相互作用し、複雑な相互作用を形成します。例えば、都市建設の過程では、交通網、通信網、電力網といった様々なネットワークシステムが形成されます。これらの物理的なネットワーク要素は、人間の生活における社会的要素と絡み合い、都市システムの複雑さをさらに増大させます。

これに応じて、私たちのチームの研究は主に次の 3 種類の質問に焦点を当てています。

(1)都市の発展は本質的に時空間的な動的変化過程であり、典型的な時空間予測問題であるため、将来の都市発展の方向と過程に焦点を当てた都市状態の進化を予測する問題。
(2) 都市要素のシミュレーションと推論は、デジタルツインやメタバースの概念に似ています。これは、実際のデータを用いてデジタル環境を構築し、それに基づいて推論を行い、仮説シナリオにおける「もし~だったら」という問題を解決することを意味します。
(3)都市ガバナンス決定の最適化:前述の都市進化予測とシミュレーションに基づいて、交通渋滞や自然災害などの特定の都市問題を解決するための都市ガバナンス決定を最適化します。

私たちのチームの現在の研究は、複雑な都市システムの生成モデリングに焦点を当てています。生成モデルの核心は、データの背後にある確率分布を学習することにあります。つまり、観測データに基づいて確率分布をモデル化し、データ生成プロセスを捉えることです。モデルがこの機能を備えていれば、前述の3つの問題を効果的に解決できます。

モデリングの課題を解決するための生成AI手法の導入

生成AIは、主に2つの側面から急速に発展しています。第一に、大規模言語モデルに代表される言語生成技術の発展、第二に、拡散モデルに代表される視覚コンテンツ生成技術の進歩です。生成AIの手法が複雑な都市システムのモデリングに適用できるかどうかは、私たちの研究の重要な焦点です。

複雑都市システムにおけるモデリングの課題は、主に以下の点にあります。第一に、複雑都市システムは顕著な時空間特性を示し、多様なデータモダリティを有します。これには、自然言語のシーケンスデータに類似した都市における歩行者移動の軌跡データなど、複数の時空間データ形式が含まれます。さらに、群衆の暴走防止に用いられる時空間グリッドデータや、道路や速度測定コイルによって形成されるグラフ構造などの都市トポロジカル構造も含まれます。これらの異なる時空間データモダリティの混在は、モデリングにおいて課題をもたらします。

第二に、複雑都市システムの観点から見ると、都市は複数のサブシステムから構成される巨大なシステムです。これらのサブシステムは複雑な相互作用を持ち、異なるサブシステム(電力システムや通信ネットワークシステムなど)間にはある程度の結合が存在します。これらのサブシステムの相互依存性と複雑な相互作用は、モデリングに対するより高い要求を課します。

最後に、都市システムは動的なプロセスであり、様々なサブシステムが多種多様なデータを収集します。これらのデータは形態、モード、分布がそれぞれ異なるため、普遍的にモデル化することが困難です。これは、現在の研究段階では克服が難しい問題です。

上記の課題を踏まえ、本日は、以下の3つの側面における我々の研究の進捗状況について紹介します。まず、人間の移動のシミュレーションでは、都市における人間の移動をより正確に予測するための物理学に基づいた拡散モデルを提案しています。次に、複雑系の回復力予測、そして最後に、一般的な時空間予測モデルを提案しています。

人間の運動シミュレーション - 物理学の知識に基づいた拡散モデル

歩行者流動シミュレーションは、空間における多数の歩行者の動的な動きと相互作用を再現することを目的としています。その中心的な課題は、歩行者または個人の出発点と終点が与えられた場合に、移動中の軌道を生成することです。このシミュレーションは、ゲームにおける仮想キャラクター(NPC)の経路計画や、現実世界における建築設計の実現可能性分析など、多くの用途で有用です。特定のシナリオにおける建築設計の性能を検証するには、大規模な歩行者流動シミュレーションが必要となることがよくあります。

しかし、群集流シミュレーションにおける主な課題は、シミュレーション対象が明確な物理法則を持つ分子システムではなく、自律的な意思決定能力を持つ個体、つまり人間であるという事実にあります。人間の意思決定メカニズムは複雑で常に変化しています。一方で、個人の好みは周囲の環境の影響を受け、意思決定を継続的に調整します。他方、人間の行動には固有の不確実性があります。例えば、障害物に直面した場合、個人によって対処戦略は異なり(左に行く人もいれば、右に行く人もいます)、この不確実性を決定論的な式で記述することは困難です。

実用分野において、歩行者の流れをシミュレーションするモデルとして最も広く用いられているのは「ソーシャルフォースモデル」です。これはニュートン力学に由来し、ABM(エージェントベースモデリング)に基づく古典的な手法の一つです。ソーシャルフォースモデルは、下図に示すように、人間の移動を力駆動型プロセスとして捉えます。移動する個人は、目的地に引き寄せられるだけでなく、障害物や周囲の歩行者によって反発されます。しかし、さらに詳しく観察すると、ソーシャルフォースモデルは現実世界のデータにおける微妙な特徴を捉えるのに限界があることがわかります。

そこで、生成AI技術を組み合わせ、物理的な知識を拡散モデルに注入する方法を模索しました。拡散モデルを選択した理由は、人間の意思決定メカニズムは本質的に不確実であり、確率的な生成プロセスであるのに対し、拡散モデルは高次元のデータ分布のモデリングに優れており、そのような不確実な問題のシミュレーションに適しているためです。

私たちは、社会的力モデルに基づいてグラフニューラルネットワークを設計し、社会的力からの魅力と反発の項をモデルに組み込み、歩行者の流れをシミュレートするための SPDiff モデルを提案しました。

詳細レポートを見るにはクリックしてください: 清華大学の研究チームが条件付きノイズ除去拡散モデル SPDiff をリリースし、わずか 5% のトレーニング サンプルで最適なパフォーマンスを実現し、長距離歩行者の流れのシミュレーションを可能にしました。

下の図に示すように、群衆の動きデータに潜む対称性(回転と並進の同値性)を考慮し、モデル設計プロセスに組み込みました。この誘導バイアスの導入は、シミュレーションプロセス全体の最適化に役立ちます。

モデルの性能を評価するために、実際の歩行者の動きに関するデータセットを選択しました。データソースには、駅前広場や道路における歩行者の動きの監視データが含まれていました。

モデル評価は主に以下の指標カテゴリーに焦点を当てています。第一に、個々の移動誤差、つまりシミュレートされた軌道と実際の観測軌道の絶対誤差です。第二に、集団分布指標、つまりシミュレートされた軌道が分布の点で実際のデータに近似していることを確認することを目的としています。さらに、可視化分析を実施した結果、本モデルは従来の社会力モデルと比較して、障害物回避においてより合理的なパフォーマンスを示すことが示されました。物理学的知識を取り入れることで、モデルパラメータの数が大幅に削減され、モデルの効率が最適化されたことは特筆に値します。

物理的な知識の組み込みをさらに検討した結果、限られたサンプル数での学習において、等分散性がモデルに有利に働くことを発見しました。前述のように、回転と並進後の軌跡は本質的に対称的です。そのため、モデルは効果的な学習を完了するために、わずかなデータサンプルしか必要としません。実験では、トレーニングデータの量を5%に削減しても、モデルのパフォーマンスは完全なデータセットのパフォーマンスに近いことが示されています。

関連研究「群衆シミュレーションのための社会物理学に基づく拡散モデル」および「現実的な群衆シミュレーションのための衝突回避行動の理解とモデル化」は、それぞれ AAAI 2024 および CIKM 2023 で発表され、コードとデータはオープンソース化されました。

論文リンク: https://arxiv.org/abs/2402.06680

オープンソースプロジェクトのアドレス: https://github.com/tsinghua-fib-lab/SPDiff

論文リンク: https://dl.acm.org/doi/10.1145/3583780.3615098

オープンソースプロジェクトのアドレス: https://github.com/tsinghua-fib-lab/TECRL

システムレジリエンス予測 – ネットワークダイナミクスによって強化された拡散モデル

レジリエンスとは、システムが内部障害や外部からの擾乱にさらされた場合でも、その基本的な機能を維持する能力を指します。例えば、生態系においてレジリエンスとは、環境変化の影響下で生物多様性を維持する能力を指します。人間の社会システムにおいては、サプライチェーンネットワークなど、多くの人工システムがこのレジリエンスを備え、特殊な状況下でも生産者と消費者の間の正常な生産・販売関係を確保し、経済の正常な運営を維持することが期待されます。

理論的には、ネットワークのレジリエンスにはいくつかの典型的な定義があります。レジリエンスは、xで示されるノードの状態と見なすことができます。これは、ノードに擾乱が加えられた後、システムが唯一かつ期待される安定状態に収束できるかどうかを反映したものです。システムがレジリエントであれば、擾乱を受けても一定時間内に期待される状態に回復できます。一方、レジリエンスが欠如している場合、回復は困難です。下の図に示すように、レジリエントなシステムは擾乱後も安定状態に戻ることができますが、レジリエントでないシステムは回復できない可能性があります。

2017年にNature誌に掲載された論文で、n次元の高次元システムを研究する理論モデリング手法が提案されました。このようなシステムは、数万、あるいは数百万ものノードを持つ場合があります。理論的には、この手法は次元削減によって高次元システムを1次元に単純化し、システムのレジリエンス(回復力)を表す式を取得します。

しかし、この理論的なツールは現実世界のシステムには限界があり、次数間の相関が高くないシステムにしか適用できません。現実世界のシステムでは、しばしば「一致効果」と「不一致効果」が現れます。つまり、エッジで接続された2つのノードの次数値に高い相関がある可能性があるということです。そのため、このツールは現実世界のシステムの回復力を評価する上で依然としていくつかの課題を抱えています。

論文リンク: https://www.nature.com/articles/nature16948

これに基づき、私たちのチームは、ネットワークシステムのレジリエンスをモデル化するデータ駆動型手法を提案します。前述のように、レジリエンスはノードの状態変化とネットワークトポロジーの両方の影響を受けます。データ駆動型、つまり機械学習の観点からモデル化することで、問題を2つの次元に分割します。第一に、ノード状態の動的な変化は状態変化の軌跡によって特徴付けられます。第二に、ネットワークトポロジーの影響も考慮する必要があります。これら2つの要因の複合的な影響は複雑システムのレジリエンスに寄与するため、私たちはそれに基づいてデータ駆動型のレジリエンス予測モデルを設計します。

モデルアーキテクチャに関しては、グラフニューラルネットワークとTransformerを組み合わせた構造を設計しました。動的進化の部分では、Transformerを用いて時間的関係をモデル化し、複雑な位相関係については、グラフニューラルネットワークを用いてシステム間の高次相互作用をモデル化します。これら2つの技術の相乗効果により、システムのレジリエンス(回復力)を観測することが可能になります。

私たちの実験では、エコシステムのサプライチェーン、生化学における遺伝子制御ダイナミクス、神経科学における神経信号伝達ダイナミクスなど、さまざまな種類のノード状態ダイナミクスを考慮し、トポロジーに関しては、古典的なネットワークトポロジータイプを選択しました。

実験結果によると、当社のモデルは予測精度が大幅に向上し、F1 スコアが高く、ある程度の解釈可能性を備えており、次元削減と決定面の視覚化を実現しています。

しかし、実際の応用においては、ほとんどのシステムのレジリエンスは未知であり、レジリエンスを有するかどうかを判断することが困難であることがわかりました。その結果、レジリエンスラベル付きデータが不十分になり、モデル予測に偏りが生じます。そこで、サンプルレベルでモデルを強化し、小規模サンプルのシナリオにおける堅牢性を向上させます。

具体的な戦略としては、拡散モデルに基づいて、回復力のあるシステムと回復力のないシステムの両方の観測サンプルを生成し、予測モデルを強化することが挙げられます。これらのサンプルには、ノードのトポロジーと状態変化の軌跡が含まれます。まず、データ拡張が行われます。拡張されたサンプルは回復力予測モジュールをより適切に学習させ、その予測結果に基づいてデータ拡張モジュールがより価値のあるサンプルを生成するように導き、正のフィードバックループを形成します。

拡散モデルの制御可能な生成機能、具体的には分類器ガイダンス技術を活用して、必要な回復力レベルのサンプルを生成し、データ拡張を実現しました。

小規模サンプルテストの結果、データ拡張後、わずか20サンプルでモデルの予測精度が87%に達することが示されました。一方、データ拡張なしの場合、モデルの予測精度はわずか62%でした。注目すべきは、状態変化軌跡の観測期間を短くしても同様の予測精度を達成できることです。これは、実用アプリケーションにおいて長期観測が不可能なシステムにとって非常に重要な意味を持ちます。

関連研究「複雑ネットワークシステムのためのディープラーニングによるレジリエンス推論」および「TDNetGen: トポロジーとダイナミクスの生成的拡張による複雑なネットワークレジリエンス予測の強化」は、それぞれ Nature Communications および KDD 2024 に掲載され、コードとデータはオープンソースでした。

論文の宛先:
https://www.nature.com/articles/s41467-024-53303-4

オープンソースプロジェクトのアドレス:
https://github.com/tsinghua-fib-lab/ResInf

論文の宛先:
https://arxiv.org/abs/2408.09825

オープンソースプロジェクトのアドレス:
https://github.com/tsinghua-fib-lab/TDNetGen

一般的な時空間予測 - ヒント学習強化を備えた時空間GPT

2017年以降、深層学習の分野では時空間予測問題が徐々に注目を集めています。現在の研究手法は主に2つのカテゴリーに分けられます。1つは特定のデータタイプまたはソースの時空間特性に基づいて、対応する深層学習モデルを設計する方法です。もう1つは複雑系または応用数学の観点から、リザーバー計算などの動的システム手法を用いてモデリングする方法です。どちらの手法も、単一のサブシステムをモデリングするという共通点を持っています。

しかし、都市システムでは、実際のサブシステム間の相互依存性が高いため、1 + 1 > 2となる相乗効果を実現する共同モデリングを目指しています。これが私たちの研究の中核目標でもあります。

この枠組みにおいて、私たちの仮説は、次のような実現可能性に基づいています。異なる種類の時空間データは、組織や分布が異なっていても、本質的にはすべて人間の生産活動や都市生活に由来し、ある普遍的な根底にあるメカニズムの異なる側面を表しているということです。したがって、適切な手法が見つかれば、これらの異質なデータを融合することで、1 + 1 > 2という相乗効果を実現できるのです。

実際には、交通、携帯電話ネットワーク、大気汚染など 5 つのサブシステムをカバーし、国内外の 14 都市にまたがる 20 を超える時空間データセット (合計 1 億 3,000 万以上のサンプル ポイント) を収集しました。

モデル設計においては、Transformerアーキテクチャを継承し、様々な形式の時空間データを高次元テンソルとしてモデル化し、ViT(Vision Transformer)と同様の方法で処理することで、最終的に汎用的な時空間予測モデルUniSTを形成しました。

モデルトレーニングの最初の段階では、さまざまな時空間データをトークン化し、高次元テンソルを小さな正方形に分解します。各正方形はトークンに対応し、さまざまなマスキング戦略を通じて多様な時空間相関特性を捉えます。

モデルトレーニングの第2段階では、様々な形式の時空間データの背後にある普遍的なパターンを明らかにする必要があります。ここで言う「知識」とは、時間的近接性、周期性、傾向、空間的近接性、階層性など、時空間データに広く見られる古典的な進化パターンを指します。この時空間ドメイン知識を抽出し、対応するパターンを定義することで、実世界のデータの次元を複数のパターン空間に削減し、大規模なデータセットで事前トレーニングを行います。これにより、新しいデータを処理する際に、モデルは対応するパターンを迅速に照合し、RAG(レーダーアルゴリズム)に類似した手法を用いて、少量のサンプル、あるいはサンプルゼロであっても正確な予測を実現できます。

モデルのパフォーマンスを評価する際には、主に2つのタスクに焦点を当てます。1つ目は長期および短期の予測能力、そして2つ目は最も重要なゼロショット能力です。ゼロショット能力とは、モデルが特定のタスクやデータを事前の曝露なしに直接処理する能力です。例えば、モデルが北京のデータセットでトレーニングされた場合、上海のデータがトレーニングに含まれていなくても、上海の時空間シーケンスに基づいて正確な予測を行うことができます。

下図に示すように、赤い破線はゼロショット条件下での提案手法の予測性能を表し、左端の赤い四角形は1%/5%サンプル条件下での提案手法の予測結果を示し、その他はベースライン手法を表しています。ゼロショット転移学習において、提案手法は1%/5%サンプルを用いたベースライン手法を大幅に上回っていることがわかります。

なぜこのようなことが起こるのでしょうか?グラフで北京と上海のデータの類似度を比較すると、Promptによる計算後、北京の長安街と上海の静安区のデータの間に高い類似性があることがわかります。この高い類似性により、モデルは上海のデータでトレーニングしなくても、北京のデータに基づいて同様の予測パターンを形成できるのです。

時空間データのパフォーマンスについても、スケーリング則の観点から調査しました。つまり、データ量の増加がモデルの性能を大幅に向上させるかどうかです。しかし、既存データの量と種類の制限により、まだ有意なスケーリング効果は確認されておらず、この点に関してはデータタイプのさらなる拡充が必要です。

関連研究「UniST:都市空間時間予測のためのプロンプト強化ユニバーサルモデル」がKDD 2024に選出されました。

論文の宛先:
https://arxiv.org/abs/2402.11838

オープンソースプロジェクトのアドレス:
https://github.com/tsinghua-fib-lab/UniST

この研究は、物理学の原理に基づいて、複雑な都市システムをモデル化する新しいアプローチを提供します。

最後に、複雑な都市システムのモデリングにおける将来の方向性と、私のチーム(清華大学電子工学部都市科学コンピューティングセンター)の最新の進歩についてお話ししたいと思います。

物理的な知識をさらに統合することで、モデルの堅牢性と一般化能力を向上させることができると考えています。メカニズムがまだ十分に解明されていない多くの都市システムについては、記号回帰やネットワークダイナミクス推論などの手法を組み合わせることで、実データからシステムの進化を記述する記号式を抽出できる可能性があります。

関連研究「グラフ構造の物理メカニズムのための記号モデルの学習」が ICLR 2023 で発表されました。

論文リンク: https://openreview.net/pdf?id=f2wN4v_2__W

大規模複雑ネットワークの分野では、統計物理学は既に、繰り込み群などの理論に基づく次元削減ツールを有しています。これらのツールを現実世界の大規模ネットワーク予測に適用することで、進化ダイナミクスの低次元的な「骨格」を同定し、長期的な予測が可能になります。これは、私たちの最近の研究の焦点でもあります。

関連研究「双曲空間におけるスケルトンの識別による複雑ネットワークの長期ダイナミクスの予測」が KDD 2024 で発表されました。

論文リンク: https://arxiv.org/abs/2408.09845

さらに、物理知識を組み込んで少数回学習をサポートすることで、モデルの一般化能力が大幅に向上します。災害後の緊急対応を例に挙げると、このシナリオに関する歴史的データは乏しいものの、一部の研究者は既に災害後の人間行動をメカニズムの観点から動的方程式で表しています。これらの方程式を現実世界のデータモデルと組み合わせることで、限られたサンプル数であっても、より堅牢な予測が可能になります。

関連研究「災害後の移動回復のための物理学に基づくニューラル ODE」が KDD 2024 に掲載されました。

論文リンク: https://dl.acm.org/doi/10.1145/3637528.3672027

また、大規模言語モデルは時空間データ領域における推論とシミュレーションの可能性を秘めていると考えています。例えば、大規模言語モデルはネットワークの視点や経済システムのシミュレーションに利用できます。大規模言語モデルを用いたネットワークの視点のシミュレーションに関する関連論文「協調的役割注入型LLMベースエージェントによるスタンス検出」がICWSM 2024で発表されました。

論文リンク: https://arxiv.org/abs/2310.10467

経済システムの大規模言語モデルシミュレーションに関する研究では、大規模言語モデルエージェントを用いて、経験則に従うマクロ経済パターンを効果的にシミュレートしました。関連研究「EconAgent:マクロ経済活動のシミュレーションのための大規模言語モデル支援エージェント」は、ACL 2024優秀論文賞を受賞しました。

論文リンク: https://arxiv.org/abs/2310.10436

大規模言語モデルは、人間が生成した膨大な言語データで学習され、人間のような推論能力と意思決定能力を備えているため、私たちのチームは、人間の行動の生成またはシミュレーションへの応用を研究しています。従来の生成モデルベースのアプローチと比較して、大規模モデルの事前学習済み知識を活用することで、わずか200サンプルで10万個の学習サンプルと同等の結果を達成できることが分かりました。これにより、特定のシナリオにおける迅速な一般化が可能になります。

関連研究「Chain-of-Planned-Behaviour Workflow Elicits Few-Shot Mobility Generation in LLMs」がプレプリントウェブサイト arXiv にアップロードされました。

論文リンク: https://arxiv.org/abs/2402.09836

私たちのチームは、大規模言語モデルをさらにインテリジェントな意思決定最適化に活用できるかどうかも研究しています。関連研究「大規模言語モデルを用いた複雑ネットワークにおける重要なノードの特定」は、プレプリントウェブサイトarXivにアップロードされています。

論文リンク: https://arxiv.org/abs/2403.03962

FIB LABについて

ゲストスピーカーの丁静涛博士は、清華大学電子工学部都市科学・コンピューティング研究センター(FIB LAB)に所属しています。同センターは、都市科学を基盤として問題解決に取り組む都市科学とコンピューティング研究に重点を置いています。複雑系理論と計算社会学を基盤として研究を行い、データサイエンスと機械学習を融合させた次世代「認知人工知能」を中核技術として開発しています。この技術は、都市ツイン、都市ガバナンス、無線ネットワークツインといった国家の主要なニーズに対応する応用分野に貢献しています。現在、同センターには6名の教員と60名以上の学生が在籍しています。

チームは、Natureサブジャーナルなどのトップ国際ジャーナルや、KDD、NeurIPS、WWW、UbiCompなどのトップ国際会議(サブジャーナルに7件、CCFクラスAジャーナルに100件以上)に150件以上の学術論文を発表し、25,000回以上引用されています。国際会議で7回、最優秀論文賞/ノミネート賞を受賞しています。チームは、中国科学技術部および国家自然科学基金が資金提供する主要な研究開発プログラムを含む15件以上のプロジェクトを主導または参加してきました。関連する成果は、国家科学技術進歩賞の2等賞を受賞しています。

当研究センターは産学連携を常に重視しており、近年ではファーウェイ、テンセント、アリババ、マイクロソフトアジア研究所、美団、快手、オートナビ、センスタイム、トヨタ、モバイル通信事業者などの企業と良好な協力関係を築き、企業連携やインターンシップの機会を豊富に提供しています。

研究室ホームページ:https://fi.ee.tsinghua.edu.cn/

個人ホームページ:https://fi.ee.tsinghua.edu.cn/~dingjingtao/