OpenCity の大規模交通予測モデルは、香港大学と Baidu の協力により、ゼロショットシナリオで非常に優れたパフォーマンスを発揮します。

大規模モデルを使用することで長期的な交通予測が可能になります。

香港大学は、華南理工大学および百度と共同で、OpenCityと呼ばれる長期都市交通予測モデルを立ち上げた。

さらに、非常に強力な一般化能力を備えており、幅広い交通予測シナリオに効果的に適用できます。

一般化と長期予測能力の面での従来の交通予測モデルの限界に対処するために、研究チームは新しい基礎モデルである OpenCity を開発しました。

OpenCity は、Transformer アーキテクチャとグラフニューラルネットワークを組み合わせて、交通データ内の複雑な時空間依存性をシミュレートします。

大規模で異種の交通データセットで事前トレーニングを行うことにより、OpenCity は、幅広い交通予測シナリオに効果的に適用できる、豊富で一般化可能な表現を学習できます。

従来の方法と比較して、OpenCity には次の特徴があります。

ユニバーサルな時空間モデリング: OpenCity は、さまざまな空間領域と期間にわたる都市交通パターンの固有の多様性と変化を効果的に処理することを目的としています。
優れたゼロショット予測能力：OpenCityは、対象地域のみで学習されたフルサンプルモデルと比較して、優れた性能を発揮します。この優れたゼロショット機能は、モデルが一般化された表現を学習する能力を強調しており、大規模な再学習や微調整なしに、新しい交通環境へのシームレスな適用を可能にします。
迅速なコンテキスト適応性：OpenCityは、異なる日にまたがる時空間予測タスクにおいて幅広い適用性を示しています。このモデルは、迅速な微調整のみでコンテキストに適応し、様々なシナリオにシームレスに展開できます。
スケーラビリティ: OpenCity は有望なスケーリング法則を示し、モデルが最小限の追加トレーニングや微調整の要件で、これまで見たことのない新しいシナリオに効果的にスケーリングして適応する可能性があることを示しています。

長期的な交通予測は課題に直面

現在の交通予測モデルは、主に 3 つの課題に直面しています。

まず、地域や空間を越えて一般化できる能力があります。

現在の交通予測モデルの主な制限は、空間一般化能力が低いことです。

交通パターンは、インフラや人口動態といった要因によって、地理的に異なる場所でも大きく異なります。既存のモデルは通常、特定の地域のデータから学習しており、他の地域に効果的に一般化することはできません。

しかし、交通データを収集するために都市部全体に包括的なセンサーネットワークを展開するのは現実的ではありません。

より実現可能なアプローチは、データのサブセットのみを使用して、目に見えない領域に適切に一般化できるモデルを構築することです。

さらに、さまざまな都市に適用可能な時空間モデルを開発することで、導入および保守コストが大幅に削減されます。

空間一般化の課題に対処することは、大規模な再トレーニングや微調整を必要とせずに、さまざまな都市環境にシームレスに展開できる交通モデルを作成するために不可欠です。

2 番目の課題は、時間の一般化と長期予測です。

現在の交通予測モデルは、今後 1 時間以内の交通状況を予測するなど、短期的な予測に優れています。

しかし、数時間後や数日後など、より長い時間枠に一般化する能力は明らかに限られています。

この制限は主に、現実世界の都市シナリオにおいて長期間にわたって発生する時間的分布の変化を効果的に処理するモデルの一般化能力が低いことに起因します。

予測期間が長くなるにつれて、これらのモデルでは長期的な交通状況に影響を与える交通パターンの動的な変化を捉えて考慮することが難しくなります。

この制限は、都市計画者や交通機関が効果的な長期戦略を策定する上で大きな障害となります。

第三に、効果的な普遍的な表現を学習し、時空間の異質性に対処する必要があります。

強力で一般化可能な交通ダイナミクス表現を学習することは、多機能交通モデルの開発に不可欠です。

一般的な表現を学習することにより、モデルは交通パターンに関する堅牢かつ転送可能な理解を獲得でき、ドメイン固有のトレーニングデータがなくても、さまざまなシナリオに効果的に適用できるようになります。

さらに、都市交通手段は本質的に多様性に富んでおり、さまざまな空間領域や時間にわたって大きな分布の変化を示します。

この異質性に対処することは、統一された時空間輸送モデルの汎用性と適応性を維持するために非常に重要です。

左下の図は、さまざまな交通データセットにおけるデータの分布の変化を示しており、このような違いを処理できるモデルの必要性を強調しています。

右の図は、OpenCity のベースラインとゼロサンプル時の性能を、フルサンプル時の性能と比較したものです。時空間的な異質性分布のシフトという課題があるにもかかわらず、OpenCity の性能はフルサンプル時のベースラインと同等です。

これらの課題に対処するために、研究チームは一連の新しい戦略を採用しました。

分布オフセット一般化のための時空間埋め込み

コンテキストの正規化

既存の方法では通常、平均や標準偏差などのトレーニングデータの統計特性を利用してデータを正規化します。

ただし、テストデータに大きなデータ異質性があり、トレーニングデータの分布と地理的に重複していない場合、これらの要約統計は不十分であるか、転送できない可能性があります。

この課題に対処し、ゼロサンプルの交通予測タスクに適応するために、著者らはインスタンス正規化IN(·)を使用してデータを処理します。

この手法は、グローバルなトレーニングセットの統計量に依存せず、各領域における単一の入力インスタンスXr ∈ ℝ^Tの平均μ(Xr)と標準σ(Xr)を利用する。これは、トレーニングデータとテストデータ間の分布バイアスの問題を効果的に軽減し、以下のように定式化される。

効率的な長期予測のためのパッチ埋め込み

OpenCity は、入力時間ステップ数の増加を処理する必要があり、その結果、計算とメモリのオーバーヘッドが大幅に増加する長期的な交通予測の問題を解決することを目的としています。

これらの問題を軽減するために、著者らはパッチベースのアプローチを採用し、データを時間軸で分割しました。

P をパッチの長さとして定義し、単一のパッチにグループ化する時間ステップの数を指定します。また、S をステップサイズとして定義し、連続するパッチ間の重なりを決定します。

Patch操作後、入力データはXr^P∈ℝ^(P×N)に再形成されます。ここで、Nはブロック数、N = (TP) / S +1です。

1 時間の交通データを単一のパッチの長さとして扱い、それに応じてステップサイズを調整することにより (S = P)、モデルは長期間にわたる交通データの進化パターンを捉えて適応することができます。

さらに、パッチベースの処理により計算およびメモリ要件が大幅に削減され、より効率的でスケーラブルな長期トラフィック予測が可能になります。

パッチ操作後、著者らは線形変換と正弦/余弦位置エンコーディング（PE）を使用して、最終的な時空間埋め込み表現Er∈ℝ^(P×d)を取得します。これは次のように後続のコンポーネントへの入力として使用されます。

時空間コンテキストコーディング

交通データに固有の複雑な時空間パターンを捉えるために、モデルは時間的および空間的なコンテキストの手がかりを統合します。

OpenCity は、これら 2 つの主要な側面間の相互作用を明示的にシミュレートすることで、交通パターンに影響を与える多面的な要因をより深く理解することができます。

この統合アプローチにより、提案されたフレームワークは、さまざまな時間枠と地理的地域にわたってより正確な予測を生成できるようになります。

時間コンテキストコーディング

OpenCity モデルは、毎日または毎週のルーチンによって引き起こされる周期的な変動や、より長い時間スケールでの複雑な非線形依存関係など、交通データ内の固有の時間的パターンを効果的に捉えます。

具体的には、著者らは時刻 z^(d) ∈ ℝ^T や曜日 z^(w) ∈ ℝ^T などの時間特徴を使用して周期的な関連性を抽出し、線形層を使用してこれらの時間コンテキストの手がかりをエンコードする時間固有の埋め込みを生成しました。

この方法では、交通流の周期的な特性を明示的にシミュレートすることにより、長期の予測期間でも正確な予測を実現できます。

時間的コンテキストエンコーディングプロセスは、パッチ操作と時空間埋め込み表現の調整を組み合わせたもので、次のように形式化されます。

空間コンテキストエンコーディング

地域によって地理的特徴が異なるため、交通手段も異なります（交通拠点では交通量が多いなど）。

これらの地域特性を捉えるために、著者らは交通ネットワークに空間的コンテキストを統合した。

まず、著者らは正規化されたラプラシアン行列を計算しました。ここで、I と D はそれぞれ単位行列と次数行列です。

次に、著者は固有値分解を実行し、Δ=UΛU^T を取得しました。ここで、U と Λ はそれぞれ固有値行列と固有ベクトル行列です。

k個の最小の非自明な特徴ベクトルは、交通ネットワークの構造情報をエンコードするための領域埋め込みΦ∈ℝ^(R×k)として使用されます。

これらの埋め込みは線形層を通して処理され、最終的な空間エンコーディングC∈ℝ^(R×d)が得られます。

時空間依存モデリング

時間依存モデリング

OpenCityは、時間的依存関係をエンコードするために提案されたTimeShift Transformerアーキテクチャに基づいて構築されています。著者らは、主に2つの相補的な観点から交通パターンを捉えています。

周期的な交通遷移：著者らのモデルは、時間、日、週単位のサイクルなど、周期的で反復的な交通パターンを捉えます。これらの周期的な変化をコード化することで、本手法は交通ネットワークに内在する規則性をより適切に説明できます。
動的な交通パターン: 定期的な変化に加えて、著者のタイムエンコーダーは、時間の経過とともに変化する交通データの複雑で非線形な時間的ダイナミクスと傾向も捉えます。

定期的なトラフィック変換モデリング

著者らは、時間的埋め込み (D) と空間的埋め込み (C) を使用してトラフィックの周期的なパターンを捉え、過去のトラフィックのパターンと将来のインスタンスの相関関係を明らかにすることを目指しました。

時間埋め込みは、次の 2 つのコンポーネントで構成されるように更新されます。

D^his ∈ ℝ^(R×p×d): 履歴時間信号をキャプチャします。
D^pre ∈ ℝ^(R×p×d): 将来予測のための予想時間情報。

著者のモデルは、過去および未来志向の時間パターンを明示的にシミュレートし、交通時系列の周期的な特性をより良く学習して活用できるようにします。

このプロセスは、時間転送マルチヘッドアテンションメカニズムを構築することによって実現されます。

将来の時空間埋め込みがクエリとして使用され、過去の時空間埋め込みがキーとして使用され、過去の時空間データ表現が値として使用されます。

著者らはトレーニングの安定性を向上させるために RMSnorm を導入しました。

モデル内の過去の時間情報と将来の時間情報の関係を明確に定義することにより、OpenCity は周期的な時空間交通パターンを発見することができます。

動的交通パターン学習

このモジュールは、異なる期間間の動的な依存関係をキャプチャするように設計されています。たとえば、突然の交通事故により、交通速度と交通量が急激に低下する可能性があります。

これを実現するために、周期的なトラフィック遷移コーディングで使用されるものと同様のアテンションメカニズムを採用します。

違いは、クエリ (Q)、キー (K)、値 (V) の入力が、前のステップからの正規化された出力 (M) に置き換えられることです。

この変更により、モデルは単なる周期的なパターンではなく、異なる期間間の動的な依存関係の学習に重点を置くことができます。

結果として得られる時間表現H∈ℝ^(R×p×d)は、これらの動的な時空間関係を捉えます。

空間依存モデリング

交通ネットワークは強い空間相関を示し、あるエリアの交通状況は隣接するエリアの状況に影響を受けることが多いため、空間依存性を捉えることはモデル設計の重要な側面です。

これらの空間関係をモデル化するために、著者らはグラフ畳み込みネットワーク (GCN) を使用しました。

残差接続、RMSNorm、および SwiGLU 活性化関数は、その後の計算で使用されました。

提案されたモデルは、このような時空間コーディングネットワークを複数のレイヤーに積み重ねることで複雑な時空間依存関係を捉え、交通ネットワーク内の複雑な関係を学習できるようにします。

テスト結果

ゼロサンプルとフルサンプル

著者らは、地域間、都市間、タイプ間のシナリオを含む OpenCity のゼロサンプルパフォーマンスを包括的にテストし、それをベースラインのフルサンプルパフォーマンスと比較しました。

まず、OpenCity は優れたゼロショット予測性能を示しました。

OpenCity はゼロショット学習において大きな進歩を遂げ、微調整を行わなくてもほとんどのベースラインを上回るパフォーマンスを発揮しました。

これは、大規模な交通データにおける複雑な時空間パターンを学習し、下流のタスクに適用可能な一般的な洞察を抽出する方法の堅牢性と有効性を強調しています。

OpenCity は複数のデータセットでトップ 2 の地位を維持できており、リードしていない場合でもその差は 8% (MAE) 以内に留まっています。

優れたゼロショット予測パフォーマンスは、大規模な再トレーニングを必要とせずにさまざまな交通データセットを処理できる OpenCity の汎用性と適応性を強調しています。

その主な利点は、新しいシナリオにすぐに展開できるため、従来の監視方法で通常必要とされる時間とリソースが大幅に削減され、実際のアプリケーションに大きなメリットをもたらすことです。

OpenCity は、優れたクロスタスク一般化機能も示しています。

著者らは、交通量 (CAD3、CAD5)、交通速度 (PEMS07M、TrafficSH)、タクシー需要 (CHI-TAXI)、自転車道 (NYC-BIKE) の 4 つの異なる交通データカテゴリにわたって OpenCity を評価しました。

ベースライン分析では、さまざまなモデルが特定のデータタイプでは適切に機能する一方で、すべてのカテゴリにわたって一貫して最良の結果を提供するモデルは存在しないことが示されています。

しかし、他の分野ではこのレベルのパフォーマンスを維持するのは困難です。

対照的に、OpenCity はすべてのテストカテゴリにわたって一貫して高品質の結果を提供し、その優れた堅牢性と汎用性を強調しています。

さらに、OpenCity フレームワークの一般性を評価するために、著者らはテスト中にカテゴリ間ゼロショット一般化能力 (NYC-BIKE) を評価しました。

結果は、OpenCity が複数のメトリックにわたって優れたパフォーマンスを維持したことを示しており、その汎用性とさまざまなデータタイプに適応する能力がさらに検証されています。

さらに、OpenCity には強力な長期予測機能があります。

OpenCity アーキテクチャの主な利点は、優れた時間一般化能力であり、長期的な交通予測タスクにおいてベースラインメソッドよりも優れています。

既存のモデルの多くは、過去のパターンに過剰適合し、交通状況の動的かつ変化する性質を適切に捉えられない傾向があるため、長期間にわたって正確な予測を維持するのに苦労することがよくあります。

OpenCity は、さまざまな交通データソースから一般的な時空間表現を学習できるため、時間の経過とともに交通パターンが変化、進化しても信頼性の高い堅牢な予測を生成できます。

教師あり予測のパフォーマンス

OpenCity のパフォーマンスをさらに検証するために、著者らは教師あり学習評価を実施しました。

この研究では、単一のデータセットでエンドツーエンドのトレーニングとテストを実施し、OpenCity を 1 対 1 の設定でベースラインと比較しました。

OpenCity は監督設定において一貫して優れたパフォーマンスを発揮し、ほとんどの評価指標でトップに立っています。

さらに、著者らは、ほとんどのベースラインモデルが CAD-X データセットでパフォーマンスが悪かったことを観察しました。これは、ベースラインモデルが過去の時空間パターンに過剰適合する傾向があり、長期的な交通依存モデリングへの一般化が困難だったためと考えられます。

対照的に、OpenCity アーキテクチャは、事前トレーニング段階から一般的な周期性と動的な時空間表現を効果的に抽出し、時間と場所にわたる分布の変化によって引き起こされる予測パフォーマンスの低下の問題に対処します。

△監督付きパフォーマンス評価△監督付きパフォーマンス評価

モデルの迅速な適応性を探る

このセクションでは、OpenCity が下流のタスクに迅速に適応する能力を評価します。

著者らは、これまでに見たことのない交通データセットに焦点を当て、次の設定で「効率的な微調整」手法を採用しました。

モデルの予測ヘッド (最後の線形レイヤー) のみが更新され、最大 3 つのトレーニングエポックが実行されます。

その結果、OpenCity のゼロサンプルパフォーマンスは、一部のメトリックではベースラインモデルのフルサンプルパフォーマンスよりも低下しました。これは、トラフィックパターンとデータサンプリングの変更が原因である可能性があります。

しかし、効率的な微調整を行った結果、OpenCity のパフォーマンスは大幅に向上し、比較したすべてのモデルを上回りました。

注目すべきは、OpenCity のトレーニング時間は、ベースライントレーニングに必要な時間のわずか 2% ～ 32% であるということです。

この急速な適応性は、OpenCity が基礎的な交通予測モデルとして潜在的可能性を持っていることを浮き彫りにし、新しい時空間データカテゴリに迅速に適応することを可能にします。

アブレーション実験

動的トラフィックモデリング (-DTP) の有用性: 動的トラフィックモデリングモジュールを削除した後のパフォーマンスの低下は、モジュールが最近のトラフィックパターンを適切に分析し、トラフィック状況の突然の変化に予測を効果的に適応できることを示しています。
周期的交通流モデリング（-PTTM）の影響：周期性に関連するエンコーディングを取り除き、時間的および空間的なコンテキストを時空間埋め込みに直接統合しました。過去と未来の時間ペア間の交通流のマッピングをモデリングすることで、OpenCityは時空間パターンの進化を支配する一般法則を捉えます。
空間依存モデリング（-SDM）の影響：空間エンコーディングモジュールが削除されました。分析の結果、空間関係の学習によって時空間予測能力が大幅に向上することが示されました。依存する空間領域からの交通情報を集約することで、モデルは動的な交通流パターンを効果的に捉え、ゼロショット交通予測のための貴重な補助信号を提供します。
時空間コンテキストエンコーディング（-STC）の影響：時空間コンテキスト情報のエンコーディングを削除すると、パフォーマンスが大幅に低下します。時間コンテキスト情報は、モデルが特定の期間における一般的な交通パターンを識別・学習するのに役立ちます。一方、地域埋め込みには、地域固有の重要な特性が含まれています。これらの要素を組み合わせることで、都市間の動的な時空間パターンを理解するための貴重な知見が得られます。

モデルのスケーラビリティ研究

著者らは、データとパラメータの両方の観点から OpenCity のスケーラビリティについても調査しました。

パラメータのスケーラビリティには、OpenCitymini (200 万パラメータ)、OpenCitybase (500 万パラメータ)、OpenCityplus (2600 万パラメータ) の 3 つのバージョンが含まれます。

Model Plus では、著者らは事前トレーニング済みデータの 10%、50%、100% を使用して、より多くのデータを組み込むことの利点を調査しました。

標準化された比較のため、縦軸は相対的な予測誤差値を表しています。結果は、OpenCityのゼロショット汎化性能が、パラメータ数とデータサイズの増加に伴って徐々に向上することを示しています。

これは、OpenCity が大規模なデータセットから貴重な知識を抽出し、パラメータ拡張を通じて学習機能を強化できることを示しています。

実証されたスケーラビリティの潜在性は、OpenCity が一般的な輸送アプリケーションの基礎モデルとなる可能性を裏付けています。

大規模時空間予測モデルとの比較

著者らはまた、強力なゼロショット一般化機能で知られる UniST や UrbanGPT などの他の高度な大規模時空間事前トレーニング済みモデルと OpenCity を比較しました。

著者らは、3 つのモデルのいずれの事前トレーニング段階にも含まれていなかった CHI-TAXI データセットを評価に使用しました。

結果は、OpenCity が他の高度な大規模時空間モデルに比べて大幅なパフォーマンス上の優位性を維持していることを示しています。

さらに、OpenCityとUniSTはUrbanGPTと比較して大幅な効率向上を示しています。これは、UrbanGPTが質問応答形式による予測に大規模言語モデル（LLM）に依存しているため、大量のデータを効率的に処理する能力が制限されているためと考えられます。

提案された OpenCity モデルは、パフォーマンスと効率の面で双方にメリットのある状況を実現し、交通ベンチマーク用の強力な大規模モデルとしての可能性を強調しています。

要約すると、交通予測のためのスケーラブルな時空間基礎モデルである OpenCity は、複数の交通予測シナリオで正確なゼロショット予測パフォーマンスを実現しました。

OpenCity は、動的な時空間依存関係をモデル化し、大規模な交通データセットを事前トレーニングするためのバックボーンとして Transformer エンコーダーアーキテクチャを採用することで、さまざまな下流タスクで優れたゼロショット予測パフォーマンスを発揮し、フルサンプル設定における最先端のベースラインモデルの結果と一致しています。

論文の宛先:
http://arxiv.org/abs/2408.10269 GitHub:
プロジェクトのホームページ: https://github.com/HKUDS/Open...
https://sites.google.com/view...

618ZXW