618ZXW

単一の画像からストリートレベルの位置情報を取得する:大規模なエンドツーエンドの画像地理位置情報モデルである Address CLIP が ECCV 2024 で発表されました。

AddressCLIPプロジェクトチームがQbitAIに論文を提出 | WeChat公式アカウントQbitAI

雑草愛好家に朗報です!

中国科学院自動化研究所とアリババクラウドは共同で、たった1枚の写真で街路レベルの精密な測位を実現できる大規模なストリートビュー測位モデルを立ち上げた。

モデルの助けがあれば、商品を売りつけようとする「勧誘者」に遭遇することを恐れる必要はなくなります。

たとえば、モデルにサンフランシスコのストリートビューを表示した後、特定の撮影場所を直接提供し、近くの候補住所をいくつかリストします。

このモデルは AddressCLIP という名前で、CLIP 上に構築されています。

関連論文「AddressCLIP: 市全体の画像住所特定のための視覚言語モデルの強化」がトップカンファレンス ECCV 2024 に採択されました。

従来の画像位置認識では、多くの場合、画像検索 (画像ジオロケーションと呼ばれる方法) を通じて画像の GPS 座標を決定することに重点が置かれています。

しかし、GPSは一般の人にとって理解しにくく、画像検索には巨大なデータベースの構築と維持が必要であり、ローカルに展開するのは困難です。

本研究では、よりユーザーフレンドリーなエンドツーエンドの画像ジオロケーションタスクを提案しています。以下に両者の比較図を示します。

上記の結果を達成するために、研究者はデータセットの構築とカスタマイズされたモデルのトレーニングという 2 つの主要な側面に焦点を当てました。

画像アドレス位置特定データセットの構築

画像による住所の特定には、基本的にストリートビュー画像をグラフィック テキスト モーダル内の住所テキストと揃える必要があるため、まず多数の画像と住所のペアを収集する必要があります。

マルチモーダルトレーニングのための住所情報を含む既存の画像およびテキストデータの割合が小さすぎるため、研究者は画像の地理位置情報からの画像-GPSデータのペアに基づいてデータセットを構築することを選択しました。

具体的には、マップ内の Reverse Geocoding API を使用すると、GPS クエリで一連の類似した住所を見つけることができます。

次に、フィルタリングや投票などのデータクリーニングメカニズムを通じて、各画像の番地レベルの住所テキストを取得できます。

このプロセスは以下の図に示されています。

しかし、道路の長さに大きな差があり、その結果、分布が極めて不均一になることを考慮すると、道路レベルでの測位精度はまだ粗すぎます。

そこで研究者たちは、場所を記述する人間の習慣を模倣し、通りレベルの住所をさらに意味的に分割しました。

このプロセスは、道路の交差点などの情報を利用して住所情報を拡張します。具体的なプロセスと最終的な住所テキスト記述は次のとおりです。

最後に、本論文では2つの都市において3つの異なるスケールでデータセットを構築しました。関連するデータ情報は以下の通りです。

AddressCLIP実装の詳細

上記で準備したストリートビュー住所テキストデータがあれば、CLIP アプローチに従い、比較学習を通じて微調整を加えるだけでよさそうです。

ただし、このタスクでは画像とテキストのデータ ペア間の意味的関連性が非常に弱いことを考慮すると、これは CLIP の事前トレーニング済みデータとはまったく異なります。

そこで研究者らはまず、データと損失関数の観点から元の CLIP トレーニング フレームワークを改良しました。

具体的には、BLIP などのマルチモーダル生成モデルの画像注釈機能を活用して、研究者はトレーニング データ内の各ストリート ビュー画像の意味テキストに自動的に注釈を付けました。

次に、著者らは、意味テキストとアドレステキストを特定のルールに従って直接連結し、このタスクと CLIP 事前トレーニング タスクの違いを明示的に補いました。

これにより、微調整が容易になり、暗黙的なセマンティクスを通じて住所テキストの識別力も向上します。

さらに、画像の特徴を考慮すると、事前トレーニング済みの特徴空間における住所テキストの特徴の分布は非常に不均一になる可能性があります。

多様体学習にヒントを得て、著者らは、このタスクにおける画像アドレステキストの理想的な特徴は、実際の環境に一致する低次元多様体上に存在するはずだと主張している。

具体的には、研究者らは、実際の地理的環境において互いに近い 2 つのポイントは、特徴空間でも同様の住所と画像特徴を持つはずであり、その逆もまた同様であるという仮定を導入しました。

各画像ペア間の正規化された実際の地理的距離を使用して特徴空間での距離を監視することにより、距離レベルでの画像特徴と実際の地理的環境のマッチングが実現され、モデルによって学習された特徴空間がより均一になります。

したがって、AddressCLIP は、従来の CLIP 損失を、画像と住所のテキストのコントラスト損失、画像と意味のコントラスト損失、および画像と地理の一致損失に最適化し、最終的に正確で均一な画像と住所のテキストの位置合わせを実現します。

上記のトレーニングを完了すると、AddressCLIP は指定された候補アドレスのセットを使用して推論を実行できます。

モデルがさまざまな住所の画像を適切に配置しているため、推論に使用される候補テキストは、トレーニング セットの記述規則に従う必要がなく、非常に柔軟で多様な形式になる可能性があることに留意してください。

一般的なマルチモーダルモデルよりも優れている

定量的な実験結果では、研究チームは主に、ゼロショット CLIP、直接アライメント アドレス CLIP、およびさまざまな CLIP 微調整戦略とモデルを比較しました。

ご覧のとおり、AddressCLIP はさまざまなデータセットとさまざまなメトリックにおいて、比較したすべての方法よりも優れています。

本論文では、定性的な実験において、主に推論形式の観点から AddressCLIP の柔軟性と一般化を実証しています。

さまざまな粒度の住所テキスト (ブロック、通り、サブストリートなど) を含むクエリを提供することで、モデルは実際の地理的範囲と一致するテスト セット イメージ上でアクティベーションを示すことができます。

さらに、研究者らは、このタスクとデータセットを大規模なマルチモーダルモデルと組み合わせるシナリオも想定しました。

データセットを住所に関する質問と回答に関するマルチターンの対話形式に構築することで、チームは LLaVA-1.5-vicuna の視覚的指示を微調整し、画像住所の生成的認識を実現しました。

これは、特にランドマークや明らかな手がかりがない画像の場合、最先端のマルチモーダル モデルに対して明らかな利点を示します。

著者らは、この技術が将来的にはソーシャルメディア上の位置情報に基づいたパーソナライズされた推奨にまで拡張されるか、マルチモーダル ビッグデータ モデルと組み合わせてより豊富な住所や地理情報に関する Q&A を提供し、よりインテリジェントな都市アシスタントや地理アシスタントを提供できると予測しています。

論文リンク: https://arxiv.org/abs/2407.08156 プロジェクトホームページ: https://addressclip.github.io GitHub: https://github.com/xsx1001/Ad...