618ZXW

Meta最大のビデオセグメンテーションデータセットをワンクリックでダウンロード!47か国を網羅した50,900本のリアルワールドビデオが含まれています。

2023年4月、Metaは「あらゆるものをセグメント化できる」と謳うSegment Anything Model(SAM)をリリースしました。従来のコンピュータービジョン(CV)タスクに革命をもたらしたこの画期的な成果は、業界で広く議論を巻き起こし、医療画像セグメンテーションなどの垂直分野の研究に急速に応用されました。最近、SAMはさらにアップグレードされ、 MetaはSegment Anything Model 2(SAM 2)をオープンソース化し、コンピュータービジョン分野における新たな画期的なマイルストーンとなりました。

画像セグメンテーションから動画セグメンテーションへと移行したSAM 2は、リアルタイムのキューベースセグメンテーションにおいて卓越した性能を発揮します。このモデルは、画像と動画のセグメンテーションとトラッキング機能を統合したシステムです。動画フレームにクリック、バウンディングボックス、マスクなどのキューを入力するだけで、画像または動画内のあらゆるオブジェクトを正確に識別・セグメンテーションできます。この独自のゼロショット学習機能により、SAM 2は非常に高い汎用性を備え、医療、リモートセンシング、自動運転、ロボット工学、偽装物体検出などの分野で計り知れない応用可能性を示しています。Metaは自信を持って次のように述べています。「私たちのデータ、モデル、そして知見は、動画セグメンテーションや関連する認識タスクにおいて、重要なマイルストーンとなると確信しています。」

実際、SAM 2 がリリースされるとすぐに、誰もがすぐに使いたくなり、その結果は信じられないほどでした。

画像出典: カルロス・サンタナ

SAM 2 がオープンソース化されてから半月も経たないうちに、トロント大学の研究者がそれを医療画像やビデオに使用し、論文まで発表しました。

原著論文:
https://arxiv.org/abs/2408.03322

トロント大学の研究。画像出典:Marktechpost AI Research News

モデルを学習させるにはデータが必要であり、SAM 2も例外ではありません。MetaはSAM 2の学習に使用された大規模データセット「SA-V」もオープンソース化しました。このデータセットは、汎用的なオブジェクトセグメンテーションモデルの学習、テスト、評価に使用できるとされています。HyperAIはすでに「SA-V:Meta最大のビデオセグメンテーションデータセット」を公式ウェブサイトにアップロードしており、ワンクリックでダウンロードできます。

SA-V ビデオ セグメンテーション データセットは直接ダウンロードできます。
https://go.hyper.ai/e1Tth

ダウンロード可能な高品質データセットがさらに追加されました:
https://go.hyper.ai/P5Mtc

既存のビデオセグメンテーションデータセットを凌駕します!SA-V は複数のトピックとシナリオをカバーします。

Metaの研究者は、データエンジンを用いて、大規模かつ多様なビデオセグメンテーションデータセットSA-Vを収集しました(下表参照)。このデータセットには、50.9K本のビデオと642.6K個のマスクレット(SAM2の支援を受けて手動でアノテーションされた191K個とSAM2によって自動生成された452K個)が含まれています。他の一般的なビデオオブジェクトセグメンテーション(VOS)データセットと比較して、SA-Vはビデオ、マスクレット、マスクの数が大幅に向上しています。アノテーションされたマスクの数は、既存のVOSデータセットの53倍に相当し、将来のコンピュータービジョン研究のための豊富なデータリソースを提供します。

SA-VとオープンソースのVOSデータセットのビデオ量と継続時間の比較

マスクフラグメント数、マスク数、フレーム数、消失率の比較

  • SA-V マニュアルには手動でラベル付けされたタグのみが含まれています。
  • SA-V Manual+Auto は、手動でラベル付けされたタグと自動的に生成されたマスク フラグメントを組み合わせます。

SA-Vには既存のVOSデータセットよりも多くの動画が含まれており、平均動画解像度は1401×1037ピクセルです。収集された動画は、日常の様々なシーンを網羅しており、屋内シーンが54%、屋外シーンが46%を占め、平均再生時間は14秒です。さらに、動画の主題は場所、物体、シーンなど多岐にわたり、マスクも建物などの大きな物体から室内装飾などの細かいディテールまで多岐にわたります。

SA-Vデータセット内のビデオ

下図に示すように、 SA-Vの動画は47か国をカバーし、異なる参加者によって撮影されています。図aに示すように、DAVIS、MOSE、YouTubeVOSのマスクサイズ分布と比較すると、SA-Vでは正規化されたマスク領域が88%以上、0.1未満となっています。

データセットの分布(a)マスクフラグメントのサイズ分布(b)ビデオの地理的多様性(c)ビデオ録画者の自己申告による人口統計

研究者らは、類似したオブジェクト間の重複を最小限に抑えるため、SA-Vデータセットを動画作成者とその地理的位置に基づいて分割しました。SA -Vの検証セットとテストセットを作成するにあたり、動画選択において難しいシナリオ、つまり、アノテーターが高速で移動するターゲット、他のオブジェクトに遮蔽されたターゲット、消失/再出現パターンを示すターゲットを識別する必要があるシナリオに焦点を当てました。最終的に、SA-V検証セットには293個のマスクレットと155本の動画が含まれ、SA-Vテストセットには278個のマスクされたクリップと150本の動画が含まれていました。さらに、研究者らは社内で利用可能なライセンス付き動画データを用いてトレーニングセットをさらに拡張しました。

SA-V ビデオ セグメンテーション データセットは直接ダウンロードできます。
https://go.hyper.ai/e1Tth

これらは、HyperAIが今号で推奨するデータセットです。他に高品質なデータセットを見つけた方は、ぜひコメントを残していただくか、ご自身の作品を投稿してください。
ダウンロード可能な高品質データセットがさらに追加されました:
https://go.hyper.ai/P5Mtc