|
オープンソースになったもう一つのリリース! Meta の「Segment All AI」第 2 世代SAM2 がSIGGRAPH でデビューしました。 前モデルと比較すると、画像セグメンテーションからビデオセグメンテーションへと機能が拡張されました。 あらゆる長さのビデオをリアルタイムで処理し、ビデオ内でこれまで見たことのないオブジェクトを簡単にセグメント化して追跡できます。 さらに重要なのは、モデルコード、重み、データセットがすべてオープン ソースであることです。 Llama ファミリーと同様に、Apache 2.0 ライセンスに従い、BSD-3 ライセンスの下で評価コードを共有します。 ネットユーザー yygq: OpenAI は恥ずかしい思いをしているのでしょうか? Meta によれば、オープンソースのデータセットには 51,000 本の現実世界のビデオと 600,000 個の時空間マスクが含まれており、これは同種のデータセットとしてはこれまでの最大のものをはるかに上回るものであるという。 プレイ可能なデモ版もオンラインで公開されているので、誰でも試すことができます。 SAMにメモリモジュールを追加する第 1 世代の SAM と比較した SAM2 の機能の主なアップグレードは次のとおりです。
インタラクティブなセグメンテーション プロセスは、主に選択と絞り込みの 2 つのステップで構成されます。 最初のフレームでは、ユーザーはクリックして対象オブジェクトを選択します。SAM2はクリックに基づいてセグメンテーションを後続のフレームに自動的に伝播し、時空間マスクを形成します。 一部のフレームでターゲット オブジェクトが失われた場合、ユーザーは新しいフレームで追加のプロンプトを表示することで修正できます。 3 番目のフレーム内のオブジェクトを復元する必要がある場合は、そのフレーム内でそのオブジェクトをクリックするだけです。 SAM2 の中心的な考え方は、画像を単一フレームのビデオとして扱うことです。これにより、SAM からビデオ ドメインへの直接拡張が可能になり、画像とビデオの両方の入力がサポートされます。 ビデオ処理における唯一の違いは、モデルが現在のタイムステップでオブジェクトを正確にセグメント化するために、処理された情報を思い出すためにメモリに依存する必要があることです。 画像セグメンテーションと比較して、動画セグメンテーションでは、物体の動き、変形、オクルージョン、照明など、様々な要素が大きく変化します。さらに、動画内の物体をセグメンテーションするには、空間と時間における物体の位置を把握する必要があります。 したがって、Meta は主に次の 3 つのことを行いました。
まず、チームは画像セグメンテーションをビデオ領域に拡張するための視覚セグメンテーションタスクを設計しました。 SAM は、画像内の入力ポイント、ボックス、またはマスクを使用してターゲットを定義し、セグメンテーション マスクを予測するようにトレーニングされます。 次に、SAM は、ビデオの任意のフレーム内のプロンプトを受け入れて、予測する時空間マスクを定義するようにトレーニングされます。 SAM2 は、入力プロンプトに基づいて現在のフレームのマスクをリアルタイムで予測し、一時的な伝播を実行して、すべてのフレームで対象オブジェクトのマスクを生成できるようにします。 初期マスクが予測されたら、任意のフレームでSAM2に追加のヒントを提供することで、反復的な改善を行うことができます。このプロセスは、すべてのマスクが取得されるまで、必要な回数だけ繰り返すことができます。 ストリーミング メモリを導入することで、モデルはビデオをリアルタイムで処理し、対象オブジェクトをより正確にセグメント化して追跡できるようになります。 メモリエンコーダ、メモリバンク、メモリアテンションモジュールで構成されています。このモデルは一度に1フレームずつ処理し、前のフレームの情報を活用して現在のフレームのセグメンテーションタスクを支援します。 画像をセグメント化する場合、メモリコンポーネントは空であり、モデルはSAMに類似しています。ビデオをセグメント化する場合、メモリコンポーネントはオブジェクト情報と以前のインタラクション情報を保存できるため、SAM2はビデオ全体にわたってマスク予測を実行できます。 他のフレームで追加のヒントが提供される場合、SAM2 はターゲット オブジェクトに保存されているメモリに基づいてエラーを修正できます。 メモリエンコーダは現在の予測に基づいてメモリを作成し、メモリバンクはビデオターゲットオブジェクトの過去の予測情報を保持します。メモリアテンション機構は、現在のフレームを条件付きで特徴付け、過去のフレームの特徴に基づいて調整することで埋め込みを生成します。埋め込みはマスクデコーダに渡され、そのフレームのマスク予測を生成します。このプロセスは後続のフレームに対して繰り返されます。 この設計により、モデルは任意の長さのビデオを処理することも可能になります。これは、SA-V データセットの注釈の収集だけでなく、ロボット工学などの分野でも重要です。 セグメント化されたオブジェクトがぼやけている場合、SAM2は複数の有効なマスクを出力します。例えば、ユーザーが自転車のタイヤをクリックした場合、モデルはこれを複数のマスク(タイヤまたは自転車全体を指す可能性がある)と解釈し、複数の予測を出力します。 ビデオでは、タイヤが 1 つのフレームにしか表示されていない場合は、タイヤをセグメント化する必要がある可能性があります。一方、自転車がビデオの後続のフレームに頻繁に表示される場合は、自転車をセグメント化する必要がある可能性があります。 それでもユーザーがセグメント化したい部分を判断できない場合、モデルは信頼度レベルに基づいて選択します。 さらに、セグメント化されたオブジェクトは動画内でオクルージョンが発生しやすい傾向があります。この新たな状況に対処するため、SAM2は「オクルージョンヘッド」というモデル出力を追加し、現在のフレームにオブジェクトが出現するかどうかを予測します。 さらに、データセットに関しては... SA-V には、同種の既存の最大のデータセットと比べて 4.5 倍のビデオと 53 倍の注釈が含まれています。 膨大な量のデータを収集するために、研究チームはデータエンジンを構築しました。人間がSAM2を用いて動画内の時空間マスクに注釈を付け、新しい注釈を用いてSAM2を更新します。このサイクルを複数回繰り返すことで、データセットとモデルを継続的に反復処理することができます。 SAM と同様に、研究チームは注釈の時空間マスクに意味上の制約を課すのではなく、完全なオブジェクトに重点を置いています。 この方法では、ビデオ オブジェクト セグメンテーション マスクの収集速度も大幅に向上し、SAM よりも 8.4 倍高速になります。 過剰セグメンテーションを解決し、最先端(SOTA)標準を超える比較すると、SAM2 を使用すると、過剰セグメンテーションの問題を効果的に解決できます。 実験データによれば、SAM2 は半教師ありの最先端 (SOTA) 手法と比較してあらゆる面で優れたパフォーマンスを発揮します。 しかし、研究チームはSAM2にはまだ欠点があるとも述べています。 例えば、ターゲットを見失ってしまう可能性があります。カメラアングルが急激に変化したり、混雑したシーンでは、このような状況が発生する可能性が高くなります。そこで、手動での修正をサポートするリアルタイムインタラクティブモードを設計しました。 また、対象オブジェクトの動きが速すぎると、詳細が欠落する可能性があります。 最後に、このモデルはオープンソースで無料で使用できるだけでなく、Amazon SageMaker などのプラットフォームでもホストされています。 注目すべきは、論文には SAM1 のトレーニングが 68 時間だったのに対し、SAM2 のトレーニングは 256 個の A100 チップで 108 時間かかったと書かれていたことを一部の人が発見したことです。 画像のセグメンテーションからビデオ処理まで、こんなに低コストで実現できるのでしょうか? 参考リンク: |
Metaの「Segment Everything」進化版2.0!移動物体追跡、コードと重量データセットが完全オープンソースに
関連するおすすめ記事
-
OpenAIのインテリジェントエージェントに関する新たな手がかりが明らかになりました!ネットユーザーの皆様、新たなChatGPTの時代が到来です!
-
巨大豆豹模型が再び話題に:Douyinの「AI絵本エフェクト」は11億回以上の再生回数を獲得。
-
DeepSeekのフルパワー微調整の秘密を公開!巨人の肩に乗って自分だけのモデルを構築しよう ― チュートリアルはこちら
-
AI搭載のアニメおもちゃが話題沸騰!わずか数ヶ月で月間アクティブユーザー数(MAU)100万人を突破しました。
-
Google の Gemini 実験モデルが突如リーダーボードのトップに返り咲きました。GPT-4o がトップに立ったのはたった 1 日だけでした。
-
HICOOL 2024 グローバル起業家サミットは成功裏に終了し、新たな質の高い生産性革新の青写真を共同で描きました。