618ZXW

ImageNet の空間インテリジェントバージョンが登場しました。Fei-Fei Li と Jia-Jun Wu のチームによって制作されました。

スタンフォード大学の Fei-Fei Li と Jia-Jun Wu のチームによる ImageNet の空間インテリジェンス バージョンが登場しました。

HourVideo は、最大 1 時間のビデオを理解するマルチモーダル モデルの能力を評価するためのベンチマーク データセットであり、さまざまなタスクが含まれています。

この研究では、既存のモデルと比較することで、長いビデオを理解する際の現在のモデルと人間レベルのパフォーマンスとのギャップを明らかにしています。

2009 年、Fei-Fei Li 氏のチームは CVPR で初めてImageNet画像認識データセットを公開しました。これはコンピューター ビジョン アルゴリズムの開発を大きく促進しました。CV を理解している人なら誰でも、詳細がいかに複雑であるかを知っています。

現在、マルチモーダルコンピューティングが急速に発展しているため、チームは「既存のビデオベンチマークのほとんどは、特定のドメインまたは短いビデオに焦点を当てている」こと、そして「これらのデータセットの平均的なビデオの長さは比較的短いため、長いビデオを理解する能力の包括的な評価が制限されている」と考えています。

こうして、ImageNet の空間インテリジェントバージョンが誕生しました。

HourVideo には、Ego4D データセットからの 500 本の一人称視点ビデオが含まれており、長さは 20 分から 120 分で、77 の日常活動をカバーしています。

評価結果によると、人間の専門家レベルは、現在最も強力なロングコンテキスト マルチモーダル モデルである Gemini Pro 1.5 よりも大幅に優れています(85.0% 対 37.3%)。

大規模モデルは、マルチモーダル機能の面ではまだ長い道のりを歩む必要があります。

HourVideo はどのように作られるのですか?

HourVideo を提案する理由は、長いビデオを理解することがますます重要になっている一方で、既存の評価ベンチマークが不十分であることを研究者が発見したためです。

マルチモーダル処理がますます複雑になるにつれ、AI には自律エージェントと同様の機能が備わっていることが期待されます。一方、人間の視点から見ると、人間は長期間にわたって視覚情報を処理する能力があるため、現実世界の視覚環境を認識し、計画し、行動することができます。

したがって、この目標を達成するには、長編ビデオの理解が不可欠です。

現在のマルチモーダル評価ベンチマークは、主に単一の画像または短いビデオクリップ(数秒から 3 分)の評価に重点を置いていますが、長いビデオの理解の探求はまだ開発されていません。

間違いなく、長いビデオの理解に関する AI 評価は、タスクの設計や事前の知識や短い断片に基づく応答の回避など、多くの課題に直面しています。

そこで、チームはHourVideoを提案しました。

これは長いビデオの理解のために設計されたベンチマーク データセットです。

長期的な理解を必要とするタスクを設計するために、チームはまず、要約、知覚(想起、追跡)、視覚的推論(空間、時間、予測、因果関係、反事実的)、ナビゲーション(部屋から部屋への移動、物体の検索)の 18 個のサブタスクを含む新しいタスクベースのスイートを提案しました。

要約タスクでは、スーパーマーケットで首からカメラをつけた人物の主要な対話的行動を要約するなど、ビデオ内の主要なイベントと主要な対話の概要をモデルが提供する必要があります。

知覚タスクは2 つの部分で構成されます。

1 つは想起課題で、これには事実の想起 (例えば、首からカメラをつけた人がスーパーで乳製品を選んでいる) と順序の想起 (例えば、スーパーでトマトの重さを量った後にその人が何をしたか)、さらに時間的距離の判断 (例えば、ピザを食べてからどのくらい経って箱を捨てたか) が含まれます。

もう一つのタスクは追跡です。これは主に、首にカメラをぶら下げて特定の環境(スーパーマーケットや薬局など)でやり取りしている個別の個人を識別するために使用されます。

次は視覚的推論課題で、空間的推論と時間的推論に分かれます。

空間的推論は、物体間の空間的関係、空間的近接性(電子レンジが冷蔵庫やシンクよりも近いかどうかなど)、空間的レイアウト(首にカメラをかけた人物が描かれたアパートの正しいレイアウトを選択するなど)を決定する役割を担います。

時間的推論には、活動の継続時間の比較、イベントの頻度の判断、活動の前提条件、予測 (洗濯後に行われる可能性が最も高い活動など)、因果関係 (ガレージを 2 度目に出る理由など)、反事実的推論 (オーブンでマッシュポテトを作ったらどうなるかなど) が含まれます。

ナビゲーション タスクには、部屋間のナビゲーションとオブジェクト検索ナビゲーションが含まれます。

上記の各タスクには、質問に正しく回答するために長いビデオ内の複数の時間セグメントからの情報の識別と統合が必要となるように慎重に設計された質問プロトタイプがあり、それによってモデルの長期的な理解能力が効果的にテストされます。

一方、研究者はパイプラインを使用して HourVideo データセットを生成しました。

最初のステップはビデオスクリーニングです。

研究チームは、Ego4D データセットから 20 分から 120 分にわたる 1,470 本のビデオを手動で確認し、その後 5 人の専門家にそのビデオのうち 500 本を選んでもらいました。

Ego4D が選ばれた理由は、第一に、その自己中心的な視点が自律エージェントやアシスタントの典型的な視覚入力とよく一致していること、第二に、多様な質問の作成に役立つ幅広い視覚的な物語を提供していること、そして第三に、Ego4D のアクセス権限が非常にユーザーフレンドリーであることです。

2 番目のステップは、候補となる MCQ を生成することです。

これには、長いビデオ内の複数の時間セグメントにわたる情報分析と統合が必要です。

具体的には、研究者たちはビデオを20分間隔で分割し、情報を抽出し、大規模モデルで処理できる構造化された形式に変換しました。最終的に、25個のタスク固有のプロンプトを開発しました。

3 番目のステップは、LLM の最適化と人間によるフィードバックです。

この段階で、チームは人間によるフィードバックシステムを実装しました。7人の経験豊富な担当者が、各質問の妥当性、回答の正確性、誤った選択肢の妥当性を手動で評価しました。最終的に400時間を超える人間によるフィードバックが収集され、MCQ₂を自動的に最適化してMCQ₃を得るためのプロンプトが設計されました。

ステップ 4、ブラインド選択。

このフェーズの目標は、大規模なモデルからの事前知識を使用して回答できる質問、またはビデオからの情報がなくても回答できる質問を排除することです。

チームは、2つの独立した大規模モデル(GPT-4-turboとGPT-4)を使用してMCQ₃をブラインドスクリーニングし、残りのMCQ₄が高品質であり、長時間のビデオ言語理解について特別にテストされていることを確認しました。

5 番目で最後のステップは、専門家による最適化です。

このステップは、幅広い質問を絞り込んで高品質の MCQ₅ を取得することにより、MCQ₄ の品質を向上させるために使用されます。

4人の専門家も同様のことを行いました。つまり、「カメラを持った人は鍵をどこに置いたか」という質問を、「カメラを持った人は買い物をして帰宅した後、自転車の鍵をどこに置いたか」という質問に絞り込みました。

上記のパイプラインでは、研究チームは GPT-4 を使用して複雑な複数ステップの指示に従い、CoT キューイング戦略も使用しました。

さらに、パイプライン内の大規模モデルに関係するすべてのステージの問題は 0.1 に設定されています。

統計によると、HourVideoは77の日常生活のシナリオをカバーし、500本のEgo4Dビデオを収録しています。ビデオの総再生時間は381時間、平均再生時間は45.7分です。そのうち113本のビデオは1時間を超えています。

各ビデオには約 26 個の高品質な多肢選択式質問が含まれており、合計 12,976 個の質問があります。

因果関係、反事実、ナビゲーションのタスクを除けば、問題はタスク スイート全体に均等に分散されます。

最高の状態でも、人間の専門家のレベルには遠く及びません。

実験的評価では、HourVideo は 5 つの選択肢からなるマルチタスク質問応答 (MCQ) タスクを使用し、評価指標として精度を使用して、各タスクとデータセット全体の精度を個別に報告します。

長いビデオ内の MCQ を評価する場合、情報漏洩を防ぐことは大きな課題です。理想的には、各 MCQ を個別に評価する必要がありますが、このアプローチは計算コストが高く、非常に時間がかかります。

そのため、実際の評価では、タスクまたはサブタスクごとにバッチで評価が行われます。予測タスクでは、正確なタイムスタンプが提供されるため、動画の編集を的確に行うことができ、計算コストと評価精度のバランスが取れています。

研究チームは、ゼロショット設定で長いビデオを理解する際のさまざまなマルチモーダルモデルのパフォーマンスを比較しました。

主に 3 種類のモデルが評価されましたが、これらはすべて単一の一般的な機能に基づいて動作しました。

視覚障害のあるLLM:

これは、評価プロセス中にビデオの内容を考慮せずに、事前にトレーニングされた知識のみに基づいて質問に答える大規模な言語モデルを指します。

この実験ではGPT-4を例として用いています。GPT-4の存在は、モデルが動画内の実際の視覚情報の理解よりも、事前学習済みの知識にどの程度依存しているかを明らかにする可能性があります。

ソクラテスモデル:

現在のマルチモーダル モデルのほとんどでは、非常に長いビデオを直接処理することは困難です。

したがって、ソクラテスモデルのアプローチを採用して、ビデオ(合計 t 分)を 1 分間隔に分割し、各間隔に個別に字幕を追加し、これらの字幕を集約して包括的な言語ベースのビデオ表現を形成します。このビデオ表現は、一般的なタスクに依存しないプロンプトとともに、長いビデオの質問への回答の入力として使用されます。

実験では、ビデオ字幕ジェネレーターとしてGPT-4とLLaVA-NEXT-34-DPOが使用され、最終的にGPT-4が実用的な質問に答えるために使用されました。

ネイティブマルチモーダルモデル:

Gemini 1.5 Pro などのネイティブ マルチモーダル モデルは、マルチモーダル データ (オーディオ、ビデオ、画像、テキストを含む) で共同トレーニングされており、非常に長いコンテキスト長* (2M 以上) を処理できるため、HourVideo のエンドツーエンドの直接評価に適しています。

モデルのパフォーマンスと比較するために、研究者らはベンチマークデータセットから、手工芸/絵画、料理、建設/リフォーム、ガーデニング、掃除/洗濯、庭仕事など、18以上のシーンを網羅した14本のビデオを選択しました。

次に、213 個の MCQ を含む 11.2 時間のビデオ コンテンツを評価するため、 3 人の専門家が招かれました。

評価の公平性を確保するため、評価に関わった人間の専門家は、これらのビデオの初期の注釈付け作業には関与していませんでした。

最終的に、人間の専門家は評価において 85.0% の精度を達成しました。

ブラインドLLMの精度は19.6%で、ソクラテスモデルの精度はわずかに高く、ネイティブマルチモーダルモデルの精度は最も高く、37.3%に達しましたが、それでも人間の専門家のレベルには遠く及びません。

さらに、各 MCQ を個別に評価すると、タスク レベルで評価した場合に比べてパフォーマンスが 2.1% 低下しましたが、コストは 3 倍以上増加しました。これは、タスク レベルの評価方法の効率性と有効性を実証しています。

最後に、チームは、将来的にはベンチマークを拡張して、より多様なビデオソース(スポーツや YouTube 動画など)を含め、オーディオ モダリティのサポートを組み込み、他の感覚モダリティを探求する予定であると述べました。

また、モデルを開発する際にはプライバシーと倫理的問題を考慮する必要があることも強調しました。

チームメンバー

HourVideo プロジェクトは、スタンフォード大学の Fei-Fei Li 氏と Jia-Jun Wu 氏のチームによって開発されました。

この論文の共同筆頭著者は、Keshigeyan Chandrasegaran 氏と Agrim Gupta 氏です。

ケシゲヤン・チャンドラセガランは、スタンフォード大学コンピュータサイエンス科博士課程2年目で、コンピュータビジョンと機械学習を専門としています。指導教員は、フェイフェイ・リー氏と、スタンフォード・ビジョン・アンド・ラーニング・ラボ(SVL)の共同ディレクターであるフアン・カルロス・ニベレス氏です。

共同筆頭著者のアグリム・グプタ氏は、2019 年秋にスタンフォード大学に入学したコンピューターサイエンスの博士課程の学生です。彼女はフェイフェイ・リー氏の教え子でもあります。

以前は、MicrosoftとDeepMindでMeta関連のフルタイムの経験を積み、Googleでもパートタイムで勤務していました。2018年には、CVPRでFei-Fei Liと共著論文を発表しました。

現在、Agrim の Google Scholar 論文は約 6,400 回引用されています。

フェイフェイ・リーは著名な「AIの第一人者」であり、AI分野で最も影響力のある女性および中国人の一人です。

彼女は33歳でスタンフォード大学コンピュータサイエンス学部の終身教授となり、44歳で米国技術アカデミーの会員となり、現在はスタンフォード大学の人間中心人工知能研究所(HAI)の所長を務めています。

コンピュータービジョンの分野における画期的な成果である ImageNet も彼女が先頭に立って開発したものでした。

フェイフェイ・リーは以前、Google Cloud AIのバイスプレジデント兼チーフサイエンティストとして業界で短期間勤務していました。彼女は、Googleのアジア初のAI研究センターであるGoogle AI China Centerの設立を主導しました。また、AutoML、Contact Center AI、Dialogflow Enterpriseといった、影響力のある一連のGoogle Cloudプロダクトの立ち上げを主導しました。

今年、フェイフェイ・リーは宇宙情報企業ワールドラボの設立を発表しました。わずか4ヶ月足らずで、同社の評価額は10億ドルを超えました。

空間知能は、「視覚化から洞察へ、視覚から理解へ、そして理解から行動へ」と定義されます。

Jiajun Wuは現在、スタンフォード大学の助教授であり、スタンフォード ビジョン アンド ラーニング ラボ (SVL) およびスタンフォード人工知能ラボ (SAIL) に所属しています。

彼はMITで博士号を取得し、清華大学の姚クラスで学士号を取得。同大学ではかつて「清華の十傑」の一人として称賛された。

彼は李菲菲のスタートアップ企業、ワールドラボの顧問も務めている。

参考リンク:
[1]https://arxiv.org/abs/2411.04... [2]https://www.worldlabs.ai/team [3]https://keshik6.github.io/