618ZXW

Google はインターネット全体から 1,000 億の画像とテキストのペアを収集。VitT 幹部がこの取り組みを監督。データ拡張にはまだ可能性がある。

史上最大の視覚言語データセット:1,000億の画像とテキストのペア!

それはどういう意味ですか?

これは以前の記録の10倍の大きさです。

これは Google がリリースした最新のデータセットWebLI-100Bです。

これは、データスケーリングの法則がまだ限界に達していないことをさらに示しています。

英語圏以外にも、1,000億件のレコードのデータセットがあれば、多様な文化や言語のロングテールシナリオをより適切にカバーできるため、パフォーマンスが大幅に向上します。

つまり、より多様なマルチモーダルな大規模モデルを構築するためには、数千億規模のデータ規模が重要な基準となるということです。

さらにこの研究では、CLIP などのモデルのフィルタリング手順が、多様性の向上に悪影響を与える可能性があることが実証されました。

この研究は、Google DeepMind によって実施され、Xiao Wang と Ibrahim Alabdulmohsin が共著者となりました。

著者の中には、ViTのコア著者であるXiaohua Zhai氏がいます。彼は2024年12月に、OpenAIチューリッヒラボに参加することをTwitterで公式発表しました。

データ量が大きいほど、詳細を把握しやすくなります。

この論文の主な内容は3つの側面から構成されています。

  • 1,000 億のデータセットで VLM のパフォーマンスを検証します。
  • 1,000億のデータセットにより、VLM の文化的多様性と多言語機能が向上し、異なるサブグループ間のパフォーマンスの違いが軽減されることを実証しました。
  • CLIP 型モデルのデータ フィルタリング プロセスでは、1,000 億のデータセットであっても、モデルの文化的多様性が意図せず低下する可能性があることが判明しました。

具体的には、研究者らはインターネットから1000億個の画像とテキストのペアを収集し、最初に有害なコンテンツと機密情報を削除しました。

次に、CLIP モデルを使用してデータセットの品質を評価し、画像コンテンツと高度に一致する画像とテキストのペアを除外しました。

研究チームは、画像とテキストの配置と不配置を分類する分類モデルを訓練し、閾値を調整してデータセットを再フィルタリングしました。多言語対応能力を評価するために、ウェブページの言語タグを用いてデータセット内の言語分布を特定しました。

異なるデータ サイズがモデルのパフォーマンスに与える影響を評価するために、研究者は 1,000 億のデータセットからデータの 1% と 10% をランダムにサンプリングし、それぞれ 10 億と 100 億のデータ ポイントのデータセットを作成しました。

低リソース言語の代表性を高めるために、研究者らは低リソース言語をアップサンプリングし、その割合を0.5%から1%に増やしました。

実験では、研究者らは SigLIP モデルを使用して、さまざまなサイズのデータ​​セットで比較視覚言語事前トレーニングを実行しました。

彼らは、異なるサイズのモデル (ViTB/16、ViT-L/16、ViT-H/14) をトレーニングし、大規模なバッチサイズと学習率のスケジューリングを使用しました。

結果は、1Bデータセットで学習したモデルがアテンションマップ上の細部をうまく捉えられていないことを示しています。10Bデータセットでは改善が見られ、100Bデータセットではさらに精度が向上しています。

同時に、多言語MT5単語セグメンテーションを使用してテキストをセグメント化し、複数の言語のモデルをトレーニングしました。

モデル評価では、研究者は主に以下の側面にわたって分析を実施しました。

  • 従来のベンチマーク: 複数の従来のベンチマーク (ImageNet、COCO Captions など) による評価。
  • 文化的多様性: 文化的多様性タスクにおけるモデルのパフォーマンスは、Dollar Street、GeoDE、Google Landmarks Dataset v2 などのデータセットを使用して評価されました。
  • 多言語機能: 多言語タスクにおけるモデルのパフォーマンスは、Crossmodal-3600 データセットを使用して評価されました。
  • 公平性: モデルの公平性を評価するために、異なるサブグループ (性別、収入レベル、地理的地域など) 間でのモデルのパフォーマンスの違いを評価しました。

結果によると、データサイズを 100 億から 1,000 億に増やしても、西洋文化が主流の従来のベンチマークの改善は限定的でしたが、多言語能力と公平性関連のタスクは大幅に改善されました。

データ フィルタリングにより、従来のタスクにおけるモデルのパフォーマンスが向上しますが、特定の文化的背景の代表性が低下し、データセットの多様性が制限される可能性があります。

さらに、低リソース言語の混合比率を調整することで、低リソース言語ベンチマークにおけるモデルのパフォーマンスを大幅に向上させることができます。

主任開発者の Zhai Xiaohua 氏が OpenAI に引き抜かれた。

この研究の著者の一人は、Xiao Wang と Ibrahim Alabdulmohsin です。

王暁さんは南京大学で学士号を取得し、北京大学で修士号を取得しました。

LinkedInのプロフィールによると、彼は卒業後、IBM China Development LabとNetEase Youdaoで勤務していました。2015年にGoogle DeepMindに入社し、以来、シニアソフトウェアエンジニアとして主にビジュアル言語の研究に従事しています。

メインクリエイターの中には翟小花も含まれている。

彼は南京大学で学士号を取得し、その後北京大学で博士号を取得した後、チューリッヒのGoogleに入社しました。

Zhai Xiaohua 氏は、Lucas Beyer 氏や Alexander Kolesnikov 氏とともに、Google にいくつかの重要な作品を提供しました。

2021年、彼ら3人が共同執筆したコンピュータービジョンにおける画期的な研究「ViT」がリリースされ、すぐにImageNetの最高スコアを更新しました。

この研究は、コンピュータービジョン(CV)においてCNNは必須ではなく、自然言語処理(NLP)に由来するTransformerが同等の高度な結果を達成できることを証明しました。これは、CVにおけるTransformerの応用の先駆的なものです。

この論文は53,000回以上引用されています。

Google DeepMind 在籍中、彼はチューリッヒ マルチモーダル リサーチ グループを率い、マルチモーダル データ (WebLI)、オープン ウェイト モデル (SigLIP、PaliGemma)、文化的包摂性に重点を置きました。

2024年12月、OpenAIがViTのコア著者3名を引き抜いたとの報道がありました。このニュースはその後、ViT自身によって確認されました。

論文リンク: https://arxiv.org/abs/2502.07617