618ZXW

香港大学の Ma Yi チームとその他による新しいオープンソース プロジェクト: コード レート正規化を使用して視覚的な自己教師学習パラダイムを再構築し、「少ないほど豊か」の原則を具体化します。

Ma Yi 氏のチーム、Microsoft Research、カリフォルニア大学バークレー校などが共同で開発した、最新のオープンソース視覚事前トレーニング手法です。

SimDINOSimDINOv2 は、コーディング レートの正規化を通じて DINO および DINOv2 モデルのトレーニング プロセスを簡素化することで得られた 2 つの最先端モデルです。

現在の視覚事前学習分野において、DINOとDINOv2は最も有力な視覚モデル候補の一つであり、最も広く用いられている手法でもあります。マルチモーダルな大規模モデルの人気が高まっていることから、DINOv2は視覚特徴を提供するためのVLMにおける視覚エンコーダーとしても頻繁に利用されています。

さらに、チューリング賞受賞者であり、Meta の主任 AI 科学者である Yang Likun 氏による世界モデルに関する最近の研究も DINOv2 に基づいています。

(もちろん、DINO モデル自体は 4 年前に Meta AI チームによって提案されました。)

ただし、DINO シリーズを実装するには、依然として非常に複雑なエンジニアリング手法が必要です。

SimDINO は、 DINO の複雑な後処理手順を排除することで、 DINO シリーズのトレーニングの課題を解決します

さらに驚くべきことに、簡素化されたモデルはトレーニングが容易なだけでなく、パフォーマンスも向上します。

おそらくこれが、ディープラーニングにおける「シンプルさこそが美しさ」という設計哲学の重要な価値なのでしょうか?(冗談です)

馬懿氏は次のように述べた。

私たちは DINO を修正しているのではなく、視覚表現学習の基本的な原理を再発見しているのです。

コアアプローチ:複雑さを簡素化

自己教師学習 (SSL) は、大規模なラベルなし画像データの処理において大きな進歩を遂げました。

コンピューター ビジョンの分野では、DINO シリーズのモデルは自己教師学習のベンチマークと考えることができます。

手動による注釈なしで大量の画像から自律的に特徴を学習できるこのモデルは、下流のタスクで優れた結果を達成しただけでなく、マルチモーダルな大規模ビジュアルエンコーダーの標準機能にもなっています。

しかし、DINOシリーズの高性能モデルは、「丁寧な取り扱い」を必要とします。

  • 慎重に設計された温度制御戦略が必要です (温度パラメータ τ は小数点以下 3 桁までの精度が必要です)。
  • これは、複雑な集中研磨操作(精密機器の校正プロセスに相当)に依存しています。
  • 高次元プロトタイプ投影レイヤーと組み合わせる必要があります (特徴次元は 1 万を超えることがよくあります)。

これらの「救命装置」は、モデルが特徴崩壊に陥るのを防ぐことはできるものの、学習プロセスをハイパーパラメータ調整という悪夢に変えてしまいます。さらに、研究者がモデルアーキテクチャを改良したり、新しい領域に適応させようとしたりすると、その影響は広範囲に及ぶことが多く、わずかなミスがシステム全体の機能停止につながる可能性があります。

これらの問題を解決するために、SimDINO および SimDINOv2 モデルが発表されました。

コーディング レートの正規化を導入することで、トレーニング プロセスが簡素化され、モデルの堅牢性とパフォーマンスが向上します

これら 2 つのモデルの中心的なアイデアは、エンコード レートの正規化によって表現の崩壊を防ぎ、それによって元の DINO および DINOv2 トレーニング プロセスから多くの経験的設計コンポーネントを削除することです。

具体的な方法としては、次のものがあります。

  • 経験的コンポーネントの削除: 重みの正規化、バランス調整操作 (センタリングやシャープニングなど)、およびさまざまなハイパーパラメータ (温度スケジューリングやセンタリング モメンタムなど) を使用して線形レイヤーを削除します。
  • コーディング レート正規化の導入: 表現の崩壊を防ぐために、損失関数に単純なコーディング レート正規化項が追加されます。

上記の 2 つの方法に加えて、SimDINO および SimDINOv2 モデルの主な革新は、簡素化されたトレーニング プロセスです。

上記の 2 つの特定の方法に対する改良により、SimDINO と SimDINOv2 のトレーニング プロセスがより簡潔になり、ハイパーパラメータへの依存が減少し、トレーニングの安定性と効率が向上します。

コーディング レートの正規化を導入すると、トレーニングがより安定し、パフォーマンスが向上します。

研究チームは、「似たものは似たものを引き寄せ、異なるものは異なるものを引き寄せる」という自己教師対照学習の本来の前提を再検討することで、DINO の多くの複雑な設計 (出力層の高次元投影、教師ネットワーク出力のセンタリングシャープニング操作、温度調節など) が、モデルの学習された表現が「崩壊」するのを防ぐために間接的に負のサンプル情報を利用していることを発見しました。

SimDINO 研究チームは、明示的なメトリック モデルによって表される品質を正規化項として使用する、Yi Ma によって提案されたデータ コーディング レート歪み推定方法 (MCR2 およびその他の関連研究を参照) を使用することでこの要件に対処できると提案しました。

この発見に基づいて、研究者は次のような解決策を提案しました。

コーディング レート正規化を導入すると、明示的なコーディング レート正規化項を損失関数に追加することで表現の崩壊を回避できます。

この単純な変更により、元の複雑な設計を置き換えることができ、トレーニング プロセスがより合理化されます。

簡素化されたモデルトレーニングプロセスにより、「最適化の目標がより明確になり、コンポーネントの依存関係が少なくなり、理論分析が容易になり、スケーラビリティが向上する」など、いくつかの重要な利点が得られます。

具体的には、SimDINO は DINO モデルの EMA 自己蒸留スキームとマルチビュー データ拡張方法を保持しますが、対照学習スキームを変更します。

出力層で高次元プロトタイプ投影とクロスエントロピー多重分類を使用する代わりに、ユークリッド距離/コサイン類似度を直接使用して、生徒ネットワークと教師ネットワークによって生成された特徴を比較します。

コーディング レート正規化項を追加すると、モデルはより識別的な表現を学習できるようになります。同時に、表現の崩壊を回避するために、教師ネットワーク出力のセンタリング シャープニングや温度調整などの手法が削除されます。

SimDINO は、コーディング レートの正規化を導入することで、特徴の崩壊を効果的に防ぎ、学習した情報に大きな情報エントロピーを持たせることで、モデルの一般化能力を向上させます。

SimDINOv2 は、DINOv2 で導入された iBOT メカニズムをさらに置き換えます。

コサイン類似度を直接使用して、マスク領域トークンと教師のネットワーク表現間のアライメントを監視し、Sinkhorn-Knopp センタリングや KoLeo 正規化などの複雑な設計は簡素化され、削除されます。

SimDINO は、オリジナルの DINO と比較してトレーニング プロセスが簡素化され、多くの面倒なコンポーネントやハイパーパラメータが削除され、モデル トレーニングの複雑さが軽減され、研究者やエンジニアがこれらのモデルを理解して実装しやすくなります。

実験的な観点から見ると、この一連の操作により、モデルのトレーニングがより安定し、パフォーマンスが向上します。

すべての評価において、DINO シリーズよりも優れていることが示されています。

SimDINO と SimDINOv2 の有効性を検証するために、研究チームは、画像分類、オブジェクト検出、セマンティックセグメンテーション、ビデオオブジェクトセグメンテーションなど、複数のデータセットとタスクに対して広範な実験評価を実施しました。

実験結果では、SimDINO シリーズが計算効率、トレーニングの安定性、下流タスクのパフォーマンスにおいて DINO シリーズよりも優れていることが示されています。

ImageNet-1K 画像分類

SimDINO と SimDINOv2 は、k-NN 分類と線形プローブを含む ImageNet-1K で評価されました。

DINOおよびDINOv2とも比較されました。

COCO val2017 教師なし物体検出とインスタンスセグメンテーション

オブジェクト検出タスクでは、研究チームは MaskCut を基本的な検出フレームワークとして使用し、COCO val2017 データセットで評価しました。

具体的には、比較は主に AP50、AP75、AP の 3 つのメトリックに焦点を当てました。

ADE20KセマンティックセグメンテーションとDAVIS-2017ビデオオブジェクトセグメンテーション

セマンティックセグメンテーションタスクでは、研究チームは線形ヘッドを使用し、ADE20Kデータセットで評価しました。

このタスクでは、主に mIoU (平均交差対結合比) と mAcc (平均ピクセル精度) を比較しました。

SimDINO は、DAVIS-2017 でも、(J&F)m、Jm、Fm という 3 つの標準指標を含む評価を実施したことも特筆に値します。

結果は、定性的な特徴の視覚化分析における DINO シリーズの作業の中でも傑出した創発的な意味表現力も発揮していることを示しています。

同時に、SimDINO と SimDINOv2 はハイパーパラメータとデータの変更に対してより堅牢です。

他の

さらに、このプロジェクト論文では、理論的分析を通じて SimDINO ハイパーパラメータの選択に関する理論を提案しています。

コーディング レート正規化項と距離項の勾配ノルムのバランスをとる方法

著者らは理論的な導出を通じて、最適化プロセス中に 2 つの項の勾配ノルムのバランスを保つハイパーパラメータ γ を選択する方法を提示しています。

下の図は、SimDINO と DINO による ViT-B/16 のトレーニング ダイナミクスを示しています。

X 軸はトレーニング エポックを表し、Y 軸は ImageNet-1K での k-NN 評価パフォーマンスを表します。

左の図は、ImageNet-1K データセットでトレーニングされた両方のモデルを示しています

最適化プロセスをわかりやすく説明するために、研究チームは初期のトレーニング段階のデータを省略しました。

右の図は、両方のモデルがCOCO train2017 データセット(ImageNet-1K の約 1/10 のサイズ)でトレーニングされたことを示しています。

検証実験の結果、SimDINO ではハイパーパラメータの調整が少なくなり、最適化プロセスが簡単になることが示されました。

研究チーム

SimDINO シリーズは、カリフォルニア大学バークレー校、Yisheng Technology、Microsoft Research、香港大学など、複数の学校や機関の研究者によって共同で開発されました。

第一著者はカリフォルニア大学バークレー校の博士課程3年生、Ziyang Wu氏で、指導教官はYi Ma氏です。

彼の主な研究分野は表現学習とマルチモーダル学習であり、数学と統計理論を通じて効率的で解釈可能なディープラーニングモデルの構築に取り組んでいます。

ウー・ズィヤン氏は以前、コーネル大学で学部と修士の学位を取得していました。

論文の最後で、SimDINO 研究チームはさらに、SimDINO の改善に向けたいくつかの潜在的な方向性を提案しました。

  • SimDINO フレームワークに基づいて、自己蒸留最適化を必要としない自己教師型目標をさらに探求します。
  • 簡素化されたフレームワークは、自己教師学習の理論的分析のためのより良い入り口を提供します。
  • 「暗黙的な設計選択を明示的に行う」というパラダイムを他のフレームワークに拡張し、他のモデルを簡素化および改善する方法を刺激して模索します。

論文の宛先:

プロジェクトのホームページ: https://arxiv.org/abs/2502.10385

https://robinwu218.github.io/… GitHub:

https://github.com/RobinWu218...