618ZXW

マルチモーダルDeepSeek-R1:ベンチマークでGPT-4oを上回り、モーダルペネトレーションによりテキスト推論能力を強化!北京大学と香港科技大学によって開発され、オープンソース化されました。

DeepSeek-R1 の画期的なディープ推論パフォーマンスをマルチモーダル シナリオに適用するとどうなるでしょうか?

これまで、DeepSeek 独自の Janus-Pro-7B には推論機能が組み込まれていなかったが、現在、中国の研究チームが初めてこれを実現した。

北京大学は、独自に開発したフルモーダルフレームワークAlign-Anythingをベースに、香港科技大学と共同でDeepSeek-R1のマルチモーダルバージョンをリリースしました

Align-DS-V は、いくつかの視覚理解パフォーマンス評価セットで GPT-4o よりも優れたパフォーマンスを発揮します。

写真とテキストを組み合わせて、どの飲み物がダイエットに最適かを尋ねると、Align-DS-Vは写真に写っている飲み物の数と名前を正確に指摘し、ダイエットに最も適した飲み物は「低糖質プレーン豆乳」であると教えてくれます。

さらに、写真のプレーン豆乳も減量期間中の摂取に適していると指摘しています。

さらに重要なことは、DeepSeek-R1 に「目が生える」ようにする過程で、研究者らは、テキスト モード推論を行うモデルの能力の向上に対するモード浸透の効果も発見したことです。

具体的には、DeepSeek-R1 を完全にモーダル化する試みの中で、チームは、マルチモーダル トレーニングの後、モデルがテキストベースのタスクだけでなく、科学的タスク、複雑な推論、数学的コードでもパフォーマンスを向上させることを発見しました。

特に注目すべきは、ARC チャレンジ (5 ショット) のスコアがシングルモーダルの 21.4 からマルチモーダルの 40.5 に向上したことです。

これに基づき、チームは、現在のマルチモーダル大規模モデルはすでに強力なクロスモーダル浸透および融合認識機能を備えており、世界知識とコンテキスト学習機能を組み合わせることで、複数のモダリティ(画像、テキスト、音声、ビデオなど)の効率的な推論と共同出力を実現できると考えています。

世界知識を深く統合することにより、テキスト モダリティにおけるモデルの推論境界が拡張されます。

モーダル浸透能力を備えたフルモーダルアライメント(Align-Anything)

人間が日常生活で受け取る情報は、多くの場合マルチモーダルです。「強い推論と遅い思考」を、単一テキストのモダリティからより多くのモダリティ、さらにはマルチモーダルなシナリオへと拡張する傾向にあることは否定できません

これを踏まえて、フルモーダルの大規模モデルを人間の意図に合わせることも、非常に将来を見据えた重要な課題です。

単一テキストモーダルシナリオでは、多くの複雑な推論タスクがルールベースの報酬を通じて監督信号を提供し、人間の意図や好みの伝達者として機能します。

しかし、テキストベースのモダリティからマルチモーダル、さらにはフルモーダルのシナリオに拡張すると、多くの問題が発生します

  • モダリティの数が増えるにつれて、従来の二項選好やルールベースの報酬は、人間の意図の多面的または階層的な選好を捉えることができるでしょうか?
  • マルチモーダルアプローチを完全なモーダル空間に拡張すると、モーダルインタラクションはより複雑になります。強化学習手法にはどのような改善が必要でしょうか?
  • 異なるモダリティ間の報酬信号モデリングにおいて、モダリティ固有の情報とモダリティ共有の情報をどのように統合できるでしょうか?
  • ...

入力空間と出力空間の分布が広くなり、幻覚現象が激化すると、完全なモーダル調整がより複雑になります。

マルチモーダルアライメント研究をさらに推進するために、研究チームは、大規模なマルチモーダルモデルを人間の意図や価値観に合わせることを目的としたAlign-Anythingフレームワークを提案しました。

ここでの完全なモダリティには、テキストからテキスト、テキストから画像、テキストからテキスト、テキストからビデオなど、あらゆる入力および出力モダリティが含まれます。

全体として、このフレームワークは、高度にモジュール化され、スケーラブルで、使いやすいアライメントトレーニングフレームワークとして設計されています。テキスト、画像、ビデオ、オーディオという4つの基本モダリティから派生したあらゆるモーダルモデルのアライメントの微調整をサポートし、フレームワークのアライメントアルゴリズム実装の正確性を検証します。

このフレームワークには次の特性があります。

  • 高度なモジュール化: さまざまなアルゴリズム タイプの抽象化と適切に設計された API により、ユーザーはさまざまなタスクに合わせてコードを変更およびカスタマイズできるほか、カスタマイズされたモデルやデータセットの登録などの高度な拡張使用も可能です。
  • 任意のモーダル モデルにわたる微調整をサポート: LLaMA3.2、LLaVA、Chameleon、Qwen2-VL、Qwen2-Audio、Diffusion など、複数のモーダル生成と理解にまたがる大規模なモデルを微調整する機能が含まれています。
  • さまざまなアライメント方法をサポート: SFT、DPO、PPO などの従来のアルゴリズムや、ORPO、SimPO、KTO などの新しいアルゴリズムを含む、任意のモダリティでの複数のアライメント アルゴリズムをサポートします。
  • 複数のオープンソースおよびクローズド ソースのアライメント評価をサポート: MMBench や VideoMME などのマルチモーダル理解評価、FID や HPSv2 などのマルチモーダル生成評価を含む 30 を超えるマルチモーダル評価ベンチマークをサポートします。

言い換えれば、Align-Anything チームは、データセット、アルゴリズム、評価、コードベースという 4 つの側面でオープンソース リソースを提供しました。

  • データ: 画像、テキスト、ビデオ、音声など、あらゆるモダリティを網羅した、人間の言語フィードバックとバイナリ設定を含む 20 万のデータセット。
  • アルゴリズム: 言語フィードバックから学習した合成データパラダイムにより、RLHF 後のトレーニング方法のパフォーマンスが大幅に向上します。
  • 評価: フルモーダル モデルのモーダル リンクとモーダル選択の評価。
  • コード ライブラリ: 画像、テキスト、ビデオ、オーディオなど、あらゆるモダリティのトレーニングと評価をサポートするコード フレームワーク。

一方、フルモーダルアライメントモデルのさらなる開発を促進するために、研究チームは初のフルモーダル人間嗜好データセットであるAlign-Anythingをリリースしました。

単一のモダリティに焦点を当て、品質が異なる既存の嗜好データセットとは異なり、Align-Anything は、入力と出力の両方にあらゆるモダリティを含む高品質のデータを提供します。

これは、批評と改善のための微妙な言語的フィードバックとともに、人間の好みの詳細な注釈を提供し、それによってモダリティ全体にわたる包括的な評価と改善を可能にすることを目的としています。

マルチモーダル機能を備えたDeepseek-R1: Align-DS-V

次に、チームは、Deepseek-R1 がマルチモーダル シナリオでどのように機能するかを検討し始めました。

Align-Anything チームは、LLaVA のトレーニング アプローチからインスピレーションを得て、プロジェクター レイヤーをトレーニングすることで Vision Encoder の出力を言語表現空間にマッピングし、DeepSeek-R1 の視覚的モダリティを拡張しました。

Align-Anything ライブラリでは、チームはトレーニング プロセス全体をオープンソース化しました

まず、Deepseek-R1シリーズのモデルに基づいて、「テキスト + 画像 -> テキスト」アーキテクチャを構築します。例えば、次のスクリプトは:

新しいマルチモーダル モデルでは、入力画像 Xv は視覚エンコーダーによって処理されて特徴が抽出され、中間表現 Zv が生成されます。その後、中間表現 Zv は投影層を介してマッピングされ、視覚表現 Hv が得られます。

同時に、言語命令Xqが処理され、言語表現Hqが生成されます。

これらの視覚的特徴と言語的特徴は言語モデルに入力され、言語モデルは 2 種類の情報を組み合わせて推論し、最終的にテキスト応答を生成します。

モダリティ拡張 DeepSeek-R1 アーキテクチャを構築した後、特定のトレーニングは次の 2 つのステップに分かれます。

最初のステップは、プロジェクター レイヤーを除くすべてのモデル パラメーターを固定し、ビジュアル エンコーダーを通過した視覚表現を言語表現空間にマッピングできるようにプロジェクター レイヤーを事前トレーニングすることです。

2 番目のステップでは、プロジェクター層と大規模言語モデルを同時に微調整して、言語モデルのマルチモーダル推論機能を刺激します。

トレーニングが成功した後、研究者はDeepSeek-R1 シリーズ モデルのマルチモーダル バージョンを Align-DS-V と名付けました

以下は、さまざまな視覚理解パフォーマンス評価セットでの Align-DS-V のパフォーマンスです (GPT-4o と比較)。

ご覧のとおり、Align-DS-V は、一部の評価セット(llava-bench-coco など)では GPT-4o よりも優れています

さらに、より重要なこととして、研究チームは、モーダル浸透がモデルのテキストモーダル推論能力の向上に及ぼす効果も発見しました。

具体的には、DeepSeek-R1 を完全にモーダルにしようとした研究チームは、マルチモーダル トレーニングを行った後、テキスト モーダル タスクにおけるモデルのパフォーマンスが向上し、科学的タスク、複雑な推論、数学的コードにおけるパフォーマンスも向上したことを発見しました

特に注目すべきは、ARC チャレンジ (5 ショット) のスコアがシングルモーダルの 21.4 からマルチモーダルの 40.5 に向上したことです。

チームは、「スローシンキングプッシュ機能」の継続的な自己進化に基づいて、モデルの機能が単一モダリティの限界を突破し、クロスモダリティの浸透の深さが大幅に向上したと考えています。

世界知識を深く統合することにより、テキスト モダリティにおけるモデルの推論境界が拡張されます。

フルモーダル推論モデルの垂直アプリケーションでの機能を検証するために、R&D チームは Align-DS-V を香港の価値観に合わせてローカライズし、Align-DS-V が広東語、英語、北京語の混合言語入力に適応できるようにしました。

このプロセスは、MTR の更新、台風警報、オクトパス カードの支払いなど、香港のローカル生活シナリオを深く統合します。

繁体字中国語の文字を含む画像やテキストを含む数学の問題に直面した場合、Align-DS-V は画像とテキストのモーダル情報を正確にリンクできます。

図に示すように、厳密な数学的導出を使用して解決プロセスを段階的に示し、教育などの業界での応用の信頼できる見通しを示しています。

北京大学と香港科技大学が共同でプロジェクトを開発し、オープンソース化し、維持しました。

Align-Anything と Align-DS-Vは、北京大学と香港科技大学が共同で開発しました

現在、Align-Anything フレームワークと DeepSeek-R1 のマルチモーダル バージョンである Align-DS-V は両方ともオープン ソースであり、チームは協力して長期的に保守していきます(リンクは記事の最後にあります)。

共同研究チームの一員である北京大学アライメントチームは、人工知能システムにおける安全な相互作用と価値の整合に重点を置いています。

チームのアドバイザーは、北京大学人工知能研究所の助教授、ヤン・ヤオドン氏です。

共同研究チームの一員である香港ジェネレーティブAI研究開発センター(HKGAI)は、2023年10月に設立され、香港の人工知能エコシステムの発展を促進することに専念しています。

このセンターは、香港科技大学の副学長である郭一科教授が率いています。

QuantumBitによると、北京大学-霊竹共同研究室はAlign-DS-Vをベースに、 VLA(視覚言語動作モデル)の分野をより深く探求し始めたという。

Lingchu が開発している VLA モデルは、脳端での調整と微調整にマルチモーダルな大規模モデルを使用し、小脳端のコントローラにアクション トークンを出力します。その後、小脳端のコントローラは、入力トークンとその他のモーダル情報に基づいて、特定のロボット制御命令を出力します。

これら両方のプロセスでは、大規模なマルチモーダル モデルに対して、事後トレーニングと微調整のテクニックを使用する必要があります。

北京大学-霊竹共同研究室は、Align-DS-Vのマルチモーダル強力推論能力がVLAモデルの脳の核心であると述べています。今後の研究・訓練計画は、マルチモーダル推論モデルのクロスモーダル浸透能力を活用して行動浸透を実現し、最終的に真に効率的なVLAモデルを実現することです。

同じトレーニング後のテクニックを小脳末端コントローラーの微調整に適用して、より高い成功率、一般化、堅牢性を実現することもできます。

Align-Anything フレームワークのオープンソース アドレス:
https://github.com/PKU-Alignm... Align-DS-V オープンソース アドレス:
https://huggingface.co/PKU-Al...