|
DeepSeek-R1 の画期的なディープ推論パフォーマンスをマルチモーダル シナリオに適用するとどうなるでしょうか? これまで、DeepSeek 独自の Janus-Pro-7B には推論機能が組み込まれていなかったが、現在、中国の研究チームが初めてこれを実現した。 北京大学は、独自に開発したフルモーダルフレームワークAlign-Anythingをベースに、香港科技大学と共同でDeepSeek-R1のマルチモーダルバージョンをリリースしました。 Align-DS-V は、いくつかの視覚理解パフォーマンス評価セットで GPT-4o よりも優れたパフォーマンスを発揮します。 写真とテキストを組み合わせて、どの飲み物がダイエットに最適かを尋ねると、Align-DS-Vは写真に写っている飲み物の数と名前を正確に指摘し、ダイエットに最も適した飲み物は「低糖質プレーン豆乳」であると教えてくれます。 さらに、写真のプレーン豆乳も減量期間中の摂取に適していると指摘しています。 さらに重要なことは、DeepSeek-R1 に「目が生える」ようにする過程で、研究者らは、テキスト モード推論を行うモデルの能力の向上に対するモード浸透の効果も発見したことです。 具体的には、DeepSeek-R1 を完全にモーダル化する試みの中で、チームは、マルチモーダル トレーニングの後、モデルがテキストベースのタスクだけでなく、科学的タスク、複雑な推論、数学的コードでもパフォーマンスを向上させることを発見しました。 特に注目すべきは、ARC チャレンジ (5 ショット) のスコアがシングルモーダルの 21.4 からマルチモーダルの 40.5 に向上したことです。 これに基づき、チームは、現在のマルチモーダル大規模モデルはすでに強力なクロスモーダル浸透および融合認識機能を備えており、世界知識とコンテキスト学習機能を組み合わせることで、複数のモダリティ(画像、テキスト、音声、ビデオなど)の効率的な推論と共同出力を実現できると考えています。 世界知識を深く統合することにより、テキスト モダリティにおけるモデルの推論境界が拡張されます。 モーダル浸透能力を備えたフルモーダルアライメント(Align-Anything)人間が日常生活で受け取る情報は、多くの場合マルチモーダルです。「強い推論と遅い思考」を、単一テキストのモダリティからより多くのモダリティ、さらにはマルチモーダルなシナリオへと拡張する傾向にあることは否定できません。 これを踏まえて、フルモーダルの大規模モデルを人間の意図に合わせることも、非常に将来を見据えた重要な課題です。 単一テキストモーダルシナリオでは、多くの複雑な推論タスクがルールベースの報酬を通じて監督信号を提供し、人間の意図や好みの伝達者として機能します。 しかし、テキストベースのモダリティからマルチモーダル、さらにはフルモーダルのシナリオに拡張すると、多くの問題が発生します。
入力空間と出力空間の分布が広くなり、幻覚現象が激化すると、完全なモーダル調整がより複雑になります。 マルチモーダルアライメント研究をさらに推進するために、研究チームは、大規模なマルチモーダルモデルを人間の意図や価値観に合わせることを目的としたAlign-Anythingフレームワークを提案しました。 ここでの完全なモダリティには、テキストからテキスト、テキストから画像、テキストからテキスト、テキストからビデオなど、あらゆる入力および出力モダリティが含まれます。 全体として、このフレームワークは、高度にモジュール化され、スケーラブルで、使いやすいアライメントトレーニングフレームワークとして設計されています。テキスト、画像、ビデオ、オーディオという4つの基本モダリティから派生したあらゆるモーダルモデルのアライメントの微調整をサポートし、フレームワークのアライメントアルゴリズム実装の正確性を検証します。 このフレームワークには次の特性があります。
言い換えれば、Align-Anything チームは、データセット、アルゴリズム、評価、コードベースという 4 つの側面でオープンソース リソースを提供しました。
一方、フルモーダルアライメントモデルのさらなる開発を促進するために、研究チームは初のフルモーダル人間嗜好データセットであるAlign-Anythingをリリースしました。 単一のモダリティに焦点を当て、品質が異なる既存の嗜好データセットとは異なり、Align-Anything は、入力と出力の両方にあらゆるモダリティを含む高品質のデータを提供します。 これは、批評と改善のための微妙な言語的フィードバックとともに、人間の好みの詳細な注釈を提供し、それによってモダリティ全体にわたる包括的な評価と改善を可能にすることを目的としています。 マルチモーダル機能を備えたDeepseek-R1: Align-DS-V次に、チームは、Deepseek-R1 がマルチモーダル シナリオでどのように機能するかを検討し始めました。 Align-Anything チームは、LLaVA のトレーニング アプローチからインスピレーションを得て、プロジェクター レイヤーをトレーニングすることで Vision Encoder の出力を言語表現空間にマッピングし、DeepSeek-R1 の視覚的モダリティを拡張しました。 Align-Anything ライブラリでは、チームはトレーニング プロセス全体をオープンソース化しました。 まず、Deepseek-R1シリーズのモデルに基づいて、「テキスト + 画像 -> テキスト」アーキテクチャを構築します。例えば、次のスクリプトは: 新しいマルチモーダル モデルでは、入力画像 Xv は視覚エンコーダーによって処理されて特徴が抽出され、中間表現 Zv が生成されます。その後、中間表現 Zv は投影層を介してマッピングされ、視覚表現 Hv が得られます。 同時に、言語命令Xqが処理され、言語表現Hqが生成されます。 これらの視覚的特徴と言語的特徴は言語モデルに入力され、言語モデルは 2 種類の情報を組み合わせて推論し、最終的にテキスト応答を生成します。 モダリティ拡張 DeepSeek-R1 アーキテクチャを構築した後、特定のトレーニングは次の 2 つのステップに分かれます。 最初のステップは、プロジェクター レイヤーを除くすべてのモデル パラメーターを固定し、ビジュアル エンコーダーを通過した視覚表現を言語表現空間にマッピングできるようにプロジェクター レイヤーを事前トレーニングすることです。 2 番目のステップでは、プロジェクター層と大規模言語モデルを同時に微調整して、言語モデルのマルチモーダル推論機能を刺激します。 トレーニングが成功した後、研究者はDeepSeek-R1 シリーズ モデルのマルチモーダル バージョンを Align-DS-V と名付けました。 以下は、さまざまな視覚理解パフォーマンス評価セットでの Align-DS-V のパフォーマンスです (GPT-4o と比較)。 ご覧のとおり、Align-DS-V は、一部の評価セット(llava-bench-coco など)では GPT-4o よりも優れています。 さらに、より重要なこととして、研究チームは、モーダル浸透がモデルのテキストモーダル推論能力の向上に及ぼす効果も発見しました。 具体的には、DeepSeek-R1 を完全にモーダルにしようとした研究チームは、マルチモーダル トレーニングを行った後、テキスト モーダル タスクにおけるモデルのパフォーマンスが向上し、科学的タスク、複雑な推論、数学的コードにおけるパフォーマンスも向上したことを発見しました。 特に注目すべきは、ARC チャレンジ (5 ショット) のスコアがシングルモーダルの 21.4 からマルチモーダルの 40.5 に向上したことです。 チームは、「スローシンキングプッシュ機能」の継続的な自己進化に基づいて、モデルの機能が単一モダリティの限界を突破し、クロスモダリティの浸透の深さが大幅に向上したと考えています。 世界知識を深く統合することにより、テキスト モダリティにおけるモデルの推論境界が拡張されます。 フルモーダル推論モデルの垂直アプリケーションでの機能を検証するために、R&D チームは Align-DS-V を香港の価値観に合わせてローカライズし、Align-DS-V が広東語、英語、北京語の混合言語入力に適応できるようにしました。 このプロセスは、MTR の更新、台風警報、オクトパス カードの支払いなど、香港のローカル生活シナリオを深く統合します。 繁体字中国語の文字を含む画像やテキストを含む数学の問題に直面した場合、Align-DS-V は画像とテキストのモーダル情報を正確にリンクできます。 図に示すように、厳密な数学的導出を使用して解決プロセスを段階的に示し、教育などの業界での応用の信頼できる見通しを示しています。 北京大学と香港科技大学が共同でプロジェクトを開発し、オープンソース化し、維持しました。Align-Anything と Align-DS-Vは、北京大学と香港科技大学が共同で開発しました。 現在、Align-Anything フレームワークと DeepSeek-R1 のマルチモーダル バージョンである Align-DS-V は両方ともオープン ソースであり、チームは協力して長期的に保守していきます(リンクは記事の最後にあります)。 共同研究チームの一員である北京大学アライメントチームは、人工知能システムにおける安全な相互作用と価値の整合に重点を置いています。 チームのアドバイザーは、北京大学人工知能研究所の助教授、ヤン・ヤオドン氏です。 共同研究チームの一員である香港ジェネレーティブAI研究開発センター(HKGAI)は、2023年10月に設立され、香港の人工知能エコシステムの発展を促進することに専念しています。 このセンターは、香港科技大学の副学長である郭一科教授が率いています。 QuantumBitによると、北京大学-霊竹共同研究室はAlign-DS-Vをベースに、 VLA(視覚言語動作モデル)の分野をより深く探求し始めたという。 Lingchu が開発している VLA モデルは、脳端での調整と微調整にマルチモーダルな大規模モデルを使用し、小脳端のコントローラにアクション トークンを出力します。その後、小脳端のコントローラは、入力トークンとその他のモーダル情報に基づいて、特定のロボット制御命令を出力します。 これら両方のプロセスでは、大規模なマルチモーダル モデルに対して、事後トレーニングと微調整のテクニックを使用する必要があります。 北京大学-霊竹共同研究室は、Align-DS-Vのマルチモーダル強力推論能力がVLAモデルの脳の核心であると述べています。今後の研究・訓練計画は、マルチモーダル推論モデルのクロスモーダル浸透能力を活用して行動浸透を実現し、最終的に真に効率的なVLAモデルを実現することです。 同じトレーニング後のテクニックを小脳末端コントローラーの微調整に適用して、より高い成功率、一般化、堅牢性を実現することもできます。 Align-Anything フレームワークのオープンソース アドレス: |
マルチモーダルDeepSeek-R1:ベンチマークでGPT-4oを上回り、モーダルペネトレーションによりテキスト推論能力を強化!北京大学と香港科技大学によって開発され、オープンソース化されました。
関連するおすすめ記事
-
大規模なモデルを開発していないインターネット企業が、AI 変革エクスペリエンスの第一波の先駆者となっています。
-
Haomoの最新の全社員向けレター:インテリジェント運転コンテストは「生死を分ける」戦いであり、全員が危機を認識しなければなりません。
-
大規模モデルのセキュリティに影響を与えるものは何でしょうか?NeurIPS'24 の新しい研究では、大規模モデルの脱獄攻撃に対する新しいベンチマークと評価システムが提案されています。
-
Alibaba International は、世界初の B2B AI 検索エンジンである Accio をリリースし、AI 検索分野に参入しました。
-
画期的な 3nm Android AI チップがリリースされ、インターネット接続なしでビデオを生成できるようになりました。
-
10 行のコードにより、大規模モデルの数学的パフォーマンスが 20% 向上しました。Google もこの型破りな研究方法をテストしました。