|
北京大学などが開発した O1 モデルの最初のマルチモーダル オープンソース バージョンが登場しました。 コードネームLLaVA-o1のこのロボットは、Llama-3.2-Vision モデルに基づいて構築されており、従来の思考連鎖プロンプトを超えて、自律的な「スローシンキング」推論を実現します。 マルチモーダル推論ベンチマークテストでは、LLaVA-o1 はベースモデルを 8.9%上回り、パフォーマンスの面では多数のオープンソースおよびクローズドソースモデルを上回りました。 新しいモデルがどのように推論するかを説明するために、次の質問のような例を見てみましょう。 小さな明るいボールと紫色の物体をすべて差し引いた後、残っている物体の数はいくつですか?選択肢:A. 4個、B. 8個、C. 2個、D. 6個 従来のプロンプト方法は依然として古いアプローチに従っています。Llama-3.2-11B-Vision-Instruct を例に挙げてみましょう。 最初のステップは、すべての小さな明るいボールを減算することです。 出力の集中により、誤った回答が得られました。 LLaVA-o1 の推論プロセスをもう一度見てみましょう。 まとめフェーズ: 何が問題なのか? 何をすべきか? 明らかに違うと思いませんか?その通りです。LLaVA-o1は従来のCOT思考チェーンを超越し、構造化された多段階の推論を採用しています。 簡単に言えば、推論プロセスを 4 つの段階に分割し、各段階で最善の戦略を使用して次の段階への応答を提供します。 ネットユーザーが最新の結果を見て「必要なのは控除だけだ!」と叫んだのも不思議ではありません。 モデルがさらに考えることを許可するということは、マルチモーダル領域でも同様に当てはまるようです。 「自発的かつ体系的な推論が可能な初の視覚言語モデル」最近発表されたO1モデルにより、COT(意識指向思考)推論モデルへの関心が再燃しました。(人間のように段階的に考える) したがって、モデルにさらに考えさせることでその機能が向上するかどうかが、新たな研究のホットスポットになっています。 北京大学のチームは、O1のような汎用的な大規模言語モデルに加えて、マルチモーダル学習の分野にも目を向けています。 彼らは、従来の COT 思考チェーンを超越し、構造化された多段階の推論を採用し、o1 モデルのマルチモーダル バージョンである LLaVA-o1 を立ち上げました。 著者はまず、最近の VLM モデルは似たような名前を持っているものの、LLaVA-o1 は LLaVA ではなく Llama-3.2-Vision モデルに基づいていることを明らかにしました。 では、LLaVA-o1 は段階的な推論を学習することでどの程度の改善を達成するのでしょうか? 論文によると、 10万のトレーニング サンプルを含むデータセットのみを使用して、LLaVA-o1 はマルチモーダル推論ベンチマークでベース モデルを 8.9%上回り、パフォーマンスの面でも大規模なモデルを上回りました。 これには、Gemini-1.5-pro、GPT-4o-mini、Llama-3.2-90B-Vision-Instruct などのクローズドソース モデルも含まれます。 この改善に関して、チームはその背後にある主な理由も発見しました。 構造化された応答により、モデルのシステム推論機能が大幅に向上します。 LLaVA-o1 をより構造化かつ体系的にするために、チームはモデルが現在の推論段階を識別するのに役立つ4 つのラベルを設計し、GPT-4o を使用して LLaVA-o1-100k データセットを生成しました。
LLaVA-o1 はこれらのタグを使用して、推論プロセスを要約、キャプション、推論、結論の 4 つの異なる段階に分割します。 思考連鎖の手がかりとは異なり、LLaVA-o1 はこれらの連続した段階に独立して参加します。 ただし、LLaVA-o1 の推論プロセスでは、最初の 3 つの段階は内部で処理され (ユーザーには表示されません)、最後の結論段階はユーザーが直接確認して操作できる点に注意してください。 この設計により、モデルは複雑な推論の詳細をユーザーに公開することなく、明確かつ正確な回答を提供できます。 次に、LLaVA-o1 は、教師あり微調整とステージレベルのビーム検索方式を通じて、推論機能と推論時間のスケーラビリティをさらに強化します。 ここでは、チームが提案したステージレベルのビーム探索法に焦点を当てます。 簡単に言うと、チームは各ステージに対して複数の応答(タグでラベル付け)を生成し、最適なものを選択して次のステージに進みます。 より具体的には、これは推論時間のスケーリングのための手法です。従来の手法とは異なり、ステージレベルビームサーチは、モデル推論プロセスにおける独立した各ステージに焦点を当てます。 このアプローチでは、モデルは各推論段階で複数の候補結果を生成し、その中から最適な結果を選択して次の段階で推論を続行します。 モデルが各段階で選択と最適化を行えるようになるため、推論の全体的な品質が向上します。 この段階的な検索戦略により、LLaVA-o1 は、特に複雑なマルチモーダル推論タスクを処理する際に、より効果的に推論を実行できます。 最後に、Llama-3.2-11B-Vision-Instruct モデルを微調整した結果は次のとおりです。 LLaVA-o1 は、100,000 個のトレーニング サンプルと単純な推論時間延長法を使用したマルチモーダル推論ベンチマークで 8.9% のパフォーマンス向上を達成し、同様のサイズのモデルや、より大規模なモデル、クローズド ソース モデルよりも優れたパフォーマンスを発揮しました。 北京大学、彭城研究所などのチームによって制作されました。この研究を支えるチームについて見ていきましょう。著者は全部で6名おり、以下で一人ずつ紹介していきます。 Guowei Xuは現在、清華大学姚クラスの学部生であり、強化学習、ロボット工学、科学分野における AI アプリケーションに興味を持っています。 昨年の入学以来、数々の国際学会での論文発表に参加し、2024年度新入生最優秀賞を受賞しました。 金鹏(ペン・ジン)は清華大学で学士号を取得し、現在は北京大学で袁李(ユアン・リー)の指導のもと博士課程3年生です。 彼はテキスト・ビデオ検索、クロスモーダル表現学習、マルチモーダル大規模言語モデルに興味を持っています。2022年9月以降、11本の論文がトップカンファレンスに採択されています。 李昊(ハオ・リー)も彼と同様に北京大学の博士課程3年生で、袁李(ユアン・リー)の指導を受けています。しかし、李昊は以前、北京大学のコンピュータサイエンス学部を卒業しています。 李昊氏は、マルチモーダル学習、視覚理解、そして化学科学における人工知能に興味を持っています。これまでに、トップクラスの国際会議で20本以上の論文を発表し、Google Scholarでの引用数は合計300件を超えています。 彼らの先生であるYuan Liは、おそらく QuantumBit の読者にはよく知られているでしょう。 袁麗は現在、北京大学深圳大学院の助教授を務め、マルチモーダルディープラーニングの研究を専門としています。彼女の筆頭著者論文は1000回以上引用されています。 彼のチームは、ソーシャル メディアで頻繁にトレンドになる ChatExcel や ChatLaw などの垂直型製品を開発しました。 他の2人の著者: 宋一冰は現在、アリババDAMOアカデミーの研究者/研究マネージャーです。以前は復旦大学の教員、テンセントAIラボのシニア研究員を務めていました。 彼は現在、主にマルチモーダルAIに関心を持ち、これまでに50本以上の一流論文を発表しています。また、スタンフォード大学から世界トップ2%の科学者の一人に選出されています。 Lichao Sunは現在、米国レック大学のコンピュータサイエンスおよびエンジニアリング学部の助教授です。 彼は2020年にイリノイ大学シカゴ校でコンピューターサイエンスの博士号を取得しました。 また、2024 Microsoft Accelerated Foundation Model Research Award、2024 OpenAI Researcher Award、NSF CRII Award など、数々の賞を受賞しています。 次に、チームは、LLaVA-o1 のコード、事前トレーニング済みの重み、データセット、およびその他のコンポーネントがまもなくオープンソース化されることを発表しました。 興味のある方は注目してください! |
北京大学などがo1のマルチモーダル版をリリース!最初のスローシンキングVLMはオープンソース、視覚推論は超クローズドソース。
関連するおすすめ記事
-
アジェンダ紹介 | Rust 技術フォーラム
-
Ant Financial の革新的なクロスドメイン微調整フレームワーク ScaleOT が、世界トップクラスの AI カンファレンスである AAAI 2025 に選ばれました。
-
15万台!NIOのModel Yが発売:900Vスーパーチャージで3分でバッテリー交換、ビジョンベースのインテリジェント運転ソリューションも初登場、すでに注文が急増中。
-
Bengio の新たな開発: AI システムの適切な動作を保証するための世界モデル + 数学的証明。
-
AIが物理世界をより深く理解できるようにする!中国人民大学、北京郵電大学、上海AIラボなどが提案する新たなマルチモーダルセグメンテーション手法
-
Appleがデスクランプをロボットに変身させました!動きを通して感情を表現し、ロボットのインタラクションを再定義します。