北京大学などがo1のマルチモーダル版をリリース！最初のスローシンキングVLMはオープンソース、視覚推論は超クローズドソース。

北京大学などが開発した O1 モデルの最初のマルチモーダルオープンソースバージョンが登場しました。

コードネームLLaVA-o1のこのロボットは、Llama-3.2-Vision モデルに基づいて構築されており、従来の思考連鎖プロンプトを超えて、自律的な「スローシンキング」推論を実現します。

マルチモーダル推論ベンチマークテストでは、LLaVA-o1 はベースモデルを 8.9%上回り、パフォーマンスの面では多数のオープンソースおよびクローズドソースモデルを上回りました。

新しいモデルがどのように推論するかを説明するために、次の質問のような例を見てみましょう。

小さな明るいボールと紫色の物体をすべて差し引いた後、残っている物体の数はいくつですか？選択肢：A. 4個、B. 8個、C. 2個、D. 6個

従来のプロンプト方法は依然として古いアプローチに従っています。Llama-3.2-11B-Vision-Instruct を例に挙げてみましょう。

最初のステップは、すべての小さな明るいボールを減算することです。
2 番目のステップは、すべての紫色のオブジェクトを減算することです。
最後に答えが示されます。小さな明るいボールをすべて取り除き、最初から紫色の物体はなかったことを考えると、正解は C. 2 です。

出力の集中により、誤った回答が得られました。

LLaVA-o1 の推論プロセスをもう一度見てみましょう。

まとめフェーズ: 何が問題なのか? 何をすべきか?
注釈フェーズ: この画像から何がわかるでしょうか?
推論フェーズ: 問題を段階的に解決するにはどうすればよいでしょうか?
結論フェーズ: 最終的な答えは何でしょうか?

明らかに違うと思いませんか？その通りです。LLaVA-o1は従来のCOT思考チェーンを超越し、構造化された多段階の推論を採用しています。

簡単に言えば、推論プロセスを 4 つの段階に分割し、各段階で最善の戦略を使用して次の段階への応答を提供します。

ネットユーザーが最新の結果を見て「必要なのは控除だけだ！」と叫んだのも不思議ではありません。

モデルがさらに考えることを許可するということは、マルチモーダル領域でも同様に当てはまるようです。

「自発的かつ体系的な推論が可能な初の視覚言語モデル」

最近発表されたO1モデルにより、COT（意識指向思考）推論モデルへの関心が再燃しました。（人間のように段階的に考える）

したがって、モデルにさらに考えさせることでその機能が向上するかどうかが、新たな研究のホットスポットになっています。

北京大学のチームは、O1のような汎用的な大規模言語モデルに加えて、マルチモーダル学習の分野にも目を向けています。

彼らは、従来の COT 思考チェーンを超越し、構造化された多段階の推論を採用し、o1 モデルのマルチモーダルバージョンである LLaVA-o1 を立ち上げました。

著者はまず、最近の VLM モデルは似たような名前を持っているものの、LLaVA-o1 は LLaVA ではなく Llama-3.2-Vision モデルに基づいていることを明らかにしました。

では、LLaVA-o1 は段階的な推論を学習することでどの程度の改善を達成するのでしょうか?

論文によると、 10万のトレーニングサンプルを含むデータセットのみを使用して、LLaVA-o1 はマルチモーダル推論ベンチマークでベースモデルを 8.9%上回り、パフォーマンスの面でも大規模なモデルを上回りました。

これには、Gemini-1.5-pro、GPT-4o-mini、Llama-3.2-90B-Vision-Instruct などのクローズドソースモデルも含まれます。

この改善に関して、チームはその背後にある主な理由も発見しました。

構造化された応答により、モデルのシステム推論機能が大幅に向上します。

LLaVA-o1 をより構造化かつ体系的にするために、チームはモデルが現在の推論段階を識別するのに役立つ4 つのラベルを設計し、GPT-4o を使用して LLaVA-o1-100k データセットを生成しました。

<概要>: このモデルでは、後続のタスクについて簡単に説明します。
<タイトル>: 画像の重要な詳細を説明します (ある場合)。
理由:この問題を詳細に分析します。
結論: 分析に基づいて最終的な答えを提供します。

LLaVA-o1 はこれらのタグを使用して、推論プロセスを要約、キャプション、推論、結論の 4 つの異なる段階に分割します。

思考連鎖の手がかりとは異なり、LLaVA-o1 はこれらの連続した段階に独立して参加します。

ただし、LLaVA-o1 の推論プロセスでは、最初の 3 つの段階は内部で処理され (ユーザーには表示されません)、最後の結論段階はユーザーが直接確認して操作できる点に注意してください。

この設計により、モデルは複雑な推論の詳細をユーザーに公開することなく、明確かつ正確な回答を提供できます。

次に、LLaVA-o1 は、教師あり微調整とステージレベルのビーム検索方式を通じて、推論機能と推論時間のスケーラビリティをさらに強化します。

ここでは、チームが提案したステージレベルのビーム探索法に焦点を当てます。

簡単に言うと、チームは各ステージに対して複数の応答（タグでラベル付け）を生成し、最適なものを選択して次のステージに進みます。

より具体的には、これは推論時間のスケーリングのための手法です。従来の手法とは異なり、ステージレベルビームサーチは、モデル推論プロセスにおける独立した各ステージに焦点を当てます。

このアプローチでは、モデルは各推論段階で複数の候補結果を生成し、その中から最適な結果を選択して次の段階で推論を続行します。

モデルが各段階で選択と最適化を行えるようになるため、推論の全体的な品質が向上します。

この段階的な検索戦略により、LLaVA-o1 は、特に複雑なマルチモーダル推論タスクを処理する際に、より効果的に推論を実行できます。

最後に、Llama-3.2-11B-Vision-Instruct モデルを微調整した結果は次のとおりです。

LLaVA-o1 は、100,000 個のトレーニングサンプルと単純な推論時間延長法を使用したマルチモーダル推論ベンチマークで 8.9% のパフォーマンス向上を達成し、同様のサイズのモデルや、より大規模なモデル、クローズドソースモデルよりも優れたパフォーマンスを発揮しました。

北京大学、彭城研究所などのチームによって制作されました。

この研究を支えるチームについて見ていきましょう。著者は全部で6名おり、以下で一人ずつ紹介していきます。

Guowei Xuは現在、清華大学姚クラスの学部生であり、強化学習、ロボット工学、科学分野における AI アプリケーションに興味を持っています。

昨年の入学以来、数々の国際学会での論文発表に参加し、2024年度新入生最優秀賞を受賞しました。

金鹏（ペン・ジン）は清華大学で学士号を取得し、現在は北京大学で袁李（ユアン・リー）の指導のもと博士課程3年生です。

彼はテキスト・ビデオ検索、クロスモーダル表現学習、マルチモーダル大規模言語モデルに興味を持っています。2022年9月以降、11本の論文がトップカンファレンスに採択されています。

李昊（ハオ・リー）も彼と同様に北京大学の博士課程3年生で、袁李（ユアン・リー）の指導を受けています。しかし、李昊は以前、北京大学のコンピュータサイエンス学部を卒業しています。

李昊氏は、マルチモーダル学習、視覚理解、そして化学科学における人工知能に興味を持っています。これまでに、トップクラスの国際会議で20本以上の論文を発表し、Google Scholarでの引用数は合計300件を超えています。

彼らの先生であるYuan Liは、おそらく QuantumBit の読者にはよく知られているでしょう。

袁麗は現在、北京大学深圳大学院の助教授を務め、マルチモーダルディープラーニングの研究を専門としています。彼女の筆頭著者論文は1000回以上引用されています。

彼のチームは、ソーシャルメディアで頻繁にトレンドになる ChatExcel や ChatLaw などの垂直型製品を開発しました。

他の2人の著者:

宋一冰は現在、アリババDAMOアカデミーの研究者／研究マネージャーです。以前は復旦大学の教員、テンセントAIラボのシニア研究員を務めていました。

彼は現在、主にマルチモーダルAIに関心を持ち、これまでに50本以上の一流論文を発表しています。また、スタンフォード大学から世界トップ2%の科学者の一人に選出されています。

Lichao Sunは現在、米国レック大学のコンピュータサイエンスおよびエンジニアリング学部の助教授です。

彼は2020年にイリノイ大学シカゴ校でコンピューターサイエンスの博士号を取得しました。

また、2024 Microsoft Accelerated Foundation Model Research Award、2024 OpenAI Researcher Award、NSF CRII Award など、数々の賞を受賞しています。

次に、チームは、LLaVA-o1 のコード、事前トレーニング済みの重み、データセット、およびその他のコンポーネントがまもなくオープンソース化されることを発表しました。

興味のある方は注目してください！

618ZXW

北京大学などがo1のマルチモーダル版をリリース！最初のスローシンキングVLMはオープンソース、視覚推論は超クローズドソース。

「自発的かつ体系的な推論が可能な初の視覚言語モデル」

北京大学、彭城研究所などのチームによって制作されました。

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ