杭州はAIオープンソースをリードしています！アリババの新しいフラッグシップビジュアル理解プラットフォーム「Qwen」が大晦日にオープンソース化されました。シリーズ全体に3つのサイズがあり、7BモデルはGPT-4o-miniを上回ります。

すでに蛇年に足を踏み入れた杭州ですが、相変わらず抜け目がありません。

本日午前 4 時、アリババの Tongyi Qwen は、中国の旧正月ギフトの第 2 弾として、オープンソースの視覚理解モデル Qwen2.5-VL をリリースしました。

オブジェクトやエージェントの視覚的な理解、長いビデオの理解とイベントのキャプチャ、視覚的な配置と構造化された出力などをサポートできます。

Qwen2.5-VLは、Qwenシリーズの全く新しい視覚理解モデルであり、公式チームからは「フラッグシップ視覚言語モデル」とも呼ばれています。3B 、7B、72Bの3つのバージョンがリリースされています。

公式テスト結果によると、ビジュアルフラッグシップの Qwen シリーズのフラッグシップである Qwen2.5-VL-72B-Instruct は、複数の分野とタスクを網羅した一連のベンチマークテストで次のパフォーマンスを示しました。

大学レベルの質問、数学、文書理解、視覚的な質問応答、ビデオ理解、視覚エージェントなどが含まれます。

このシリーズの 7B モデルであるQwen2.5-VL-7B-Instruct は、複数のタスクで GPT-4o-mini を上回りました。

さらに、 Tongyi Qwen チームは、Qwen2.5-VL-3B が 3B バージョンで以前の Qwen2-VL-7B を上回っていることから、これを「エッジ AI の潜在的株」とも呼んでいます。

注目すべき点の 1 つは、Qwen2.5-VL がドキュメントとグラフの理解に優れていることです。

さらに、視覚エージェントとして動作する場合、Qwen2.5-VL はタスク固有の微調整を必要としません。

公式発表によれば、Qwen2.5-VL BaseおよびInstructモデル、および3つのサイズ（3B、7B、72B）の全シリーズのモデルがすべてオープンソース化されているとのことです。

(慣例通り、記事の最後に直接リンクがあります。)

Qwen の新しいビジュアルフラッグシップのモデリング機能はどうですか?

以下は、Qwen2.5-VL の 6 つの領域における機能を示しています。

視覚的な位置決め機能
一般的な画像認識機能
Qwen独自の文書分析
コンピュータや携帯電話を操作できる視覚エージェント
強化されたビデオ理解機能
テキスト認識と理解能力

視覚的な位置決め機能

公式情報によると、Qwen2.5-VLは長方形や点などのさまざまな方法を使用して一般的なオブジェクトを見つけ、階層的な配置と標準化されたJSON形式の出力を実現できます。

たとえば、街の写真をフィードして「Prompt」と入力します。

画像内の全てのオートバイ運転者を検出し、座標形式で位置を返します。出力形式は{"bbox_2d": [x1, y1, x2, y2], "label": "motorcyclist", "sub_label": "wearing helmat" # or "not wearing helmat"}のようになります。

すると、画像内で乗客を乗せたバイクが異なる色のボックスで強調表示された結果に表示されます。

座標も要求に応じて返されました。

Qwen チームは、Qwen2.5-VL の強化されたローカリゼーション機能は、視覚エージェントが複雑なシナリオで理解および推論タスクを実行するための基盤を提供すると述べています。

一般的な画像認識機能

また、ビジュアルモデルシリーズの前身であるQwen2.5-VLと比較すると、 Qwen2.5-VLの主な改良点は、一般的な画像認識機能です。

同時に、モデルが認識できる画像カテゴリの範囲が拡張され、動物や植物、山や川などの有名なランドマーク、さまざまな映画やテレビのIP、さまざまな商品が含まれるようになりました。

質問：これらのアトラクションとは何ですか？中国語と英語の両方で名前を教えてください。

QuantumBit が個人的にテストしたところ、Qwen2.5-VL-72B-Instruct から次のような回答が得られました。

Qwen独自の文書分析

Qwen2.5-VLでは、開発チームはQwenVL HTML形式と呼ばれる「より包括的なドキュメント解析形式」を設計しました。

つまり、このモードのQwen2.5-VLは、文書内のテキストを正確に認識し、文書要素（画像、表など）の位置情報を抽出して、文書のレイアウトを正確に復元することができます。

以下は、Qwen チームによる公式テストデモです。

プロンプト: QwenVL HTML。

次の画像もフィードします。

Qwen2.5-VLの拒否結果は次のとおりです。

研究者らはまた、綿密に構築された膨大な量のデータに基づいて、 QwenVL HTML は雑誌、論文、Web ページなどの幅広いシナリオで堅牢なドキュメント解析を実行できると述べています。

携帯のスクリーンショットも入っています〜

コンピュータや携帯電話を操作できる視覚エージェント

Qwen2.5-VL は、固有の認識、分析、推論機能を活用することで、優れたデバイス操作機能を発揮します。

これには、携帯電話、オンラインプラットフォーム、コンピューターでのタスクの実行が含まれます。

たとえば、今日重慶から北京への航空券を予約するのを手伝ってもらうように頼んでみます。

質問：予約アプリで片道航空券を確認したいのですが。出発地は重慶江北国際空港、目的地は北京首都国際空港、日付は1月28日です。

実行プロセスとその背後にあるコードをご覧ください (実行速度はまだ比較的遅いですが)。

ビデオ理解能力

ビデオ機能の面では、Qwen2.5-VL は、時間処理用のダイナミックフレームレート (FPS) トレーニングと絶対時間コーディング技術を導入しています。

このように、このモデルは、数時間単位の超長時間ビデオの理解をサポートするだけでなく、数秒単位のイベントを見つける機能も備えています。

長いビデオコンテンツを1時間単位で正確に理解できるだけでなく、ビデオ内の特定のイベントを検索したり、ビデオ内のさまざまな時間帯の重要なポイントを要約したりできるため、ユーザーはビデオに隠された重要な情報を迅速かつ効率的に抽出できます。

たとえば、次のビデオを見せて、ビデオに登場する論文の名前をリストします。

その結果は次のようになりました。

テキスト認識と理解能力

最後に、Qwen2.5-VL はOCR 認識機能を向上させます。

複数のシナリオ、言語、方向にわたってテキスト認識およびテキストローカリゼーション機能を強化します。

同時に、このシリーズのモデルは、資格審査、金融業務などの分野で高まるデジタル化とインテリジェント化のニーズを満たすために、情報抽出機能の強化にも重点を置いています。

Qwen2.5-VL シリーズのアップグレードとは何ですか?

昨年9月2日、アリババ同義チームは前世代（第2世代）の視覚言語モデルQwen2-VLをオープンソース化しました。当時、2Bと7Bという2つのパラメータバージョンと、量子化バージョンがリリースされました。

当時、Qwen2-VL は 20 分を超えるビデオを理解でき、携帯電話やロボットを自律的に操作するために統合することができました。

Qwen2-VL と比較して、Qwen2.5-VL はモデルの時間的および空間的スケールを認識する能力を強化し、ネットワーク構造をさらに簡素化してモデル効率を向上させます。

具体的には、2つの側面に分けられます。

1つは、時間と画像サイズの認識です。

空間次元の観点から、 Qwen2.5-VL は、異なるサイズの画像を異なる長さのトークンに動的に変換できるだけでなく、従来の座標正規化を実行せずに、画像の実際のサイズを直接使用して検出ボックスとポイントの座標を表すこともできます。

これにより、モデルは画像のスケールを直接学習できるようになります。

時間次元では、動的 FPS (フレーム/秒) トレーニングと絶対時間エンコーディングが導入され、mRoPE ID を時間フローレートに直接合わせます。

これにより、モデルは時間ディメンション ID の間隔を通じて時間のリズムを学習できるようになります。

第二に、これはよりシンプルで効率的なビジュアルエンコーダーです。

ビジュアルエンコーダーは、マルチモーダルな大規模モデルにおいて重要な役割を果たします。

Qwen2.5-VL チームは、CLIP、ビジョン言語モデルの調整、エンドツーエンドのトレーニングなど、ネイティブの動的解像度 ViT をゼロからトレーニングしました。

マルチモーダル大規模モデルのトレーニングおよびテスト段階での ViT 負荷の不均衡の問題に対処するために、研究者はウィンドウアテンションメカニズムを導入しました。これにより、ViT 側の計算負荷が効果的に軽減されます。

Qwen2.5-VL の ViT 設定では、 4 つのレイヤーのみが完全なアテンションレイヤーであり、残りのレイヤーはウィンドウアテンションを使用します。

ウィンドウの最大サイズは 8×8 です。8×8 より小さい領域は塗りつぶす必要はなく、モデルのネイティブ解像度を維持するために元のスケールが保持されます。

さらに、ネットワーク全体の構造を簡素化するために、チームはRMSnorm と SwiGLU 構造を採用し、ViT アーキテクチャを LLM とより一貫性のあるものにしました。

これに基づいて、Qwen2.5-VL は次の主な特徴を示します。

まず、視覚的な理解：

Qwen2.5-VL は、花、鳥、魚、昆虫などの一般的なオブジェクトの認識に優れているだけでなく、画像内のテキスト、チャート、アイコン、グラフィック、レイアウトを分析することもできます。

2番目、エージェント：

Qwen2.5-VL は、視覚エージェントとして直接機能し、推論やツールの動的な使用が可能で、コンピューターや携帯電話を使用する能力を最初に獲得しました。

3番目は、長いビデオを理解してイベントをキャプチャすることです。

Qwen2.5-VL は 1 時間を超えるビデオを理解でき (40 分の改善)、関連するビデオクリップを正確に特定してイベントをキャプチャする新しい機能を備えています。

4番目は視覚的な配置です。

Qwen2.5-VL は、境界ボックスまたはポイントを生成することで画像内のオブジェクトを正確に特定し、座標と属性の安定した JSON 出力を提供できます。

第五に、構造化された出力：

請求書、フォーム、表などのデータについては、Qwen2.5-VL はコンテンツの構造化された出力をサポートしており、金融、商取引、その他の分野のアプリケーションに役立ちます。

もう一つ

現在、Qwen2.5-VL シリーズ全体が Hugface および Moda コミュニティでオープンソース化されています。

Qwen Chat Web サイトでは、Qwen2.5-VL-72B-Instruct を直接体験できます。

Qwenチームはまた次のように述べています。

近い将来、より多くのモダリティを統合しながら、モデルの問題解決能力と推論能力をさらに強化する予定です。これにより、モデルはよりインテリジェントになり、複数の入力タイプとタスクを処理できる包括的で万能なモデルへと進化します。

Qwen チームにとって、推論とマルチモーダルアプローチが次の重要な焦点となるようです。最終目標は包括的で包括的なモデルを作成することです。

Qwenチャット: https://chat.qwenlm.ai

ハギングフェイス: https://huggingface.co/collec...

モデルスコープ: https://modelscope.cn/collect...

参考リンク：https://mp.weixin.qq.com/s/Rh...

- 以上-

QbitAI（量子ビット） · Toutiaoアカウント

最先端技術に関する最新ニュースを入手するには、ぜひフォローしてください。

618ZXW

Qwen の新しいビジュアルフラッグシップのモデリング機能はどうですか?

視覚的な位置決め機能

一般的な画像認識機能

Qwen独自の文書分析

コンピュータや携帯電話を操作できる視覚エージェント

ビデオ理解能力

テキスト認識と理解能力

Qwen2.5-VL シリーズのアップグレードとは何ですか?

もう一つ

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ

Qwen の新しいビジュアル フラッグシップのモデリング機能はどうですか?

視覚的な位置決め機能

一般的な画像認識機能

Qwen独自の文書分析

コンピュータや携帯電話を操作できる視覚エージェント

ビデオ理解能力

テキスト認識と理解能力

Qwen2.5-VL シリーズのアップグレードとは何ですか?

もう一つ

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ

Qwen の新しいビジュアルフラッグシップのモデリング機能はどうですか?