618ZXW

GPT-4o を超えました!Alibaba は、リアルタイムのビデオ対話をサポートする、最も強力なオープンソース マルチモーダル モデルである Qwen2-VL をリリースしました。

最新かつ最も強力なオープンソースのマルチモーダル大規模モデルが登場しました。

Alibaba の Qwen2 モデル ファミリーに、新しいマルチモーダル モデルQwen2-VLが追加されました。このモデルは、画像と長時間ビデオの理解タスクの両方で最先端 (SOTA) の結果を達成しました。

特定のサブタスクでは、Qwen2-VL はほとんどのメトリックで最高のパフォーマンスを達成し、GPT-4o などのクローズドソース モデルを上回りました。

Qwen2-VL はマルチモーダル機能を備えており、カメラやコンピューター画面からデータをリアルタイムで読み取り、テキスト形式でビデオ会話を行うことができます。

【動画は公式WeChatアカウントからご覧ください】

エージェントとして動作し、環境と対話したり、タスクの目的に応じて携帯電話などのデバイスを自律的に制御したりすることもできます。

【動画は公式WeChatアカウントからご覧ください】

新しくリリースされたQwen2には、2B、7B、72Bの3つのバージョンがあります。バージョン2Bと7Bはダウンロードして無料で商用利用(Apache 2.0)でき、バージョン72BはAPI経由で提供されます。

オープンソース コードは現在、Hugging Face Transformers や vLLM などのサードパーティ フレームワークに統合されています。

多くのネットユーザーも、GroqやOllamなどの有名な大規模モデル推論プラットフォームからのサポートを繰り返し求めています。

Qwen2-VLのパフォーマンスを見てみましょう!

ロボットアームを操作できるマルチモーダル大型モデル

Qwen2-VL は、強力なマルチモーダル機能を活用してロボット アームを操作し、物体の拾い上げや配置などの操作を実行できます。

【動画は公式WeChatアカウントからご覧ください】

ポーカープレイヤーになって、特定した情報や手がかりに基づいて「24ポイント」ゲームで決定を下し、勝利を収めることもできます。

冒頭で紹介したように、Qwen2-VL は、認識した画面の内容とユーザーのニーズに基づいて、携帯電話を自動的に操作し、インターネット上の情報を検索することができます。

もちろん、ツールを呼び出してエージェントと対話する能力を示すこれらの複雑なタスクの背後には、基本的な機能も不可欠です。

例えば、画像認識では、Qwen2-VL は物体認識において花の種類を正確に識別できます。

認識シナリオのもう1つのタイプはテキストです。Qwen2-VLは複数の言語でのテキスト抽出をサポートしています。

1枚の画像に16の言語が混在している場合でも、Qwen2-VLは各言語の言語を識別できるだけでなく、一度に全てのテキストを抽出することも可能。

手書きのフォントや複雑な数式も認識でき、上付き文字や下付き文字などの細かい部分も非常にうまく処理します。

Qwen2-VL はマルチモーダル推論もサポートしており、画像をアップロードするだけでコードや数学 (幾何学を含む) の問題を解決できます。

ビデオに関しては、Qwen2-VL は 20 分を超えるビデオのコンテンツ分析を実行でき、要約と詳細に関する質問の両方をサポートします。

ただし、現時点では映像の分析のみが可能で、音声処理はサポートされていません。

【動画は公式WeChatアカウントからご覧ください】

リアルタイムのビデオ通話とテキスト会話にも対応しています。冒頭で紹介したカメラ越しの会話に加え、パソコン画面を会話内容として読み上げることも可能です。

【動画は公式WeChatアカウントからご覧ください】

つまり、これらのタスクの背後には、Qwen2-VL の並外れた総合的な強みがあるのです。

マルチモーダル機能はGPT-4oを上回る

さまざまなタスクにおける Qwen2-VL の全体的なパフォーマンスを理解するために、Qwen チームは 6 つの側面からその視覚機能を評価しました。

具体的には、総合的な大学試験問題、数学の試験問題、文書と表の理解、一般的なシナリオでの質疑応答、ビデオ理解、エージェント機能の 6 つのタイプが含まれます。

全体的に、Qwen2-72B はほとんどの指標で最適なパフォーマンスを達成し、GPT-4o や Claude3.5-Sonnet を上回り、特にドキュメント理解において大きな利点を示しました。

さらに、多言語テストでは、MTVQA は 9 言語中 8 言語で GPT-4o、Claude3-Opus、Gemini Ultra などの高度なクローズドソース モデルを上回り、平均スコアでも最高を達成しました。

バージョン7Bでは、画像、複数画像、動画の入力もサポートしており、同サイズのモデルとしては最先端(SOTA)レベルに達しています。

最小の 2B バージョンは主にモバイル デバイス向けに設計されていますが、サイズが小さいにもかかわらず、完全な画像、ビデオ、多言語理解機能を備えており、特にビデオ ドキュメントや一般的なシナリオの質問応答において、同様のサイズのモデルに比べて大きな利点があります。

全体的に、Qwen2-VLは、前身のQwen-VLにおけるViTとQwen (2)のカスケード構造を継承しています。サイズの異なる3つのモデルにおいて、Qwen2-VLは600MBのViTを使用し、画像と動画の統合入力をサポートしています。

モデルが視覚情報をより適切に認識し、ビデオを理解できるようにするために、Qwen2-VL はネイティブの動的解像度を完全にサポートします。

Qwen2-VL は、前世代モデルと比較して、あらゆる解像度の画像入力を処理でき、異なるサイズの画像は動的な数のトークンに変換され、必要な最小トークンはわずか 4 個です。

この設計により、モデル入力と元の画像情報との一貫性が確保されるだけでなく、人間の視覚の自然な認識をシミュレートできるため、画像処理タスクにおいてモデルの柔軟性と効率が向上します。

Qwen2-VL のアーキテクチャにおけるもう 1 つの革新は、マルチモーダル回転位置埋め込み(M-ROPE) です。

従来の回転位置埋め込みでは 1 次元シーケンスの位置情報しか取得できませんが、M-ROPE は元の回転位置埋め込みを時間、高さ、幅を表す 3 つの部分に分解します。

これにより、大規模言語モデルは、1 次元のテキスト シーケンス、2 次元の視覚画像、3 次元のビデオから位置情報を同時にキャプチャして統合できるようになります。

この革新により、モデルのマルチモーダル処理および推論機能が向上し、複雑なマルチモーダル データの理解とモデリングが向上します。

デモ:
https://huggingface.co/spaces...
プロジェクトホームページ:
https://qwenlm.github.io/blog... GitHub:
https://github.com/QwenLM/Qwe...