|
写真を見るだけで料理の作り方がわかる、植物の病気を診断できる、手書きの英語を中国語に正確に翻訳できる、金融データを正確に分析できる…マルチモーダル機能がさらに向上しました!本日、アリババの国際AIチームは、画像理解タスクの限界を突破し続け、多くの具体的なサブタスクで最先端(SOTA)レベルに到達したマルチモーダル大規模モデル「Ovis」をリリースしました。 マルチモーダル大規模モデルは、テキストや画像など、様々な種類のデータ入力を処理・理解できます。テキストデータの処理と生成に特化した大規模言語モデル(LLM)と比較して、マルチモーダル大規模モデルは画像などの非テキストデータも処理できます。 大手マルチモーダル性能評価プラットフォームである OpenCompass のデータによると、Ovis1.6-Gemma2-9B は、30 個未満のパラメータを持つモデルの中で総合ランキングトップを達成し、MiniCPM-V-2.6 などの業界の優秀な大規模モデルを上回りました。 図: OpenCompassにおけるOvisのベンチマークデータ 報告によると、Ovisは数学的推論と質問応答、物体認識、テキスト抽出、複雑なタスクの意思決定において優れた性能を発揮しています。例えば、Ovisは数学的な質問に正確に答え、花の種類を識別し、複数言語でのテキスト抽出をサポートし、手書き文字や複雑な数式も認識できます。 ケース1:手書きのコピーを認識し翻訳するオーヴィスの能力 ケース2: オーヴィスの複雑な数式を扱う能力 ケース3: Ovis は画像認識と処理を通じてレシピを生成できます。 具体的には、Ovis モデルには 5 つの大きな利点があります。 1. 革新的なアーキテクチャ設計:学習可能な視覚埋め込み語彙:連続的な視覚特徴を確率的な視覚トークンに変換し、視覚埋め込み語彙に基づいて重み付けすることで構造化された視覚埋め込みを生成するという、初めての試みです。これにより、MLLMにおけるほとんどのMLPコネクタアーキテクチャの限界を克服し、マルチモーダルタスクのパフォーマンスを大幅に向上させます。 2. 高解像度画像処理:ダイナミックサブイメージスキーム:極端なアスペクト比の画像処理をサポートし、高解像度画像と互換性があり、優れた画像理解機能を発揮します。 3. 包括的なデータ最適化:多方向のデータセットカバレッジ:キャプション、VQA、OCR、表、グラフなどのさまざまなマルチモーダルデータ方向を包括的にカバーし、マルチモーダルな質問回答や指示のフォローなどのタスクのパフォーマンスを大幅に向上させます。 4. 優れたモデル性能:Ovisはリーダーボードにおいて卓越した性能を示しました。主要なマルチモーダルベンチマークであるOpencompassにおいて、Ovis1.6-Gemma2-9Bは、30パラメータ未満のモデルの中で、Qwen2-VL-7BやMiniCPM-V-2.6といったモデルを凌駕し、総合ランキングでトップを獲得しました。特に数学的な質問応答において、その性能は70パラメータのモデルに匹敵しました。錯視を伴うタスクにおいて、Ovis-1.6は同クラスの他のモデルと比較して、錯視現象とエラー率が大幅に低く、生成されたテキストの品質と精度が高いことが示されました。 5. 完全にオープンソースで商用再現可能:OvisシリーズのモデルライセンスはApache 2.0を使用しています。Ovis 1.0および1.5のデータ、モデル、学習コード、推論コードはすべてオープンソースであり、再現可能です。Ovis1.6シリーズのOvis1.6-Gemma2-9B重みもオープンソースです。 AI分野において、マルチモーダル大規模モデルは、自動運転、医療診断、映像コンテンツ理解、画像記述生成、ビジュアル質問応答など、幅広い応用分野を有しています。例えば、自動運転の分野では、マルチモーダル大規模モデルは、カメラ、レーダー、ライダーからのデータを統合することで、より正確な環境認識と意思決定を実現します。マルチモーダル大規模モデルは、複数のモードにまたがる情報の理解と生成を共同で学習できるため、汎用人工知能(AAI)への次のステップとしても注目されています。 これまでの報道によると、アリババインターナショナルは昨年AIチームを設立し、商品画像やテキスト、マーケティング、検索、広告、SEO、カスタマーサービス、返金、店舗設計など、越境ECチェーン全体を網羅する40以上のECシナリオでAI機能をテストしてきました。これらのアプリケーションの多くはOvisモデルに基づいて開発されており、すでに50万社の中小小売業者が1億点の商品情報を最適化するのを支援してきました。小売業者のAIに対する需要は絶えず高まっており、過去6か月のデータによると、小売業者によるAIの利用回数は平均して2か月ごとに倍増しています。 関連リンクを添付します: arXivの論文: https://arxiv.org/abs/2405.20797 Github: https://github.com/AIDC-AI/Ovis ハギングフェイス: https://huggingface.co/AIDC-A… デモ: https://huggingface.co/spaces… |
Alibaba International は最新のオープンソース マルチモーダル モデル Ovis をリリースし、マルチモーダル機能をさらに向上させました。
関連するおすすめ記事
-
Baidu は、Extreme Pro 所有者のインテリジェント運転およびマップ サービスに関する懸念に応答します。
-
山東省のイノベーションの源を創るために力を合わせましょう | 済南オープンソース産業エコシステムカンファレンスと openKylin & KCC 愛好家サロンが開催されます!
-
[Triton チュートリアル] 行列の乗算
-
エリンギでロボットの動きを制御!コーネル大学らによる新たな研究がサイエンス誌に掲載されました。
-
CATLの時価総額は、たった一つの発表で一夜にして375億元も消えた。
-
AIが「Black Myth: Wukong」のプロモーションビデオを生成しました... 見た後、言葉を失いました。