618ZXW

新しいSOTAが登場しました。国産の9Bモデルは4o-miniを複数のスコアで上回り、世界展開する中国のeコマース企業はすでにこれを使用しています。

アリババのオープンソース・イニシアチブが再び1位を獲得した。

今回はマルチモーダル領域です:

アリババの国際AIチームは、マルチモーダル大規模モデルOvis1.6をオープンソース化しました。マルチモーダルモデルの権威ある総合ベンチマークであるOpenCompassにおいて、Ovis1.6-Gemma2-9Bバージョンは、Qwen2VL-7B、InternVL2-26B、MiniCPM-V-2.6といった主流のオープンソースモデルを凌駕し、300億パラメータ未満のオープンソースモデルの中でトップにランクされました。

数学的推論や視覚的理解を含む複数のタスクにおいて、そのスコアはクローズドソースの GPT-4o-mini のスコアを上回りました。

具体的には、Ovis 1.6 は、視覚知覚推論、数学と科学、日常生活のシナリオなど、さまざまなマルチモーダル タスクを処理できます。

誰もが関心を持つ数学と理科のスキルを例に挙げてみましょう🌰。Ovis 1.6のパフォーマンスは以下のとおりです。

母はもう、私が大学レベルの数学を理解していないのではないかと心配する必要がなくなりました。

論文を読むのに役立ちます:

財務諸表の分析でもかなり良い結果が得られました。

写真を見るだけで、定番のフィッシュ アンド チップスの作り方をその場で教えてくれることもあります (冗談です)。

アリババ・インターナショナルのマルチモーダル大規模モデルであるOvisシリーズは、Apache 2.0オープンソースライセンスに準拠していることは特筆に値します。つまり、このライセンスは非常に寛容で、商業的にも適しています

視覚的埋め込みとテキスト埋め込みを構造的に整列させる

では、これ以上長々と話さずに、Ovis が新たに 1 位にランクされた理由を技術的な観点から詳しく見ていきましょう。

OpenCompass ベンチマークによると、Ovis1.6-Gemma2-9B は、Qwen2-VL-7B や MiniCPM-V-2.6 など、同様のパラメータ範囲を持つ多くのよく知られたマルチモーダル モデルよりも優れています。

数学的推論タスクでは、70B パラメータ モデルに匹敵するパフォーマンスを発揮します。

Ovis 1.6 は、同レベルの他のモデルと比較して錯視率とエラー率も低く、テキストの品質と精度が高いことを示しています。

これをどのように実現するのでしょうか?アリババの国際AIチームの核となるアイデアは、視覚的埋め込みとテキスト埋め込みを構造的に整合させることです。

現在、オープンソースのマルチモーダル大規模言語モデル(MLLM)のほとんどは、ゼロから学習されていません。代わりに、多層パーセプトロン(MLP)などのコネクタを介して、事前学習済みの大規模言語モデル(LLM)と視覚的トランスフォーマーを統合し、LLMに「目」を与えます。

これにより問題が発生します。MLLM のテキスト モジュールとビジュアル モジュールは異なる埋め込み戦略を使用するため、ビジュアル情報とテキスト情報をシームレスに統合することができず、モデル パフォーマンスのさらなる向上が制限されます。

この問題に対処するために、Ovis はビジュアル トークナイザー、ビジュアル エンベディング テーブル、大規模言語モデルで構成されるアーキテクチャを採用しました。

Ovisは、大規模言語モデルにおけるテキスト埋め込み戦略を借用し、学習可能な視覚埋め込みテーブルを導入します。まず、連続的な視覚特徴を確率的な視覚トークンに変換し、次に、視覚埋め込みテーブルを用いて複数のインデックスと重み付けを行うことで、構造化された視覚埋め込みを獲得します。

テキストの場合、Ovisは現在の大規模言語モデルの処理方法に従います。テキストトークナイザーは入力テキストをワンホットトークンに変換し、テキスト埋め込みテーブルに従って各テキストトークンに対応する埋め込みベクトルを見つけます。

最後に、Ovis はすべての視覚埋め込みベクトルをテキスト埋め込みベクトルと連結し、Transformer で処理してマルチモーダル タスクを完了します。

新しくリリースされた Ovis 1.6 では、前バージョンの Ovis 1.5 と比較して、アーキテクチャ、データ、トレーニング戦略がさらに最適化されています。

アーキテクチャの面では、動的サブグラフ スキームが採用されており、さまざまな解像度の画像特徴に柔軟に対応し、複雑な視覚タスクを処理するモデルの能力が向上します。

データに関しては、Ovis 1.6 はトレーニング中にキャプション、OCR、表、グラフ、数学などのさまざまなデータセットをカバーし、幅広いアプリケーション シナリオでモデルが適切に機能することを保証します。

トレーニング戦略の面では、DPO やその他の方法を使用してモデルのパフォーマンスを継続的に最適化し、テキストを生成して複雑な指示を理解するモデルの能力を強化し、複雑なタスクにおけるモデルのパフォーマンスをさらに向上させました。

アブレーション実験の結果では、同じトレーニング データ、モデル パラメーター、LLM、ビジョン ベースを使用して、Ovis は MLP コネクタに基づくマルチモーダル大規模モデル アーキテクチャと比較して全体的なパフォーマンスが 8.8% 向上したことも示されました。

QuantumBit は、Ovis が基礎研究プロジェクトとして Alibaba International の実際のビジネスに広く応用されていることも知りました。

AI 機能は国境を越えた電子商取引を変革しています。

ご存知のとおり、アリババ インターナショナルは、世界的に有名な電子商取引プラットフォームをいくつか所有する AI 主導の企業です。

実際、越境電子商取引のシナリオは、すでに AIGC が「浸透」した最初のシナリオの 1 つです。

その理由は単純です。海外でビジネスを展開する企業は、複雑な海外市場、高コストと競争圧力、そして国境を越えた人材の不足といった共通の問題に直面することがよくあります。マルチモーダル・ビッグデータ・モデルなどのAIGCテクノロジーは、これらの問題に対して適切なコスト削減と効率向上のソリューションを提供できます。

たとえば、越境電子商取引分野では、返品と返金は常にユーザーエクスペリエンスに影響を与える重要な要素です。

従来のアプローチでは、返金や返品の審査と判断は手作業で行われています。これは、膨大な人員と長い審査時間を要するだけでなく、審査員間の主観的な評価基準の不一致により、判断の不安定さを招きます。多くのプラットフォームは、より良いユーザーエクスペリエンスを確保するために消費者を優先する傾向がありますが、これは一部の販売業者やプラットフォーム自体の権利を侵害することになります。

現在、アリババ インターナショナルは、Ovis をベースに、長年にわたって蓄積してきた豊富な電子商取引の知識を統合し、インテリジェントな返金システムを立ち上げました。

Ovisは、手作業による審査と比較して、画像や動画を含むユーザーから提出された返品・返金情報をほぼ瞬時に審査し、非常に一貫性のある処理を実現します。これにより、消費者と販売者の双方に公平な権利が確保されるとともに、迅速かつ低コストの返品・返金ソリューションが提供されます。

さらに、Ovis は製品属性の抽出やセールスポイントの生成などのシナリオにも実装されています。

アリババ・インターナショナルのAIチームは、この予測に基づいて設立され、テストされました。設立からわずか1年余りで、アリババ・インターナショナルは越境EC分野におけるAI機能の大規模な適用を既に実現しています。

AIが生成した商品リストは数百万件規模に達し、AIによる最適化により、海外でのこれらの商品の検索ボリュームは37%増加しました。

AI 機能は、マーケティング、顧客サービス、製品の発売、設計、コンプライアンスなど 40 を超えるアプリケーション シナリオをカバーし、世界中の 50 万社の販売業者にサービスを提供しています。

アリババの国際的なAI機能は1日に5000万回以上呼び出され、その規模は2か月ごとに倍増しています。

...

Ovisに加えて、アリババインターナショナルは、多言語拡張ビッグモデルMarcoと、マルチモーダルビッグモデルMarcoVLのeコマースバージョンも構築し、次のようなMaaSサービスを提供しています。

  • 多言語テキスト生成技術:製品の詳細な説明を現地の言語に適応させ、AI が複数の言語で製品紹介を書き直して最適化できるようにすることで、言語と文化の壁を打ち破ります。
  • ワンクリックで複数の仮想試着エフェクトを生成するなどのAI画像処理。

また、インテリジェントな削除やインテリジェントな背景削除などの画像デザイン機能も含まれています。

アリババインターナショナルは、店舗開設やマーケティングから販売前、販売後のサービスまで、越境電子商取引のあらゆる側面を支援するために、対応するAIテクノロジーを提供していると言えます。

AI は、微妙に、そして徐々に、企業の働き方と生産性を完全に変えてきました。

△ AIによる店舗デザイン

大規模モデルがさまざまな業界にこれほど大きな影響を及ぼせる理由は、主に、生産性を解放し、効率を高めながらコストを削減できる点にあります。

この変化の波の中で、アリババ・インターナショナルのようなプラットフォームにとって、AI技術力は再び最も注目される中核競争力となっています。

このプラットフォームの助けにより、海外の電子商取引業者はすでに AI 導入のメリットを享受し始めています。

大多数の開発者にとって、実用主義者からのオープンソースへの貢献も恩恵となります。

Ovis 1.6 オープンソースのアドレスとデモ: arXiv: https://arxiv.org/abs/2405.20797 Github: https://github.com/AIDC-AI/Ovis Huggingface: https://huggingface.co/AIDC-A... デモ: https://huggingface.co/spaces...