|
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は、人工知能分野における2つの主要な開発方向性です。LLMは主にテキストデータの処理と生成に焦点を当てていますが、LMMはさらに一歩進んで、テキスト、画像、動画など、様々なデータタイプを統合・理解することを目指しています。現在、LLMは比較的成熟しており、ChatGPTのようなモデルは優れたテキスト理解能力を示しています。現在、注目はマルチモーダルデータの理解に移っており、モデルが「画像を読み、動画を見る」ことを可能にします。 最近、ByteDance、南洋理工大学、香港中文大学、香港科技大学の研究者らが共同で、LLaVA-OneVisionマルチモーダル大規模モデルをオープンソース化しました。このモデルは、単一画像、複数画像、動画タスクにおいて優れた性能を発揮します。マルチモーダル大規模モデル向けに特別に設計されたLMMs-Eval評価フレームワークは、下図に示すように、LLaVA-OneVision-72BがほとんどのベンチマークでGPT-4VおよびGPT-4oを上回る性能を示すことを示しています。 マルチ画像ベンチマークにおけるLLaVA-OneVisionのパフォーマンス HyperAIチュートリアルセクションに「LLaVA-OneVision マルチモーダル・オールラウンド・ビジョンモデルデモ」が追加されました。クローンを作成して起動するだけで、ワンクリックで多様なビジョンタスクを簡単に処理できます。静止画像の解析から動画の解析まで、高品質な出力を提供します。 チュートリアルアドレス: https://go.hyper.ai/PYD2v デモ実行中
HyperAI 限定招待リンク (コピーしてブラウザに直接貼り付けてください): https://openbayes.com/console/signup?r=Ada0322_QZy7
効果のデモンストレーション
図 1 は恐怖、図 2 は幸福、図 3 は悲しみを示しています。
回答翻訳: この動画は陸上競技、主に100メートル走のモンタージュ映像のようです。スターティングブロックで準備を整える選手たちの姿が映し出されており、そのうちの1人は黄色と緑のユニフォームを着ています。これはジャマイカの国旗の色にあたるため、ジャマイカ代表選手なのかもしれません。動画は、スタート準備中の選手たちの緊張感と集中力、スターティングブロックからの最初の蹴り出し、そしてトラック上でのスプリントの様子を捉えています。選手たちは各国代表チームやスポンサーのユニフォームを着用しており、スタジアムのあちこちにTOYOTAやTDKといった様々なスポンサーロゴが見られます。動画には選手たちの顔のクローズアップも含まれており、彼らの集中力と決意が見て取れます。最後のショットでは、選手たちが全力でスプリントする様子が映し出されており、そのうちの1人が先頭に立っており、激しいレースが繰り広げられていることを示唆しています。 |
オンラインチュートリアル | GPT-4V に勝てますか? 強力なオープンソースのマルチモーダル大規模モデル LLaVA-OneVision が正式にリリースされました!
関連するおすすめ記事
-
清華大学関連企業が協力し、セキュリティビッグデータモデルを1兆ドル時代へ推進 | 長廷 x 曲靖
-
OpenAI がこの分野でトップの座を取り戻しましたが、今回は 4O のおかげです。
-
最強の数理モデルがついに登場!アリババの1000 Questions新モデルはGPT-40を上回る性能を誇り、ネットユーザーからは「これぞ真の『ストロベリー』モデル!」と絶賛の声も!
-
AIでモバイルタスクの自動実行が可能に!中国の大学の最新研究により、モバイルデバイスの操作が簡素化されます。
-
メインフォーラムをちょっと覗いてみよう!オープンソース、オープンライフ - COSCon'24 では、新しいオープンソースライフスタイルが待っています。
-
フラクタル生成モデルの新たなパラダイムを切り開きました!計算効率が4000倍向上し、初めて高解像度のピクセル単位の生成を実現しました。