|
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は、人工知能分野における2つの主要な開発方向性です。LLMは主にテキストデータの処理と生成に焦点を当てていますが、LMMはさらに一歩進んで、テキスト、画像、動画など、様々なデータタイプを統合・理解することを目指しています。現在、LLMは比較的成熟しており、ChatGPTのようなモデルは優れたテキスト理解能力を示しています。現在、注目はマルチモーダルデータの理解に移っており、モデルが「画像を読み、動画を見る」ことを可能にします。 最近、ByteDance、南洋理工大学、香港中文大学、香港科技大学の研究者らが共同で、LLaVA-OneVisionマルチモーダル大規模モデルをオープンソース化しました。このモデルは、単一画像、複数画像、動画タスクにおいて優れた性能を発揮します。マルチモーダル大規模モデル向けに特別に設計されたLMMs-Eval評価フレームワークは、下図に示すように、LLaVA-OneVision-72BがほとんどのベンチマークでGPT-4VおよびGPT-4oを上回る性能を示すことを示しています。 マルチ画像ベンチマークにおけるLLaVA-OneVisionのパフォーマンス HyperAIチュートリアルセクションに「LLaVA-OneVision マルチモーダル・オールラウンド・ビジョンモデルデモ」が追加されました。クローンを作成して起動するだけで、ワンクリックで多様なビジョンタスクを簡単に処理できます。静止画像の解析から動画の解析まで、高品質な出力を提供します。 チュートリアルアドレス: https://go.hyper.ai/PYD2v デモ実行中
HyperAI 限定招待リンク (コピーしてブラウザに直接貼り付けてください): https://openbayes.com/console/signup?r=Ada0322_QZy7
効果のデモンストレーション
図 1 は恐怖、図 2 は幸福、図 3 は悲しみを示しています。
回答翻訳: この動画は陸上競技、主に100メートル走のモンタージュ映像のようです。スターティングブロックで準備を整える選手たちの姿が映し出されており、そのうちの1人は黄色と緑のユニフォームを着ています。これはジャマイカの国旗の色にあたるため、ジャマイカ代表選手なのかもしれません。動画は、スタート準備中の選手たちの緊張感と集中力、スターティングブロックからの最初の蹴り出し、そしてトラック上でのスプリントの様子を捉えています。選手たちは各国代表チームやスポンサーのユニフォームを着用しており、スタジアムのあちこちにTOYOTAやTDKといった様々なスポンサーロゴが見られます。動画には選手たちの顔のクローズアップも含まれており、彼らの集中力と決意が見て取れます。最後のショットでは、選手たちが全力でスプリントする様子が映し出されており、そのうちの1人が先頭に立っており、激しいレースが繰り広げられていることを示唆しています。 |
オンラインチュートリアル | GPT-4V に勝てますか? 強力なオープンソースのマルチモーダル大規模モデル LLaVA-OneVision が正式にリリースされました!
関連するおすすめ記事
-
Baidu AI Cloud が大規模モデル展開の成果を披露: 5 つの初物!
-
GPT-4o は Black Myth をプレイできます。大規模な強化学習不要のソリューションを使用して、エリートモンスターに対して超人的な勝率を実現します。
-
何小鵬:私たちは今年、エンドツーエンドのソリューションに35億元を投資し、2日ごとに繰り返して「ドアツードア」の体験を実現します。
-
メルセデス・ベンツが悲惨な年次報告書を発表!売上、価格、利益、株価すべてが急落し、製品競争力は極めて弱体化。ブランドが楽に利益を上げられる時代は終わりを告げた。
-
最新の2024年世界大学ランキングが発表されました!
-
BYDの収益は初めてテスラを上回ったが、時価総額は依然として6分の1である。