|
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は、人工知能分野における2つの主要な開発方向性です。LLMは主にテキストデータの処理と生成に焦点を当てていますが、LMMはさらに一歩進んで、テキスト、画像、動画など、様々なデータタイプを統合・理解することを目指しています。現在、LLMは比較的成熟しており、ChatGPTのようなモデルは優れたテキスト理解能力を示しています。現在、注目はマルチモーダルデータの理解に移っており、モデルが「画像を読み、動画を見る」ことを可能にします。 最近、ByteDance、南洋理工大学、香港中文大学、香港科技大学の研究者らが共同で、LLaVA-OneVisionマルチモーダル大規模モデルをオープンソース化しました。このモデルは、単一画像、複数画像、動画タスクにおいて優れた性能を発揮します。マルチモーダル大規模モデル向けに特別に設計されたLMMs-Eval評価フレームワークは、下図に示すように、LLaVA-OneVision-72BがほとんどのベンチマークでGPT-4VおよびGPT-4oを上回る性能を示すことを示しています。 マルチ画像ベンチマークにおけるLLaVA-OneVisionのパフォーマンス HyperAIチュートリアルセクションに「LLaVA-OneVision マルチモーダル・オールラウンド・ビジョンモデルデモ」が追加されました。クローンを作成して起動するだけで、ワンクリックで多様なビジョンタスクを簡単に処理できます。静止画像の解析から動画の解析まで、高品質な出力を提供します。 チュートリアルアドレス: https://go.hyper.ai/PYD2v デモ実行中
HyperAI 限定招待リンク (コピーしてブラウザに直接貼り付けてください): https://openbayes.com/console/signup?r=Ada0322_QZy7
効果のデモンストレーション
図 1 は恐怖、図 2 は幸福、図 3 は悲しみを示しています。
回答翻訳: この動画は陸上競技、主に100メートル走のモンタージュ映像のようです。スターティングブロックで準備を整える選手たちの姿が映し出されており、そのうちの1人は黄色と緑のユニフォームを着ています。これはジャマイカの国旗の色にあたるため、ジャマイカ代表選手なのかもしれません。動画は、スタート準備中の選手たちの緊張感と集中力、スターティングブロックからの最初の蹴り出し、そしてトラック上でのスプリントの様子を捉えています。選手たちは各国代表チームやスポンサーのユニフォームを着用しており、スタジアムのあちこちにTOYOTAやTDKといった様々なスポンサーロゴが見られます。動画には選手たちの顔のクローズアップも含まれており、彼らの集中力と決意が見て取れます。最後のショットでは、選手たちが全力でスプリントする様子が映し出されており、そのうちの1人が先頭に立っており、激しいレースが繰り広げられていることを示唆しています。 |
オンラインチュートリアル | GPT-4V に勝てますか? 強力なオープンソースのマルチモーダル大規模モデル LLaVA-OneVision が正式にリリースされました!
関連するおすすめ記事
-
国家海洋環境予報センターの李本霞氏:国内初のインテリジェント波浪予報システムが運用開始され、AIが波浪予報における数々の飛躍的進歩に貢献しています。
-
5 つの強力な開発者ツールにより、「誰もが開発者」の時代が到来しました。
-
ロボタクシーの年間動向:3種類のプレイヤー、4つの階層、武漢と北京が展開をリード
-
Huawei版ロールスロイスが100万元で発売開始。2万元の頭金が必要!Yu Chengdong氏がL3「ベース」グレードの詳細を公開。
-
L3商用化の初年度に、北京は支援政策の導入を主導した。
-
SegmentFault リリース | 2024年 中国で最も人気のある開発者向けテクノロジーイベント