|
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は、人工知能分野における2つの主要な開発方向性です。LLMは主にテキストデータの処理と生成に焦点を当てていますが、LMMはさらに一歩進んで、テキスト、画像、動画など、様々なデータタイプを統合・理解することを目指しています。現在、LLMは比較的成熟しており、ChatGPTのようなモデルは優れたテキスト理解能力を示しています。現在、注目はマルチモーダルデータの理解に移っており、モデルが「画像を読み、動画を見る」ことを可能にします。 最近、ByteDance、南洋理工大学、香港中文大学、香港科技大学の研究者らが共同で、LLaVA-OneVisionマルチモーダル大規模モデルをオープンソース化しました。このモデルは、単一画像、複数画像、動画タスクにおいて優れた性能を発揮します。マルチモーダル大規模モデル向けに特別に設計されたLMMs-Eval評価フレームワークは、下図に示すように、LLaVA-OneVision-72BがほとんどのベンチマークでGPT-4VおよびGPT-4oを上回る性能を示すことを示しています。 マルチ画像ベンチマークにおけるLLaVA-OneVisionのパフォーマンス HyperAIチュートリアルセクションに「LLaVA-OneVision マルチモーダル・オールラウンド・ビジョンモデルデモ」が追加されました。クローンを作成して起動するだけで、ワンクリックで多様なビジョンタスクを簡単に処理できます。静止画像の解析から動画の解析まで、高品質な出力を提供します。 チュートリアルアドレス: https://go.hyper.ai/PYD2v デモ実行中
HyperAI 限定招待リンク (コピーしてブラウザに直接貼り付けてください): https://openbayes.com/console/signup?r=Ada0322_QZy7
効果のデモンストレーション
図 1 は恐怖、図 2 は幸福、図 3 は悲しみを示しています。
回答翻訳: この動画は陸上競技、主に100メートル走のモンタージュ映像のようです。スターティングブロックで準備を整える選手たちの姿が映し出されており、そのうちの1人は黄色と緑のユニフォームを着ています。これはジャマイカの国旗の色にあたるため、ジャマイカ代表選手なのかもしれません。動画は、スタート準備中の選手たちの緊張感と集中力、スターティングブロックからの最初の蹴り出し、そしてトラック上でのスプリントの様子を捉えています。選手たちは各国代表チームやスポンサーのユニフォームを着用しており、スタジアムのあちこちにTOYOTAやTDKといった様々なスポンサーロゴが見られます。動画には選手たちの顔のクローズアップも含まれており、彼らの集中力と決意が見て取れます。最後のショットでは、選手たちが全力でスプリントする様子が映し出されており、そのうちの1人が先頭に立っており、激しいレースが繰り広げられていることを示唆しています。 |
オンラインチュートリアル | GPT-4V に勝てますか? 強力なオープンソースのマルチモーダル大規模モデル LLaVA-OneVision が正式にリリースされました!
関連するおすすめ記事
-
学術共有 | 清華大学ポスドク研究員の李玉哲氏がCell/Natureサブジャーナル論文について解説、ゲノミクスにおけるAI応用を探る
-
o1 のリリース後の最も有益な円卓討論会: Yang Zhilin、Jiang Daxin、Zhu Jun が大規模モデルの技術的な道筋を探りました。
-
何百万人もの受験者が、専門資格試験の準備をするために大規模なモデルを使用しています。
-
イベントカメラ + AI ビデオ生成: ICIP に HKU の CUBE フレームワークが選択され、トレーニングなしで制御可能なビデオ生成を実現しました。
-
DeepSeek の第 5 弾が見事に終了しました。SSD の帯域幅を最大限に高める、まったく新しいオープンソースの並列ファイルシステムが登場しました。
-
ジェンセン・フアンが孫正義氏と対談:日本の新たな AI ビジョン、Arm の AI への野望、東アジアにおける Nvidia の新たなチャンス。