618ZXW

オンラインチュートリアル | GPT-4V に勝てますか? 強力なオープンソースのマルチモーダル大規模モデル LLaVA-OneVision が正式にリリースされました!

大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は、人工知能分野における2つの主要な開発方向性です。LLMは主にテキストデータの処理と生成に焦点を当てていますが、LMMはさらに一歩進んで、テキスト、画像、動画など、様々なデータタイプを統合・理解することを目指しています。現在、LLMは比較的成熟しており、ChatGPTのようなモデルは優れたテキスト理解能力を示しています。現在、注目はマルチモーダルデータの理解に移っており、モデルが「画像を読み、動画を見る」ことを可能にします。

最近、ByteDance、南洋理工大学、香港中文大学、香港科技大学の研究者らが共同で、LLaVA-OneVisionマルチモーダル大規模モデルをオープンソース化しました。このモデルは、単一画像、複数画像、動画タスクにおいて優れた性能を発揮します。マルチモーダル大規模モデル向けに特別に設計されたLMMs-Eval評価フレームワークは、下図に示すように、LLaVA-OneVision-72BがほとんどのベンチマークでGPT-4VおよびGPT-4oを上回る性能を示すことを示しています。

LLaVA-OneVisionのビデオベンチマークテストにおけるパフォーマンス

マルチ画像ベンチマークにおけるLLaVA-OneVisionのパフォーマンス

HyperAIチュートリアルセクションに「LLaVA-OneVision マルチモーダル・オールラウンド・ビジョンモデルデモ」が追加されました。クローンを作成して起動するだけで、ワンクリックで多様なビジョンタスクを簡単に処理できます。静止画像の解析から動画の解析まで、高品質な出力を提供します。

チュートリアルアドレス:

https://go.hyper.ai/PYD2v

デモ実行中

  1. hyper.ai にログインし、「チュートリアル」ページで「LLaVA-OneVision マルチモーダルオールラウンドビジョンモデルデモ」を選択し、「このチュートリアルをオンラインで実行」をクリックします。

  2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。
  3. 右下にある「次へ: コンピューティング能力の選択」をクリックします。
  4. ページがリダイレクトされたら、「NVIDIA RTX A6000」と「PyTorch」のイメージを選択し、「次へ:レビュー」をクリックしてください。下記の招待リンクから新規登録された方には、RTX 4090トレーニング4時間分とCPUトレーニング5時間分を無料でプレゼントいたします。

HyperAI 限定招待リンク (コピーしてブラウザに直接貼り付けてください):

https://openbayes.com/console/signup?r=Ada0322_QZy7

  1. すべて正しいことを確認したら、「続行」をクリックし、リソースの割り当てをお待ちください。最初のクローン作成には約3分かかります。ステータスが「実行中」に変わったら、「APIアドレス」の横にあるジャンプ矢印をクリックしてデモページに移動してください。APIアドレスアクセス機能を使用する前に、実名認証を完了する必要がありますのでご注意ください。モデルのサイズが大きいため、コンテナに「実行中」と表示された後、APIアドレスを開く前に約1分お待ちください。そうしないと、「BadGateway」が表示されます。



効果のデモンストレーション

  1. デモインターフェースを開いたら、画像認識能力をテストしてみましょう。赤い枠の部分に、異なる感情を表現した3枚の写真をアップロードし、「どの画像が恐怖の感情を表現していますか?」という質問を入力してください。ご覧の通り、質問に正確に答え、画像の説明も表示しました(頭に手を当て、ショックを受けたり恐怖を感じたりしている女性の最初の画像は、恐怖の感情を表現しています)。

図 1 は恐怖、図 2 は幸福、図 3 は悲しみを示しています。


2. 動画理解能力も優れています。オリンピックのランニング競技の盛り上がりをまとめた動画をアップロードし、「この動画は何についてですか?」と質問すると、競技内容を正確に答え、選手の肌の色、感情、スタジアム周辺のスポンサーロゴなど、動画のシーンや細部まで正確に説明してくれることがわかります。

回答翻訳:

この動画は陸上競技、主に100メートル走のモンタージュ映像のようです。スターティングブロックで準備を整える選手たちの姿が映し出されており、そのうちの1人は黄色と緑のユニフォームを着ています。これはジャマイカの国旗の色にあたるため、ジャマイカ代表選手なのかもしれません。動画は、スタート準備中の選手たちの緊張感と集中力、スターティングブロックからの最初の蹴り出し、そしてトラック上でのスプリントの様子を捉えています。選手たちは各国代表チームやスポンサーのユニフォームを着用しており、スタジアムのあちこちにTOYOTAやTDKといった様々なスポンサーロゴが見られます。動画には選手たちの顔のクローズアップも含まれており、彼らの集中力と決意が見て取れます。最後のショットでは、選手たちが全力でスプリントする様子が映し出されており、そのうちの1人が先頭に立っており、激しいレースが繰り広げられていることを示唆しています。