上海AIラボとその他は、18の臨床タスクをカバーする284のデータセットを含む、マルチモーダル医療ベンチマークGMAI-MMBenchをリリースしました。

「患者が横になるだけで、スキャン、診断、治療、修復までの全プロセスを完了し、健康の回復を実現するスマートな医療機器があります。」これは2013年のSF映画『エリジウム』のワンシーンです。

映画『エリジウム』のワンシーン

人工知能技術の急速な発展により、SF映画で描かれたような医療シナリオが現実のものとなりつつあります。医療分野では、大規模視覚言語モデル（LVLM）が画像、テキスト、さらには生理学的信号など、様々な種類のデータを処理できます。DeepSeek-VL、GPT-4V、Claude3-Opus、LLaVA-Med、MedDr、DeepDR-LLMといったモデルは、疾患の診断と治療において大きな可能性を示しています。

しかし、LVLMを臨床現場で実際に活用できるようになるには、モデルの有効性を評価するためのベンチマークテストが必要です。現在のベンチマークテストは、通常、特定の学術文献に基づいており、主に単一の領域に焦点を当てているため、多様な知覚粒度が欠如しており、実際の臨床シナリオにおけるLVLMの有効性とパフォーマンスを包括的に評価することは困難です。

これに対し、上海人工知能研究所は、ワシントン大学、モナシュ大学、華東師範大学などの研究機関と共同で、GMAI-MMBenchベンチマークを提案しました。GMAI-MMBenchは、世界中から収集された284のダウンストリームタスクデータセットから構築されており、38種類の医用画像モダリティ、18種類の臨床関連タスク、18の診療科、そしてVisual Question Answering（VQA）形式の4つの知覚粒度を網羅しています。包括的なデータ構造分類と多知覚粒度を特徴としています。

「GMAI-MMBench: 汎用医療 AI に向けた包括的なマルチモーダル評価ベンチマーク」と題された関連研究が NeurIPS 2024 データセットベンチマークに選ばれ、arXiv でプレプリントとして公開されました。

論文の宛先:
https://arxiv.org/abs/2408.03361v7

HyperAI ウェブサイトに「GMAI-MMBench Medical Multimodal Assessment Benchmark Dataset」が掲載され、ワンクリックでダウンロードできるようになりました。

データセットのダウンロードアドレス:
https://go.hyper.ai/xxy3w

GMAI-MMBench: これまでで最も包括的でオープンソースの汎用医療AIベンチマーク

GMAI-MMBench の全体的な構築プロセスは、主に 3 つのステップに分けられます。

まず、研究者たちは世界中の公開データセットと病院データから数百のデータセットを検索しました。スクリーニング、画像フォーマットとラベル表現の標準化を行った後、284の高品質なラベル付きデータセットが保存されました。

特筆すべきは、これら 284 のデータセットは、2D 検出、2D 分類、2D/3D セグメンテーションなど、さまざまな医用画像処理タスクをカバーしており、専門の医師によって注釈が付けられているため、医用画像処理タスクの多様性と高い臨床的関連性および精度が保証されていることです。

GMAI-MMBenchの概要

次に、研究者らはすべてのラベルを 18 の臨床 VQA タスクと 18 の臨床部門に分類し、さまざまな側面における LVLM の長所と短所を総合的に評価できるようにしました。これは、モデル開発者や特定のニーズを持つユーザーにとって便利です。

具体的には、研究者らは語彙ツリー構造と呼ばれる分類システムを設計し、すべての症例を18の臨床VQAタスク、18の診療科、38のモダリティに分類しました。「臨床VQAタスク」「診療科」「モダリティ」は、評価が必要な症例を検索するために使用できる用語です。例えば、腫瘍学の専門医は、腫瘍学関連の症例を選択して、腫瘍学タスクにおけるLVLMのパフォーマンスを評価できるため、特定のニーズに対する柔軟性と使いやすさが大幅に向上します。

最後に、研究者らは各ラベルに対応する質問と選択肢のプールに基づいて、質問と回答のペアを生成した。各質問には、画像のモダリティ、タスクのヒント、および対応するアノテーションの粒度情報を含める必要があった。最終的なベンチマークは、追加の検証と手動スクリーニングを通じて得られた。

GMAI-MMBenchのサンプル画像

50 モデルの評価: GMAI-MMBench ベンチマークテストで優れたパフォーマンスを発揮するのはどれでしょうか?

医療分野におけるAIの臨床応用をさらに促進するため、研究者らはGMAI-MMBench上で44のオープンソースLVLM（38の一般モデルと6の医療専用モデルを含む）を評価したほか、GPT-4o、GPT-4V、Claude3-Opus、Gemini 1.0、Gemini 1.5、Qwen-VL-Maxなどの商用のクローズドソースLVLMも評価した。

評価に参加した50のLVLMの概要

結果により、現在の LVLM には次の 5 つの大きな欠点があることが明らかになりました。

臨床応用においては依然として改善の余地があります。最も優れたモデルであるGPT-4oでさえ、実用的な臨床応用の要件を満たしているにもかかわらず、精度はわずか53.96%にとどまりました。これは、現在のLVLMが医療専門家の問題への対応には不十分であり、依然として大きな改善の余地があることを示しています。
オープンソースモデルと商用モデルの比較：MedDrやDeepSeek-VL-7BなどのオープンソースLVLMは約44%の精度を達成し、一部のタスクでは商用モデルのClaude3-OpusやQwen-VL-Maxを上回り、Gemini 1.5やGPT-4Vと同等の性能を発揮しています。しかしながら、最高性能のGPT-4oには依然として大きく遅れをとっています。
ほとんどの医療専用モデルは、一般的な LVLM の一般的なパフォーマンスレベル (約 30% の精度) を達成するのに苦労していますが、MedDr は 43.69% の精度を達成しています。
ほとんどのLVLMは、臨床VQAタスク、診療科、知覚粒度の違いによってパフォーマンスにばらつきが見られました。特に、知覚粒度が異なる実験では、ボックスレベルのアノテーション精度が一貫して最も低く、画像レベルのアノテーションよりもさらに低い結果となりました。
パフォーマンスのボトルネックにつながる主な要因としては、知覚エラー（画像コンテンツの認識エラーなど）、医療知識の欠如、無関係な回答、セキュリティプロトコルによる質問への回答拒否などが挙げられます。

要約すると、これらの評価結果は、医療用途における現在の LVLM のパフォーマンスにはまだ大幅な改善の余地があり、実際の臨床ニーズを満たすにはさらなる最適化が必要であることを示しています。

オープンソースの医療データセットを集約し、スマートヘルスケアの徹底的な開発をサポート

医療分野において、高品質なオープンソースデータセットは、医学研究と臨床実践の進歩を大きく推進する原動力となっています。そこでHyperAIは、医療関連のデータセットをいくつか選定し、以下に簡単にご紹介します。

PubMedVision大規模医療VQAデータセット

PubMedVisionは、深圳ビッグデータ研究所、香港中文大学、国立健康データ研究所の研究チームによって2024年に作成された、大規模で高品質な医療マルチモーダルデータセットです。130万件の医療VQAサンプルが含まれています。

画像とテキストデータの整合を改善するために、研究チームは大規模視覚モデル（GPT-4V）を使用して画像を再記述し、10のシナリオの対話を構築し、画像とテキストデータを質問と回答の形式に書き換えて、医療視覚知識の学習を強化しました。

直接使用する: https://go.hyper.ai/ewHNg

MMedC大規模多言語医療コーパス

MMedCは、上海交通大学人工知能学院のスマートヘルスケアチームによって2024年に構築された多言語医療コーパスです。約255億トークンを収録し、英語、中国語、日本語、フランス語、ロシア語、スペイン語の6つの主要言語をカバーしています。

研究チームは、多言語医療基盤モデル MMed-Llama 3 もオープンソース化しました。このモデルは、複数のベンチマークテストで既存のオープンソースモデルよりも優れており、医療分野でのカスタマイズされた微調整に特に適しています。

直接使用する: https://go.hyper.ai/xpgdM

MedCalc-Bench医療計算データセット

MedCalc-Benchは、医療分野における大規模言語モデル（LLM）の計算能力を評価するために特別に設計されたデータセットです。国立衛生研究所（NIH）の国立医学図書館やバージニア大学を含む9つの機関によって2024年に共同で公開されました。このデータセットには、10,055個のトレーニングインスタンスと1,047個のテストインスタンスが含まれており、55種類の計算タスクをカバーしています。

直接使用する: https://go.hyper.ai/XHitC

OmniMedVQA 大規模医療 VQA 評価データセット

OmniMedVQAは、医療分野に特化した大規模な視覚的質問応答（VQA）評価データセットです。香港大学と上海人工知能研究所が2024年に共同で公開したこのデータセットには、12種類のモダリティと20種類以上の人体臓器や部位を網羅した118,010枚の画像が含まれています。すべての画像は実際の医療シナリオから取得されており、大規模マルチモーダル医療モデル開発のための評価ベンチマークを提供することを目指しています。

直接使用する: https://go.hyper.ai/1tvEH

MedMNIST 医療画像データセット

上海交通大学が2020年10月28日にリリースしたMedMNISTは、合計45万枚の28×28の医療マルチモーダル画像を含む10個の公開医療データセットのコレクションであり、さまざまなデータパターンをカバーしており、医療画像分析に関連する問題の解決に使用できます。

直接使用する: https://go.hyper.ai/aq7Lp

これらは、HyperAIが今号で推奨するデータセットです。他に高品質なデータセットを見つけた方は、ぜひコメントを残していただくか、ご自身の作品を投稿してください。

さらに高品質なデータセットは、こちらからダウンロードできます: https://go.hyper.ai/jJTaU

参考文献:

https://mp.weixin.qq.com/s/vMWNQ-sIABocgScnrMW0GA

618ZXW

上海AIラボとその他は、18の臨床タスクをカバーする284のデータセットを含む、マルチモーダル医療ベンチマークGMAI-MMBenchをリリースしました。

GMAI-MMBench: これまでで最も包括的でオープンソースの汎用医療AIベンチマーク

50 モデルの評価: GMAI-MMBench ベンチマークテストで優れたパフォーマンスを発揮するのはどれでしょうか?

オープンソースの医療データセットを集約し、スマートヘルスケアの徹底的な開発をサポート

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ

GMAI-MMBench: これまでで最も包括的でオープンソースの汎用医療AIベンチマーク

50 モデルの評価: GMAI-MMBench ベンチマーク テストで優れたパフォーマンスを発揮するのはどれでしょうか?

オープンソースの医療データセットを集約し、スマートヘルスケアの徹底的な開発をサポート

関連するおすすめ記事

ランダムにおすすめされた記事

人気のタグ

50 モデルの評価: GMAI-MMBench ベンチマークテストで優れたパフォーマンスを発揮するのはどれでしょうか?