|
「患者が横になるだけで、スキャン、診断、治療、修復までの全プロセスを完了し、健康の回復を実現するスマートな医療機器があります。」これは2013年のSF映画『エリジウム』のワンシーンです。 映画『エリジウム』のワンシーン 人工知能技術の急速な発展により、SF映画で描かれたような医療シナリオが現実のものとなりつつあります。医療分野では、大規模視覚言語モデル(LVLM)が画像、テキスト、さらには生理学的信号など、様々な種類のデータを処理できます。DeepSeek-VL、GPT-4V、Claude3-Opus、LLaVA-Med、MedDr、DeepDR-LLMといったモデルは、疾患の診断と治療において大きな可能性を示しています。 しかし、LVLMを臨床現場で実際に活用できるようになるには、モデルの有効性を評価するためのベンチマークテストが必要です。現在のベンチマークテストは、通常、特定の学術文献に基づいており、主に単一の領域に焦点を当てているため、多様な知覚粒度が欠如しており、実際の臨床シナリオにおけるLVLMの有効性とパフォーマンスを包括的に評価することは困難です。 これに対し、上海人工知能研究所は、ワシントン大学、モナシュ大学、華東師範大学などの研究機関と共同で、GMAI-MMBenchベンチマークを提案しました。GMAI-MMBenchは、世界中から収集された284のダウンストリームタスクデータセットから構築されており、38種類の医用画像モダリティ、18種類の臨床関連タスク、18の診療科、そしてVisual Question Answering(VQA)形式の4つの知覚粒度を網羅しています。包括的なデータ構造分類と多知覚粒度を特徴としています。 「GMAI-MMBench: 汎用医療 AI に向けた包括的なマルチモーダル評価ベンチマーク」と題された関連研究が NeurIPS 2024 データセット ベンチマークに選ばれ、arXiv でプレプリントとして公開されました。 論文の宛先: HyperAI ウェブサイトに「GMAI-MMBench Medical Multimodal Assessment Benchmark Dataset」が掲載され、ワンクリックでダウンロードできるようになりました。 データセットのダウンロードアドレス: GMAI-MMBench: これまでで最も包括的でオープンソースの汎用医療AIベンチマークGMAI-MMBench の全体的な構築プロセスは、主に 3 つのステップに分けられます。 まず、研究者たちは世界中の公開データセットと病院データから数百のデータセットを検索しました。スクリーニング、画像フォーマットとラベル表現の標準化を行った後、284の高品質なラベル付きデータセットが保存されました。 特筆すべきは、これら 284 のデータセットは、2D 検出、2D 分類、2D/3D セグメンテーションなど、さまざまな医用画像処理タスクをカバーしており、専門の医師によって注釈が付けられているため、医用画像処理タスクの多様性と高い臨床的関連性および精度が保証されていることです。 GMAI-MMBenchの概要 次に、研究者らはすべてのラベルを 18 の臨床 VQA タスクと 18 の臨床部門に分類し、さまざまな側面における LVLM の長所と短所を総合的に評価できるようにしました。これは、モデル開発者や特定のニーズを持つユーザーにとって便利です。 具体的には、研究者らは語彙ツリー構造と呼ばれる分類システムを設計し、すべての症例を18の臨床VQAタスク、18の診療科、38のモダリティに分類しました。「臨床VQAタスク」「診療科」「モダリティ」は、評価が必要な症例を検索するために使用できる用語です。例えば、腫瘍学の専門医は、腫瘍学関連の症例を選択して、腫瘍学タスクにおけるLVLMのパフォーマンスを評価できるため、特定のニーズに対する柔軟性と使いやすさが大幅に向上します。 最後に、研究者らは各ラベルに対応する質問と選択肢のプールに基づいて、質問と回答のペアを生成した。各質問には、画像のモダリティ、タスクのヒント、および対応するアノテーションの粒度情報を含める必要があった。最終的なベンチマークは、追加の検証と手動スクリーニングを通じて得られた。 GMAI-MMBenchのサンプル画像 50 モデルの評価: GMAI-MMBench ベンチマーク テストで優れたパフォーマンスを発揮するのはどれでしょうか?医療分野におけるAIの臨床応用をさらに促進するため、研究者らはGMAI-MMBench上で44のオープンソースLVLM(38の一般モデルと6の医療専用モデルを含む)を評価したほか、GPT-4o、GPT-4V、Claude3-Opus、Gemini 1.0、Gemini 1.5、Qwen-VL-Maxなどの商用のクローズドソースLVLMも評価した。 評価に参加した50のLVLMの概要 結果により、現在の LVLM には次の 5 つの大きな欠点があることが明らかになりました。
要約すると、これらの評価結果は、医療用途における現在の LVLM のパフォーマンスにはまだ大幅な改善の余地があり、実際の臨床ニーズを満たすにはさらなる最適化が必要であることを示しています。 オープンソースの医療データセットを集約し、スマートヘルスケアの徹底的な開発をサポート医療分野において、高品質なオープンソースデータセットは、医学研究と臨床実践の進歩を大きく推進する原動力となっています。そこでHyperAIは、医療関連のデータセットをいくつか選定し、以下に簡単にご紹介します。 PubMedVision大規模医療VQAデータセット PubMedVisionは、深圳ビッグデータ研究所、香港中文大学、国立健康データ研究所の研究チームによって2024年に作成された、大規模で高品質な医療マルチモーダルデータセットです。130万件の医療VQAサンプルが含まれています。 画像とテキストデータの整合を改善するために、研究チームは大規模視覚モデル(GPT-4V)を使用して画像を再記述し、10のシナリオの対話を構築し、画像とテキストデータを質問と回答の形式に書き換えて、医療視覚知識の学習を強化しました。 直接使用する: https://go.hyper.ai/ewHNg MMedC大規模多言語医療コーパス MMedCは、上海交通大学人工知能学院のスマートヘルスケアチームによって2024年に構築された多言語医療コーパスです。約255億トークンを収録し、英語、中国語、日本語、フランス語、ロシア語、スペイン語の6つの主要言語をカバーしています。 研究チームは、多言語医療基盤モデル MMed-Llama 3 もオープンソース化しました。このモデルは、複数のベンチマークテストで既存のオープンソースモデルよりも優れており、医療分野でのカスタマイズされた微調整に特に適しています。 直接使用する: https://go.hyper.ai/xpgdM MedCalc-Bench医療計算データセット MedCalc-Benchは、医療分野における大規模言語モデル(LLM)の計算能力を評価するために特別に設計されたデータセットです。国立衛生研究所(NIH)の国立医学図書館やバージニア大学を含む9つの機関によって2024年に共同で公開されました。このデータセットには、10,055個のトレーニングインスタンスと1,047個のテストインスタンスが含まれており、55種類の計算タスクをカバーしています。 直接使用する: https://go.hyper.ai/XHitC OmniMedVQA 大規模医療 VQA 評価データセット OmniMedVQAは、医療分野に特化した大規模な視覚的質問応答(VQA)評価データセットです。香港大学と上海人工知能研究所が2024年に共同で公開したこのデータセットには、12種類のモダリティと20種類以上の人体臓器や部位を網羅した118,010枚の画像が含まれています。すべての画像は実際の医療シナリオから取得されており、大規模マルチモーダル医療モデル開発のための評価ベンチマークを提供することを目指しています。 直接使用する: https://go.hyper.ai/1tvEH MedMNIST 医療画像データセット 上海交通大学が2020年10月28日にリリースしたMedMNISTは、合計45万枚の28×28の医療マルチモーダル画像を含む10個の公開医療データセットのコレクションであり、さまざまなデータパターンをカバーしており、医療画像分析に関連する問題の解決に使用できます。 直接使用する: https://go.hyper.ai/aq7Lp これらは、HyperAIが今号で推奨するデータセットです。他に高品質なデータセットを見つけた方は、ぜひコメントを残していただくか、ご自身の作品を投稿してください。 さらに高品質なデータセットは、こちらからダウンロードできます: https://go.hyper.ai/jJTaU 参考文献: https://mp.weixin.qq.com/s/vMWNQ-sIABocgScnrMW0GA |
上海AIラボとその他は、18の臨床タスクをカバーする284のデータセットを含む、マルチモーダル医療ベンチマークGMAI-MMBenchをリリースしました。
関連するおすすめ記事
-
ByteDance の SeedEdit ユニバーサル画像編集モデルがテスト用にリリースされ、ユーザーはたった 1 つの文で簡単に画像を編集できるようになりました。
-
DeepSeek-R1 を上回るパフォーマンス!Google の Gemini 2.0 シリーズから新しいモデルがリリースされ、いずれも大型モデル分野でトップ 10 にランクインしました。
-
バイトダンスのAI版レオナルド・ディカプリオが始まる:黄風嶺、八百里
-
知済ロボタクシーがホテルまで片道、端から端まで送ってくれました。(最後の「年末に安全担当者が…」という部分は関係ないようです。おそらく別のイベントかポリシーのことを指しているのでしょう。)
-
4699元から始まるvivo X200シリーズが正式に発売されました。
-
Appleが投資を撤回!OpenAI幹部交代の内幕:CEOは従業員を搾取し、セキュリティを無視し、4oの立ち上げを急ぎ、名声と利益を追求するという当初の意図は消え去った。