618ZXW

上海交通大学のチームは、6つの言語をカバーし、医療ベンチマークテストでLlama 3を上回りGPT-4に迫る多言語医療モデルをリリースしました。

医療情報化の普及に伴い、医療データは規模と質の両面で様々なレベルで向上してきました。大規模モデルの時代に入り、精密医療、診断支援、医師と患者のインタラクションなど、様々なシナリオに対応した様々な大規模モデルが登場しています。

しかし、汎用モデルが多言語対応の遅れという問題に直面しているのと同様に、大規模な医療モデルの多くは英語ベースのモデルに依存しており、多言語医療専門家データの不足と断片化という制約により、英語以外のタスクを処理する際のパフォーマンスが低下するという点に注目すべきです。オープンソースの医療テキストデータでさえ、主に高リソース言語で作成されており、サポートされる言語の数は極めて限られています。

モデル学習の観点から見ると、多言語医療モデルはグローバルなデータリソースをより包括的に活用し、さらにはマルチモーダル学習データにも拡張できるため、他のモダリティからの情報に対するモデルの表現品質が向上します。応用の観点から見ると、多言語医療モデルは医師と患者間の言語コミュニケーションの障壁を軽減し、医師と患者の対話や遠隔診断など、様々なシナリオにおける診断と治療の精度を向上させるのに役立ちます。

現在のクローズドソースモデルは優れた多言語性能を示しているものの、オープンソース分野における多言語医療モデルは依然として不足しています。上海交通大学の王延鋒教授と謝偉迪教授のチームは、255億トークンを含む多言語医療コーパスMMedCを作成し、6言語をカバーする多言語医療質問応答ベンチマークMMedBenchを開発しました。さらに、80億ベースのモデルMMed-Llama 3も構築しました。これらのモデルは、複数のベンチマークテストで既存のオープンソースモデルを上回り、医療応用シナリオにより適しています。

「医療のための多言語モデルの構築に向けて」と題された関連する研究成果が、Nature Communications に掲載されました。

HyperAIウェブサイトのチュートリアルセクションに「MMed-Llama-3-8Bのワンクリック展開」が掲載されましたので、ぜひご覧ください。ご興味のある方は、以下のアドレスにアクセスしてすぐに始められます↓。また、この記事の最後には、詳細なステップバイステップのチュートリアルもご用意しています!

ワンクリック展開アドレス:

https://go.hyper.ai/yh97P

🎁ちょっとしたボーナスです!

「1024プログラマーズデー」を記念して、HyperAIはコンピューティングパワーボーナスをご提供します! OpenBayes.comに招待コード「1024」を使用して新規登録いただいた方には、シングルカードA6000プロセッサ(80人民元相当)を20時間無料でご利用いただけます(有効期間1ヶ月)。期間限定、先着順!

研究のハイライト:

  • MMedC は、多言語医療分野向けに特別に構築された最初のコーパスであり、現在までに最も広範な多言語医療コーパスでもあります。
  • MMedCにおける自己回帰学習は、モデルのパフォーマンス向上に役立ちます。フルファインチューニング評価では、MMed-Llama 3は67.75、Llama 3は62.79のパフォーマンスを達成しました。
  • MMed-Llama 3 は英語のベンチマーク テストで最先端のパフォーマンスを示し、GPT-3.5 を大幅に上回りました。

論文の宛先:
https://www.nature.com/articles/s41467-024-52417-z

プロジェクトアドレス:
https://github.com/MAGIC-AI4Med/MMedLM

多言語医療コーパスである MMedC には 255 億のトークンが含まれており、6 つの主要言語をカバーしています。

研究者らは、英語、中国語、日本語、フランス語、ロシア語、スペイン語の6言語を網羅した多言語医療コーパス(MMedC)を作成しました。英語が42%と最も多く、中国語が約19%、ロシア語がわずか7%と最も少ない割合を占めています。

MMedC には 4 つのデータ ソースから収集された 255 億のトークンが含まれています。

具体的には、研究者らは4つの異なる情報源から255億の医療関連トークンを収集しました。

まず、研究者らは、広範な多言語コーパスから医療関連コンテンツをフィルタリングするための自動パイプラインを設計しました。次に、チームは様々な言語で書かれた多数の医学書を収集し、光学文字認識(OCR)やヒューリスティックデータフィルタリングなどの手法を用いてテキストに変換しました。さらに、医学知識の幅広さを確保するため、複数の国のオープンソースの医療ウェブサイトからテキストを収集し、信頼性が高く包括的な医療情報でコーパスを充実させました。最後に、研究者らは既存の小規模な医療コーパスを統合し、MMedCの幅広さと深さをさらに強化しました。

研究者らによると、MMedC は多言語医療の分野に特化して構築された初の事前トレーニング済みコーパスであり、現在までに最も広範な多言語医療コーパスでもあるとのことです。

MMedCワンクリックダウンロードリンク:
https://go.hyper.ai/EArvA

多言語医療質問応答ベンチマークである MMedBench には、50,000 を超える複数選択の医療質問と回答のペアが含まれています。

多言語医療モデルのパフォーマンスをより適切に評価するために、研究者らはさらに、多言語医療の質問と回答のベンチマークMMedBench(MMedBench)を提案しました。これは、MMedCがカバーする6つの言語で既存の医療の多肢選択問題を要約し、GPT-4を使用してQAデータに属性分析コンポーネントを追加します。

最終的に、MMedBenchには内科、生化学、薬理学、精神医学など21の医療分野にわたる53,566件のQAペアが収録されました。研究者らはこれらを45,048件のトレーニングペアと8,518件のテストペアに分割しました。モデルの推論能力をさらに検証するため、研究者らは推論能力を評価するためのより専門的なベンチマークとして、それぞれ手動で検証された推論ステートメントを付した1,136件のQAペアのサブセットを選択しました。

MMedBench ワンクリックダウンロードリンク:
https://go.hyper.ai/D7YAo

回答の推論部分は平均200個のトークンで構成されていることは注目に値します。この多数のトークンは、言語モデルをより長い推論プロセスにさらすことで学習させるのに役立ちます。また、モデルの長く複雑な推論を生成・理解する能力を評価するためにも使用できます。

MMedBenchトレーニングセットとテストセットの基本的な数値統計

大規模多言語医療モデル MMed-Llama 3: 小型ながらも強力で、Llama 3 を上回り、GPT-4 に近づいています。

研究者らは、MMedCに基づいて医療分野の知識にアンカーされた多言語モデル、すなわちMMedLM(InternLMベース)、MMedLM 2(InternLM 2ベース)、MMed-Llama 3(Llama 3ベース)をさらに訓練しました。その後、MMedBenchベンチマークでモデルのパフォーマンスを評価しました。

まず、多言語多肢選択・多言語回答タスクにおいて、医療分野の大規模モデルは英語では高い精度を示すものの、他の言語では性能が低下することがよくあります。この現象は、MMedCによる自己回帰学習によって改善されます。例えば、フルファインチューニング評価では、MMed-Llama 3は67.75の性能を達成しましたが、Llama 3は62.79の性能を達成しました。

包括的な微調整評価のもと、MMedBench で実行された複数選択精度評価。

同様の観察結果はPEFT(パラメータ効率の良い微調整)設定にも当てはまり、LLMは後期段階でより優れたパフォーマンスを発揮し、 MMedCでのトレーニングは大幅な向上をもたらします。したがって、MMed-Llama 3は、80億のパラメータでGPT-4の74.27の精度に迫る、非常に競争力のあるオープンソースモデルです。

ゼロショット評価では、多肢選択テストにおける GPT-4 の平均精度は 74.27% でした。

さらに、本研究では、モデルによって生成された回答の解釈をさらに評価するために、上海交通大学と北京協和医学院から5名からなるレビューパネルを編成しました。

MMed-Llama 3 は、人間による評価と GPT-4 による評価の両方で最高のスコアを達成し、特に GPT-4 の評価では他のモデルを大幅に上回り、2 位のモデルである InternLM 2 よりも 0.89 ポイント高いスコアを獲得したことは注目に値します。

スコアバーは、様々な指標に基づくランキングスコアを表しています。オレンジは人間による評価スコア、ピンクはGPT-4スコアを表しています。

英語ベンチマークにおける既存の大規模言語モデルとの公平な比較を確実にするために、研究者らは MMed-Llama 3 を英語の指示に合わせて微調整し、一般的に使用されている 4 つの医療用多肢選択式質問と回答ベンチマークである MedQA、MedMCQA、PubMedQA、MMLU-Medical で評価しました。

結果によると、 MMed-Llama 3は英語ベンチマークにおいて最先端の性能を示し、MedQA、MedMCQA、PubMedQAでそれぞれ4.5%、4.3%、2.2%の性能向上を達成しました。同様に、 MMLUではGPT-3.5を大幅に上回りました(下図参照)。

英語ベンチマークテストにおけるモデル評価

MMed-Llama 3 のワンクリック展開: 言語の壁を乗り越え、常識的な医学的質問に正確に答えます。

現在、大規模医療モデルは、医用画像解析、個別化治療、患者サービスなど、様々な分野で応用され、成功を収めています。患者の利用シーンに焦点を当て、予約の取りにくさや診断サイクルの長さといった実務上の課題を解決し、医療モデルの精度が継続的に向上していることから、軽度の症状を感じた際に「大規模医療モデル医師」に助けを求める患者が増えています。患者は症状を明確かつ明確に入力するだけで、モデルが適切な医療指導を提供します。さらに、王延鋒教授と謝維迪教授のチームが提案したMMed-Llama 3は、大規模で高品質な医療コーパスを通じてモデルの医学的知識をさらに豊かにするとともに、言語の壁を克服し、多言語による質疑応答もサポートしています。

HyperAIのチュートリアルセクションに「MMed-Llama 3のワンクリック導入」が追加されました。以下は、ご自身の「AIファミリードクター」を作成するための詳細なステップバイステップのチュートリアルです。

MMed-Llama-3-8Bのワンクリック展開:

https://hyper.ai/tutorials/35167

デモ実行中

  1. hyper.ai にログインし、「チュートリアル」ページで「MMed-Llama-3-8B のワンクリック展開」を選択し、「このチュートリアルをオンラインで実行」をクリックします。


  1. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。

  1. 右下にある「次へ: コンピューティング能力の選択」をクリックします。

  1. ページがリダイレクトされたら、「NVIDIA GeForce RTX 4090」と「PyTorch」イメージを選択し、「次へ:レビュー」をクリックしてください。下記の招待リンクから新規登録された方は、RTX 4090テスト4時間分とCPUテスト5時間分を無料でご利用いただけます。

HyperAI 限定招待リンク (コピーしてブラウザに直接貼り付けてください):
https://openbayes.com/console/signup?r=Ada0322_QZy7

  1. すべて正しいことを確認したら、「続行」をクリックし、リソースの割り当てをお待ちください。最初のクローン作成には約3分かかります。ステータスが「実行中」に変わったら、「APIアドレス」の横にあるジャンプ矢印をクリックしてデモページに移動してください。APIアドレスアクセス機能を使用する前に、実名認証を完了する必要がありますのでご注意ください。

モデルが大きすぎるため、コンテナが実行中であることを示した後、API アドレスを開く前に約 1 分待つ必要があります。そうしないと、BadGateway が表示されます。



効果のデモンストレーション

デモインターフェースを開くと、症状を直接説明して「送信」をクリックできます。下の画像に示すように、「喉の痛みとくしゃみ」などの症状が風邪の兆候かどうかを尋ねると、モデルはまず一般的な風邪の症状を提示し、ユーザーの説明に基づいて診断結果を提示します。なお、モデルは「この回答は専門的な医療情報や治療に代わるものではありません」という注意書きをユーザーに提示しています

ただし、厳格な指示の微調整、選好の調整、安全性管理を経た商用モデルとは異なり、MMed-Llama 3はあくまでベースモデルであることに留意してください。MMed-Llama 3は、直接的なゼロショット診断ではなく、下流のタスクデータと連携したタスク固有の微調整に適しています。ご使用の際は、モデルの使用範囲に十分注意し、直接的な臨床使用を避けてください。