618ZXW

10 の主要な中国医療データセットをまとめたもので、神農伝統中国医学、古代中国医学テキスト、医学的推論、医療 Q&A などを網羅しています。

医療用人工知能の急速な発展は、高品質なデータセットのサポートに大きく依存しています。疾患診断から医薬品開発、個別化医療に至るまで、データセットはマシンビジョン、大規模モデル、その他の医療技術の応用を推進する上で不可欠な役割を果たしています。

医療データセットは様々な形態をとっており、様々な次元や分野のデータリソースを網羅しています。例えば、疾患診断の分野では、RJUA-QAのような質問応答データセットが複雑な医学知識の自動応用を推進してきました。一方、伝統中国医学の分野では、神農中医学データセットが伝統中国医学の文献、臨床症例、処方データを統合しています。

これに対処するため、この記事では、神農中医学、古代中国医学書、医学推論、医療Q&Aなどを網羅した医療分野のデータセット10個をまとめ、研究者がこれらのデータリソースの分布と特徴を迅速に理解し、特定の研究課題への適用のヒントを得ることを目的としています。

その他のオープンソース データセットを表示するにはクリックしてください。

https://go.hyper.ai/SjWDr

WeChat で Hyperai (WeChat ID: Hyperai01) を追加し、「dataset」とメンションしてディスカッション グループに参加してください。

中国の医療データセットの概要

1. 中国初の医療専門分野の質問応答推論データセット

推定サイズ: 2.34 MB

ダウンロードリンク: https://go.hyper.ai/rIwcK

このデータセットは、Ant Groupの医療LLM(大規模言語モデル)チームと上海交通大学医学部付属仁済病院泌尿器科専門チームの共同研究によって作成された、革新的な医療泌尿器科専門質問回答推論データセットです。Q-context-A(質問-文脈-回答)形式で提供され、症例データは専門医が臨床経験に基づいてまとめたもので、患者や医師の個人情報は一切考慮されていません。

2. 中国医学質問と回答データセット

推定サイズ: 279.64 MB

ダウンロードリンク: https://go.hyper.ai/lM5sd

このデータセットは、中国の医学に関する質疑応答データセットで、異なる診療科を表す6つのフォルダ(男性科(94,596件の質問と回答のペア)、内科(220,606件のペア)、産婦人科(183,751件のペア)、腫瘍科(75,553件のペア)、小児科(101,602件のペア)、外科(115,991件のペア))で構成され、合計792,099件のデータエントリが含まれています。各フォルダには1つのCSVファイルが含まれています。

3. 医療対話データセット

推定サイズ: 118.35 MB

ダウンロードリンク: https://go.hyper.ai/MCH57

これは、医療チャットボットを実行するために設計された実験的なデータセットで、患者と医師の間の 256,916 件の会話が含まれています。

4. 神農伝統中国医学データセット

推定サイズ: 28.98 MB

ダウンロードリンク: https://go.hyper.ai/iJsGu

このデータセットは、伝統中国医学(TCM)分野向けに特別に設計された、大規模な言語モデルの学習および評価用データセットです。エンティティ中心の自己学習法を用いて生成された11万以上の学習データポイントが含まれています。これらのデータポイントは、TCM分野のコアエンティティと様々なインテントシナリオに基づいており、TCM関連の質問への回答能力を向上させるだけでなく、TCM診断を支援し、個別の医療アドバイスを提供することにも役立ちます。

5. 古代中国医学書のデータセット

推定サイズ: 80.49 MB

ダウンロードリンク: https://go.hyper.ai/pyHEs

このデータセットには、秦以前の時代から清朝後期、そして中華民国に至るまでの医学古典を網羅した約700点の古代中国医学文献が含まれています。これらの文献には、医学理論、処方、薬理学だけでなく、豊富な臨床症例と医学百科事典的な知識も含まれています。

6. 伝統中国医学診断データセット

推定サイズ: 341.69 MB

ダウンロードリンク: https://go.hyper.ai/cIHaP

このデータセットは、伝統中国医学(TCM)分野に特化した高品質なデータセットで、臨床症例、著名な医師による古典文献、医学百科事典、TCMの様々な分野の用語集など、約1GBの高品質なコンテンツが含まれています。データセットは主にインターネット以外の情報源からの内部データで構成されており、コンテンツの99%は簡体字中国語です。優れた品質と高い情報密度を備えており、事前学習や更なる事前学習に適しています。

7. 伝統中国医学対話データセット

推定サイズ: 737.32 MB

ダウンロードリンク: https://go.hyper.ai/cCrcT

この中国語医療データセットは、医療分野における専門的な対話とアドバイスを提供できる言語モデルの開発とトレーニングのための包括的なリソースです。百科事典の知識、教科書のテキスト、実際の医師と患者の対話、評価データなど、様々な種類のデータを組み合わせ、モデルの精度と使いやすさを向上させることを目指しています。

8. 医療推論データセット

ダウンロードリンク: https://go.hyper.ai/BAVNR

香港中文大学と深センビッグデータ研究所によって2024年にリリースされたこのデータセットは、複雑な医療推論タスクにおけるパフォーマンスの向上を目的として、HuatuoGPT-o1医療ビッグ言語モデルを微調整するために特別に設計されました。

9. 多言語医療能力テストベンチマークデータセット

推定サイズ: 20.69 MB

ダウンロードリンク: https://go.hyper.ai/ux6FF

このデータセットは、上海交通大学人工知能学院スマートヘルスケアチームによって2024年に開発された、包括的な多言語医療能力試験ベンチマークデータセットです。医療分野における多言語モデルの開発を評価することを目的としており、6つの言語と21の医療分野をカバーしています。

10. MMedC大規模多言語医療コーパス

推定サイズ: 31.05 GB

ダウンロードリンク: https://go.hyper.ai/K8RcQ

このデータセットは、上海交通大学人工知能学院のスマートヘルスケアチームによって2024年に構築された多言語医療コーパスです。約255億トークンが含まれており、英語、中国語、日本語、フランス語、ロシア語、スペイン語の6つの主要言語をカバーしています。

上記はHyperAIによる中国の医療データセットの集大成です。hyper.ai公式サイトに掲載されているリソースで、掲載を希望されるものがありましたら、お気軽にメッセージをお送りいただくか、ご自身の作品をご提出ください。

HyperAI (hyper.ai) について

HyperAI(hyper.ai)は、中国を代表する人工知能(AI)および高性能コンピューティング(Hyper-Physical Computing)コミュニティです。中国のデータサイエンス分野のインフラ構築に尽力し、国内の開発者向けに豊富で高品質な公開リソースを提供しています。これまでに以下の実績があります。

  • 1300以上の公開データセットの国内高速ダウンロードノードを提供
  • 400以上の古典的かつ人気のあるオンラインチュートリアルが含まれています
  • 200以上のAI4Science論文事例を理解する
  • 500 以上の関連用語の検索をサポートします。
  • 中国で初めて Apache TVM の完全な中国語ドキュメントをホスト

公式ウェブサイトにアクセスして学習を始めましょう:

https://hyper.ai