MedQA

MedQA 是一种采用多项选择题格式的医学文本问答数据集,其问题选自美国、中国大陆及中国台湾医学委员会的考试。这些考试旨在考查医生的专业知识及临床决策能力。试题内容丰富多样,答题通常需要对相关医学概念有深刻的理解。该数据集一共包含 61,097 题,其中英语、简体中文及繁体中文三种语言版本各自含有12,723题、34,251题及14,123题。官方从下图所示的网站中收集原始数据,数据清洗阶段,官方剔除了重复题目和多余的错误选项,并提供了原始版本及经过整理的四个选项版本,同时汇集了可以为这些问题提供答案的参考书籍,以便使用者更好地利用此数据集。

xianweichengxiang
可视化图片
medqa.png
medqa.png
medqa1.png
medqa1.png
medqa2.png
medqa2.png
数据集元信息
模态other
任务类型other
解剖结构不适用
解剖区域不适用
类别数4
数据量61,097
文件格式.json
文件结构
MedQA
├── data_clean
│   ├── questions
│   │   ├── Mainland
│   │   │   ├── 4_options
│   │   │   │   ├── chinese_qbank.jsonl
│   │   │   │   ├── dev.jsonl
│   │   │   │   ├── test.jsonl
│   │   │   │   └── train.jsonl
│   │   ├── Taiwan
│   │   │   ├── metamap
│   │   │   ├── tw_translated_jsonl
│   │   │   │   ├── dev.jsonl
│   │   │   │   ├── taiwanese_qbank.jsonl
│   │   │   │   ├── test.jsonl
│   │   │   │   └── train.jsonl
│   │   └── US
│   │       ├── 4_options
│   │       ├── metamap_extracted_phrases
│   │       │   ├── dev.jsonl
│   │       │   ├── test.jsonl
│   │       │   ├── train.jsonl
│   │       │   └── US_qbank.jsonl
│   └── textbooks
│       ├── en
│       ├── zh_paragraph
│       └── zh_sentence
图像尺寸统计
统计类型 间距 (mm) 尺寸
最小值 不适用 不适用
中位值 不适用 不适用
最大值 不适用 不适用
引用
@article{jin2020disease,
  title={What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams},
  author={Jin, Di and Pan, Eileen and Oufattole, Nassim and Weng, Wei-Hung and Fang, Hanyi and Szolovits, Peter},
  journal={arXiv preprint arXiv:2009.13081},
  year={2020}
}
来源信息

官方网站:
访问官网

下载链接:

登录后下载
需要登录并获得知识星球权限

相关论文:
查看论文

发布日期: 2020-09

统计信息

创建时间: 2025-09-10 10:21

更新时间: 2025-09-12 18:17