MedQA 是一种采用多项选择题格式的医学文本问答数据集,其问题选自美国、中国大陆及中国台湾医学委员会的考试。这些考试旨在考查医生的专业知识及临床决策能力。试题内容丰富多样,答题通常需要对相关医学概念有深刻的理解。该数据集一共包含 61,097 题,其中英语、简体中文及繁体中文三种语言版本各自含有12,723题、34,251题及14,123题。官方从下图所示的网站中收集原始数据,数据清洗阶段,官方剔除了重复题目和多余的错误选项,并提供了原始版本及经过整理的四个选项版本,同时汇集了可以为这些问题提供答案的参考书籍,以便使用者更好地利用此数据集。
xianweichengxiang模态 | other |
任务类型 | other |
解剖结构 | 不适用 |
解剖区域 | 不适用 |
类别数 | 4 |
数据量 | 61,097 |
文件格式 | .json |
MedQA
├── data_clean
│ ├── questions
│ │ ├── Mainland
│ │ │ ├── 4_options
│ │ │ │ ├── chinese_qbank.jsonl
│ │ │ │ ├── dev.jsonl
│ │ │ │ ├── test.jsonl
│ │ │ │ └── train.jsonl
│ │ ├── Taiwan
│ │ │ ├── metamap
│ │ │ ├── tw_translated_jsonl
│ │ │ │ ├── dev.jsonl
│ │ │ │ ├── taiwanese_qbank.jsonl
│ │ │ │ ├── test.jsonl
│ │ │ │ └── train.jsonl
│ │ └── US
│ │ ├── 4_options
│ │ ├── metamap_extracted_phrases
│ │ │ ├── dev.jsonl
│ │ │ ├── test.jsonl
│ │ │ ├── train.jsonl
│ │ │ └── US_qbank.jsonl
│ └── textbooks
│ ├── en
│ ├── zh_paragraph
│ └── zh_sentence
统计类型 | 间距 (mm) | 尺寸 |
---|---|---|
最小值 | 不适用 |
不适用 |
中位值 | 不适用 |
不适用 |
最大值 | 不适用 |
不适用 |
@article{jin2020disease,
title={What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams},
author={Jin, Di and Pan, Eileen and Oufattole, Nassim and Weng, Wei-Hung and Fang, Hanyi and Szolovits, Peter},
journal={arXiv preprint arXiv:2009.13081},
year={2020}
}