CMExam

医学考试题目是评估NLP模型的重要数据来源，但现有医学考试数据集存在一些局限性，主要体现为：数据来源不公平且不充分；选项信息不足，缺乏与选项相关的解释说明。CMExam是NIPS23会议上发布的中文医学考试数据集，源自中国国家医学资格考试。该数据集包含60,000多道选择题，每道题目还附加五项标注信息：疾病组别、临床科室、医学学科、能力领域和题目难度等级。这些原始信息和题目解析相比传统医学问答（Med QA）数据集能提供更丰富的上下文，从而提升模型生成答案和分析的可解释性。

xianweichengxiang

可视化图片

CMExam_0.png

CMExam_1.webp

CMExam_2.webp

CMExam_3.webp

CMExam_4.webp

数据集元信息

模态	other
任务类型	other
解剖结构	不适用
解剖区域	不适用
数据量	68,119
文件格式	csv

文件结构

data
|__ train.csv
|__ val.csv
|__ test_with_annotations.csv

图像尺寸统计

统计类型	间距 (mm)	尺寸
最小值	`不适用`	`不适用`
中位值	`不适用`	`不适用`
最大值	`不适用`	`不适用`

引用

@article{liu2023benchmarking,
  title={Benchmarking Large Language Models on CMExam--A Comprehensive Chinese Medical Exam Dataset},
  author={Liu, Junling and Zhou, Peilin and Hua, Yining and Chong, Dading and Tian, Zhongyu and Liu, Andrew and Wang, Helin and You, Chenyu and Guo, Zhenhua and Zhu, Lei and others},
  journal={arXiv preprint arXiv:2306.03030},
  year={2023}
}

来源信息

官方网站：
访问官网

下载链接：

下载数据

公开下载，无需权限

相关论文：
查看论文

发布日期： 2023-10

统计信息

创建时间： 2025-09-10 10:20

更新时间： 2025-09-11 05:11