CMExam

医学考试题目是评估NLP模型的重要数据来源,但现有医学考试数据集存在一些局限性,主要体现为:数据来源不公平且不充分;选项信息不足,缺乏与选项相关的解释说明。CMExam是NIPS23会议上发布的中文医学考试数据集,源自中国国家医学资格考试。该数据集包含60,000多道选择题,每道题目还附加五项标注信息:疾病组别、临床科室、医学学科、能力领域和题目难度等级。这些原始信息和题目解析相比传统医学问答(Med QA)数据集能提供更丰富的上下文,从而提升模型生成答案和分析的可解释性。

xianweichengxiang
可视化图片
CMExam_0.png
CMExam_0.png
CMExam_1.webp
CMExam_1.webp
CMExam_2.webp
CMExam_2.webp
CMExam_3.webp
CMExam_3.webp
CMExam_4.webp
CMExam_4.webp
数据集元信息
模态other
任务类型other
解剖结构不适用
解剖区域不适用
数据量68,119
文件格式csv
文件结构
data
|__ train.csv
|__ val.csv
|__ test_with_annotations.csv
图像尺寸统计
统计类型 间距 (mm) 尺寸
最小值 不适用 不适用
中位值 不适用 不适用
最大值 不适用 不适用
引用
@article{liu2023benchmarking,
  title={Benchmarking Large Language Models on CMExam--A Comprehensive Chinese Medical Exam Dataset},
  author={Liu, Junling and Zhou, Peilin and Hua, Yining and Chong, Dading and Tian, Zhongyu and Liu, Andrew and Wang, Helin and You, Chenyu and Guo, Zhenhua and Zhu, Lei and others},
  journal={arXiv preprint arXiv:2306.03030},
  year={2023}
}
来源信息

官方网站:
访问官网

下载链接:

登录后下载
需要登录并获得知识星球权限

相关论文:
查看论文

发布日期: 2023-10

统计信息

创建时间: 2025-09-10 10:20

更新时间: 2025-09-11 05:11