webMedQA数据集是专门为中文医疗问答(QA)任务构建的数据集,旨在推动相关领域的研究与应用。该数据集由中国科学院在其2019年的研究中提出,收集了来自百度医生、120问诊等专业健康咨询网站的用户健康问题及医生或热心用户的回答。这些问题涵盖内科、外科、妇科、儿科等多个临床科室,共计63,284个问题。数据集经过预处理,已去除所有网页标签、链接和乱码文本,仅保留数字、标点符号和中英文字符。此外,为支持答案排序和推荐研究,每个问题还随机采样了四个负面答案。
xianweichengxiang模态 | other |
任务类型 | other |
解剖结构 | 不适用 |
解剖区域 | 不适用 |
数据量 | 71MB |
文件格式 | txt |
webMedQA
|__ train.zip
|__ medQA_train.txt
|__ valid.zip
|__ medQA_valid.txt
|__ test.zip
|__ medQA_test.txt
统计类型 | 间距 (mm) | 尺寸 |
---|---|---|
最小值 | 不适用 |
不适用 |
中位值 | 不适用 |
不适用 |
最大值 | 不适用 |
不适用 |
@article{he2019applying,
title={Applying deep matching networks to Chinese medical question answering: A study and a dataset},
author={He, Junqing and Fu, Mingming and Tu, Manshu},
journal={BMC Medical Informatics and Decision Making},
volume={19},
number={2},
pages={52},
year={2019},
doi={10.1186/s12911-019-0761-8}
}