webMedQA

webMedQA数据集是专门为中文医疗问答（QA）任务构建的数据集，旨在推动相关领域的研究与应用。该数据集由中国科学院在其2019年的研究中提出，收集了来自百度医生、120问诊等专业健康咨询网站的用户健康问题及医生或热心用户的回答。这些问题涵盖内科、外科、妇科、儿科等多个临床科室，共计63,284个问题。数据集经过预处理，已去除所有网页标签、链接和乱码文本，仅保留数字、标点符号和中英文字符。此外，为支持答案排序和推荐研究，每个问题还随机采样了四个负面答案。

xianweichengxiang

可视化图片

webMedQA_0.png

webMedQA_1.webp

webMedQA_2.webp

webMedQA_3.webp

数据集元信息

模态	other
任务类型	other
解剖结构	不适用
解剖区域	不适用
数据量	71MB
文件格式	txt

文件结构

webMedQA
|__ train.zip
    |__ medQA_train.txt
|__ valid.zip
    |__ medQA_valid.txt
|__ test.zip
    |__ medQA_test.txt

图像尺寸统计

统计类型	间距 (mm)	尺寸
最小值	`不适用`	`不适用`
中位值	`不适用`	`不适用`
最大值	`不适用`	`不适用`

引用

@article{he2019applying,
  title={Applying deep matching networks to Chinese medical question answering: A study and a dataset},
  author={He, Junqing and Fu, Mingming and Tu, Manshu},
  journal={BMC Medical Informatics and Decision Making},
  volume={19},
  number={2},
  pages={52},
  year={2019},
  doi={10.1186/s12911-019-0761-8}
}

来源信息

官方网站：
访问官网

下载链接：

下载数据

公开下载，无需权限

相关论文：
查看论文

发布日期： 2019

统计信息

创建时间： 2025-09-10 10:21

更新时间： 2025-09-12 18:40