webMedQA

webMedQA数据集是专门为中文医疗问答(QA)任务构建的数据集,旨在推动相关领域的研究与应用。该数据集由中国科学院在其2019年的研究中提出,收集了来自百度医生、120问诊等专业健康咨询网站的用户健康问题及医生或热心用户的回答。这些问题涵盖内科、外科、妇科、儿科等多个临床科室,共计63,284个问题。数据集经过预处理,已去除所有网页标签、链接和乱码文本,仅保留数字、标点符号和中英文字符。此外,为支持答案排序和推荐研究,每个问题还随机采样了四个负面答案。

xianweichengxiang
可视化图片
webMedQA_0.png
webMedQA_0.png
webMedQA_1.webp
webMedQA_1.webp
webMedQA_2.webp
webMedQA_2.webp
webMedQA_3.webp
webMedQA_3.webp
数据集元信息
模态other
任务类型other
解剖结构不适用
解剖区域不适用
数据量71MB
文件格式txt
文件结构
webMedQA
|__ train.zip
    |__ medQA_train.txt
|__ valid.zip
    |__ medQA_valid.txt
|__ test.zip
    |__ medQA_test.txt
图像尺寸统计
统计类型 间距 (mm) 尺寸
最小值 不适用 不适用
中位值 不适用 不适用
最大值 不适用 不适用
引用
@article{he2019applying,
  title={Applying deep matching networks to Chinese medical question answering: A study and a dataset},
  author={He, Junqing and Fu, Mingming and Tu, Manshu},
  journal={BMC Medical Informatics and Decision Making},
  volume={19},
  number={2},
  pages={52},
  year={2019},
  doi={10.1186/s12911-019-0761-8}
}
来源信息

官方网站:
访问官网

下载链接:

登录后下载
需要登录并获得知识星球权限

相关论文:
查看论文

发布日期: 2019

统计信息

创建时间: 2025-09-10 10:21

更新时间: 2025-09-12 18:40