PubMedQA是一个基于PubMed摘要构建的生物医学问答(QA)数据集。该数据集的任务是通过对应摘要来回答研究问题,答案格式为是/否/可能(例如"术前使用他汀类药物能否减少冠状动脉搭桥术后房颤的发生?")。数据集包含1,000个专家标注的QA实例、61,200个未标注实例和211,300个人工生成的QA实例。每个PubMedQA实例包含:(1)问题,可能是现有研究文章的标题或由标题衍生而来;(2)上下文,即对应摘要中除结论外的部分;(3)长答案,即假设能回答研究问题的摘要结论部分;(4)总结结论的是/否/可能答案。
xianweichengxiang模态 | other |
任务类型 | other |
解剖结构 | 不适用 |
解剖区域 | 不适用 |
类别数 | 3 |
数据量 | 273.5k |
文件格式 | .json |
PubMedQA
│
├── ori_pqaa.json
├── ori_pqal.json
├── ori_pqau.json
└── test_ground_truth.json
统计类型 | 间距 (mm) | 尺寸 |
---|---|---|
最小值 | 不适用 |
不适用 |
中位值 | 不适用 |
不适用 |
最大值 | 不适用 |
不适用 |
@inproceedings{jin2019pubmedqa,
title={PubMedQA: A Dataset for Biomedical Research Question Answering},
author={Jin, Qiao and Dhingra, Bhuwan and Liu, Zhengping and Cohen, William and Lu, Xinghua},
booktitle={Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)},
pages={2567--2577},
year={2019}
}