Huatuo-26M 数据集,以中国古代伟大的医生华佗命名,是目前最大的中文医疗问答数据集,含有2600万个问答对。这些问答对通过文本清洗和数据去重的方法,从多个来源精心收集而来,包括在线医疗咨询网站、医学百科全书和医学知识库,覆盖了广泛的医疗知识。该数据集的创建显著扩大了医疗领域问答数据集的规模,并为中文医疗领域的自然语言处理和人工智能研究提供了一个前所未有的资源。 Huatuo-26M的推出不仅纪念了华佗的贡献,也为医疗大模型的发展提供了强有力的支持。通过提供大量真实且多样化的医疗问答对,它有助于提高医疗问答系统的性能,加强模型的理解能力和生成能力。此外,该数据集在多种应用中展示了其价值,包括零样本学习、检索增强生成,以及作为预训练语料来提升预训练语言模型的性能,从而为研究人员和开发者在构建更高效、更准确的医疗咨询和辅助诊断系统方面提供了宝贵的资源。Huatuo-26M对现有模型提出了挑战,同时对医疗研究和医疗保健中的AI开发做出了重要贡献。
xianweichengxiang模态 | other |
任务类型 | other |
解剖结构 | 不适用 |
解剖区域 | 不适用 |
数据量 | 26,503,088 |
文件格式 | .json |
# huatuo_encyclopedia_qa
.
├── train_datasets.jsonl
├── validation_datasets.jsonl
└── test_datasets,jsonl
# huatuo_knowledge_graph_qa
.
├── train_datasets.jsonl
├── validation_datasets.jsonl
└── test_datasets,jsonl
# huatuo_consultation_qa
.
├── train_datasets.jsonl
├── validation_datasets.jsonl
└── test_datasets,jsonl
# Huatuo-Lite
. format_data.jsonl
统计类型 | 间距 (mm) | 尺寸 |
---|---|---|
最小值 | 不适用 |
不适用 |
中位值 | 不适用 |
不适用 |
最大值 | 不适用 |
不适用 |
@misc{li2023huatuo26m,
title={Huatuo-26M, a Large-scale Chinese Medical QA Dataset},
author={Jianquan Li and Xidong Wang and Xiangbo Wu and Zhiyi Zhang and Xiaolong Xu and Jie Fu and Prayag Tiwari and Xiang Wan and Benyou Wang},
year={2023},
eprint={2305.01526},
archivePrefix={arXiv},
primaryClass={cs.CL}
}