Huatuo-26M

Huatuo-26M 数据集，以中国古代伟大的医生华佗命名，是目前最大的中文医疗问答数据集，含有2600万个问答对。这些问答对通过文本清洗和数据去重的方法，从多个来源精心收集而来，包括在线医疗咨询网站、医学百科全书和医学知识库，覆盖了广泛的医疗知识。该数据集的创建显著扩大了医疗领域问答数据集的规模，并为中文医疗领域的自然语言处理和人工智能研究提供了一个前所未有的资源。 Huatuo-26M的推出不仅纪念了华佗的贡献，也为医疗大模型的发展提供了强有力的支持。通过提供大量真实且多样化的医疗问答对，它有助于提高医疗问答系统的性能，加强模型的理解能力和生成能力。此外，该数据集在多种应用中展示了其价值，包括零样本学习、检索增强生成，以及作为预训练语料来提升预训练语言模型的性能，从而为研究人员和开发者在构建更高效、更准确的医疗咨询和辅助诊断系统方面提供了宝贵的资源。Huatuo-26M对现有模型提出了挑战，同时对医疗研究和医疗保健中的AI开发做出了重要贡献。

xianweichengxiang

可视化图片

Huatuo-26M_0.png

Huatuo-26M_1.webp

Huatuo-26M_2.webp

数据集元信息

模态	other
任务类型	other
解剖结构	不适用
解剖区域	不适用
数据量	26,503,088
文件格式	.json

文件结构

# huatuo_encyclopedia_qa
.
├── train_datasets.jsonl
├── validation_datasets.jsonl
└── test_datasets,jsonl

# huatuo_knowledge_graph_qa
.
├── train_datasets.jsonl
├── validation_datasets.jsonl
└── test_datasets,jsonl

# huatuo_consultation_qa
.
├── train_datasets.jsonl
├── validation_datasets.jsonl
└── test_datasets,jsonl

# Huatuo-Lite
. format_data.jsonl

图像尺寸统计

统计类型	间距 (mm)	尺寸
最小值	`不适用`	`不适用`
中位值	`不适用`	`不适用`
最大值	`不适用`	`不适用`

引用

@misc{li2023huatuo26m,
      title={Huatuo-26M, a Large-scale Chinese Medical QA Dataset}, 
      author={Jianquan Li and Xidong Wang and Xiangbo Wu and Zhiyi Zhang and Xiaolong Xu and Jie Fu and Prayag Tiwari and Xiang Wan and Benyou Wang},
      year={2023},
      eprint={2305.01526},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

来源信息

官方网站：
访问官网

下载链接：

下载数据

公开下载，无需权限

相关论文：
查看论文

发布日期： 2023.5

统计信息

创建时间： 2025-09-10 10:21

更新时间： 2025-09-12 12:40