CPIA大规模病理学数据集

CPIA(Comprehensive Pathological Image Analysis)数据集是一个大规模的自监督学习(SSL)预训练数据集,旨在促进病理图像分析领域的发展,CPIA数据集通过结合来自103个开源数据集的大量图像,并对其进行了广泛的标准化处理,为病理图像分析提供了一个全面且高质量的研究基础。CPIA数据集包含21,427,877张标准化图像,涵盖了48种以上的器官/组织和约100种疾病,主要包括两类数据类型:全切片图像(WSI)和特征区域图像(ROI)。其中,WSI数据经过四尺度的标准化处理,确保了每个像素点在微米尺度上的分辨率一致;而ROI图像则根据特征区域的需求,分为三个尺度。数据集的标准化过程遵循经验丰富的病理学专家的诊断习惯,以确保图像的质量和一致性。 (a) CPIA数据集的器官/组织分类组成和图像数量:CPIA数据集包含21,427,877张标准化图像,涵盖了48种以上的器官/组织和约100种疾病。条形图展示了CPIA-Mini数据集的组成,CPIA数据集的详细介绍可参见“CPIA数据集概述”部分。 (b) 各尺度WSI子数据集的采样关系:具体来说,3840×3840像素的图像代表WSI子数据集中的XL尺度,这些图像是直接从标准化后的WSI中裁剪出来的,空白区域被丢弃。960×960像素和384×384像素的图像分别代表WSI子数据集中的L尺度和M尺度,这些图像是从3840×3840像素的图像中裁剪而来。96×96像素的图像代表WSI子数据集中的S尺度,它们是从384×384像素的图像中裁剪的。 (c) 轻量级CPIA-Mini数据集的采样方法:此方法解释了XL、L、M和S尺度之间的1:16:32:32的比例关系。

全身
可视化图片
可视化图片 1
可视化图片 1
可视化图片 2
可视化图片 2
可视化图片 3
可视化图片 3
数据集元信息
维度2D
模态pathology
任务类型other
解剖结构全身
解剖区域全身
数据量21,427,877
文件格式.jpg
文件结构
CPIA/
├── L/
│   ├── ROI/
│   └── WSI/
├── M/
│   ├── ROI/
│   └── WSI/
└── S/
    ├── ROI/
    └── WSI/
引用
@article{ying2023cpia,
  title={CPIA Dataset: A Comprehensive Pathological Image Analysis Dataset for Self-supervised Learning Pre-training},
  author={Ying, Nan and Lei, Yanli and Zhang, Tianyi and Lyu, Shangqing and Li, Chunhui and Chen, Sicheng and Liu, Zeyu and Zhao, Yu and Zhang, Guanglei},
  journal={arXiv preprint arXiv:2310.17902},
  year={2023}
}
来源信息

官方网站:
访问官网

下载链接:

登录后下载
需要登录并获得知识星球权限

百度网盘:

登录后访问
需要登录并获得知识星球权限

相关论文:
查看论文

发布日期: 2023.10

统计信息

创建时间: 2025-09-17 07:35

更新时间: 2025-09-17 07:40