CPIA(Comprehensive Pathological Image Analysis)数据集是一个大规模的自监督学习(SSL)预训练数据集,旨在促进病理图像分析领域的发展,CPIA数据集通过结合来自103个开源数据集的大量图像,并对其进行了广泛的标准化处理,为病理图像分析提供了一个全面且高质量的研究基础。CPIA数据集包含21,427,877张标准化图像,涵盖了48种以上的器官/组织和约100种疾病,主要包括两类数据类型:全切片图像(WSI)和特征区域图像(ROI)。其中,WSI数据经过四尺度的标准化处理,确保了每个像素点在微米尺度上的分辨率一致;而ROI图像则根据特征区域的需求,分为三个尺度。数据集的标准化过程遵循经验丰富的病理学专家的诊断习惯,以确保图像的质量和一致性。 (a) CPIA数据集的器官/组织分类组成和图像数量:CPIA数据集包含21,427,877张标准化图像,涵盖了48种以上的器官/组织和约100种疾病。条形图展示了CPIA-Mini数据集的组成,CPIA数据集的详细介绍可参见“CPIA数据集概述”部分。 (b) 各尺度WSI子数据集的采样关系:具体来说,3840×3840像素的图像代表WSI子数据集中的XL尺度,这些图像是直接从标准化后的WSI中裁剪出来的,空白区域被丢弃。960×960像素和384×384像素的图像分别代表WSI子数据集中的L尺度和M尺度,这些图像是从3840×3840像素的图像中裁剪而来。96×96像素的图像代表WSI子数据集中的S尺度,它们是从384×384像素的图像中裁剪的。 (c) 轻量级CPIA-Mini数据集的采样方法:此方法解释了XL、L、M和S尺度之间的1:16:32:32的比例关系。
全身维度 | 2D |
模态 | pathology |
任务类型 | other |
解剖结构 | 全身 |
解剖区域 | 全身 |
数据量 | 21,427,877 |
文件格式 | .jpg |
CPIA/
├── L/
│ ├── ROI/
│ └── WSI/
├── M/
│ ├── ROI/
│ └── WSI/
└── S/
├── ROI/
└── WSI/
@article{ying2023cpia,
title={CPIA Dataset: A Comprehensive Pathological Image Analysis Dataset for Self-supervised Learning Pre-training},
author={Ying, Nan and Lei, Yanli and Zhang, Tianyi and Lyu, Shangqing and Li, Chunhui and Chen, Sicheng and Liu, Zeyu and Zhao, Yu and Zhang, Guanglei},
journal={arXiv preprint arXiv:2310.17902},
year={2023}
}