PathText是一个专为病理全切片图像(WSI)Caption任务设计的数据集,它通过自动化流程高效提取和清理来自TCGA(癌症基因组图谱)的病理学文本信息。首先,PathText通过识别TCGA中的诊断切片及其对应的病理报告,为研究者提供了一个全面的病理学信息来源。由于这些报告通常以PDF格式存在,内容复杂且冗余,提取有用信息极具挑战性。为此,使用OCR技术将PDF文件转换为可编辑的文本,尽管这样产生的文本依然会有噪声和乱码问题。为了解决这一问题,PathText引入了大语言模型,通过设计特定提示语、自动过滤和提炼出有用的病理信息。
xianweichengxiang维度 | 2D |
模态 | other |
任务类型 | other |
解剖结构 | 组织 |
解剖区域 | 全身 |
数据量 | 9009 |
文件格式 | json |
PathText.json
统计类型 | 间距 (mm) | 尺寸 |
---|---|---|
最小值 | 不适用 |
不适用 |
中位值 | 不适用 |
不适用 |
最大值 | 不适用 |
不适用 |
@article{chen2023mi,
title={MI-Gen: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images},
author={Chen, Pingyi and Li, Honglin and Zhu, Chenglu and Zheng, Sunyi and Yang, Lin},
journal={arXiv preprint arXiv:2311.16480},
year={2023}
}