PathText

PathText是一个专为病理全切片图像（WSI）Caption任务设计的数据集，它通过自动化流程高效提取和清理来自TCGA（癌症基因组图谱）的病理学文本信息。首先，PathText通过识别TCGA中的诊断切片及其对应的病理报告，为研究者提供了一个全面的病理学信息来源。由于这些报告通常以PDF格式存在，内容复杂且冗余，提取有用信息极具挑战性。为此，使用OCR技术将PDF文件转换为可编辑的文本，尽管这样产生的文本依然会有噪声和乱码问题。为了解决这一问题，PathText引入了大语言模型，通过设计特定提示语、自动过滤和提炼出有用的病理信息。

xianweichengxiang

可视化图片

PathText_0.png

PathText_1.png

PathText_2.png

数据集元信息

维度	2D
模态	other
任务类型	other
解剖结构	组织
解剖区域	全身
数据量	9009
文件格式	json

文件结构

PathText.json

图像尺寸统计

统计类型	间距 (mm)	尺寸
最小值	`不适用`	`不适用`
中位值	`不适用`	`不适用`
最大值	`不适用`	`不适用`

引用

@article{chen2023mi,
  title={MI-Gen: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images},
  author={Chen, Pingyi and Li, Honglin and Zhu, Chenglu and Zheng, Sunyi and Yang, Lin},
  journal={arXiv preprint arXiv:2311.16480},
  year={2023}
}

来源信息

官方网站：
访问官网

下载链接：

下载数据

公开下载，无需权限

相关论文：
查看论文

发布日期： 2023-11

统计信息

创建时间： 2025-09-10 10:21

更新时间： 2025-09-13 06:20