PathText

PathText是一个专为病理全切片图像(WSI)Caption任务设计的数据集,它通过自动化流程高效提取和清理来自TCGA(癌症基因组图谱)的病理学文本信息。首先,PathText通过识别TCGA中的诊断切片及其对应的病理报告,为研究者提供了一个全面的病理学信息来源。由于这些报告通常以PDF格式存在,内容复杂且冗余,提取有用信息极具挑战性。为此,使用OCR技术将PDF文件转换为可编辑的文本,尽管这样产生的文本依然会有噪声和乱码问题。为了解决这一问题,PathText引入了大语言模型,通过设计特定提示语、自动过滤和提炼出有用的病理信息。

xianweichengxiang
可视化图片
PathText_0.png
PathText_0.png
PathText_1.png
PathText_1.png
PathText_2.png
PathText_2.png
数据集元信息
维度2D
模态other
任务类型other
解剖结构组织
解剖区域全身
数据量9009
文件格式json
文件结构
PathText.json
图像尺寸统计
统计类型 间距 (mm) 尺寸
最小值 不适用 不适用
中位值 不适用 不适用
最大值 不适用 不适用
引用
@article{chen2023mi,
  title={MI-Gen: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images},
  author={Chen, Pingyi and Li, Honglin and Zhu, Chenglu and Zheng, Sunyi and Yang, Lin},
  journal={arXiv preprint arXiv:2311.16480},
  year={2023}
}
来源信息

官方网站:
访问官网

下载链接:

登录后下载
需要登录并获得知识星球权限

相关论文:
查看论文

发布日期: 2023-11

统计信息

创建时间: 2025-09-10 10:21

更新时间: 2025-09-13 06:20