MedICaT是一个包含医学图像、图像说明文字、子图-子标题标注和内联引用的数据集。子图-子标题标注指复合图像中每个部分及其对应解释,而内联引用表示文本中提及图像的位置和内容。该数据集中的图像和说明文字提取自PubMed Central的开放获取生物医学论文,对应引文文本源自S2ORC。
xianweichengxiang维度 | 2D |
模态 | other |
任务类型 | other |
解剖结构 | 多器官 |
解剖区域 | 全身 |
数据量 | 217,060张 |
文件格式 | .png,.json |
medicat
├── images
│ ├── {pdf_hash}_{fig_uri}.png
│ ├── ...
├── report.json
统计类型 | 间距 (mm) | 尺寸 |
---|---|---|
最小值 | - |
- |
中位值 | - |
- |
最大值 | - |
- |
@article{subramanian2020medicat,
title={Medicat: A dataset of medical images, captions, and textual references},
author={Subramanian, Sanjay and Wang, Lucy Lu and Mehta, Sachin and Bogin, Ben and van Zuylen, Madeleine and Parasa, Sravanthi and Singh, Sameer and Gardner, Matt and Hajishirzi, Hannaneh},
journal={arXiv preprint arXiv:2010.06000},
year={2020}
}