PMC-OA 是一个大规模的数据集,包含 165 万个图像-文本对。它涵盖了来自 PubMed Central 的 2,478,267 篇可用论文中的图形和说明文字,并从中提取了 12,211,907 个图像-说明文本对。作为一个专注于生物医学领域的大型数据集,旨在解决该领域数据稀缺的问题,并推动计算机视觉(CV)和自然语言处理(NLP)的发展。它包含了从 PubMedCentral 的开放获取(OpenAccess)子集中收集的 160 万个图像-标题对,是之前数据规模的 8 倍。PMC-OA 数据集涵盖了多种不同的模态和疾病类型,大多数图像-标题样本在更细的层面上进行了对齐,即子图形和子标题。
xianweichengxiang维度 | 2D |
模态 | other |
任务类型 | other |
解剖结构 | 全身 |
解剖区域 | 全身 |
数据量 | 1.6M |
文件格式 | .jpg, .json |
.
|
├── images
│ ├── xxx.jpg
│ └── ...
│
│── train.jsonl
│── valid.jsonl
└── test.jsonl
统计类型 | 间距 (mm) | 尺寸 |
---|---|---|
最小值 | - |
- |
中位值 | - |
- |
最大值 | - |
- |
@article{lin2023pmc,
title={Pmc-clip: Contrastive language-image pre-training using biomedical documents},
author={Lin, Weixiong and Zhao, Ziheng and Zhang, Xiaoman and Wu, Chaoyi and Zhang, Ya and Wang, Yanfeng and Xie, Weidi},
journal={arXiv preprint arXiv:2303.07240},
year={2023}
}