PMC-OA

PMC-OA 是一个大规模的数据集,包含 165 万个图像-文本对。它涵盖了来自 PubMed Central 的 2,478,267 篇可用论文中的图形和说明文字,并从中提取了 12,211,907 个图像-说明文本对。作为一个专注于生物医学领域的大型数据集,旨在解决该领域数据稀缺的问题,并推动计算机视觉(CV)和自然语言处理(NLP)的发展。它包含了从 PubMedCentral 的开放获取(OpenAccess)子集中收集的 160 万个图像-标题对,是之前数据规模的 8 倍。PMC-OA 数据集涵盖了多种不同的模态和疾病类型,大多数图像-标题样本在更细的层面上进行了对齐,即子图形和子标题。

xianweichengxiang
可视化图片
PMC-OA_0.png
PMC-OA_0.png
PMC-OA_1.webp
PMC-OA_1.webp
PMC-OA_2.webp
PMC-OA_2.webp
数据集元信息
维度2D
模态other
任务类型other
解剖结构全身
解剖区域全身
数据量1.6M
文件格式.jpg, .json
文件结构
.
|
├── images
│   ├── xxx.jpg
│   └── ...
│
│── train.jsonl
│── valid.jsonl
└── test.jsonl
图像尺寸统计
统计类型 间距 (mm) 尺寸
最小值 - -
中位值 - -
最大值 - -
引用
@article{lin2023pmc,
  title={Pmc-clip: Contrastive language-image pre-training using biomedical documents},
  author={Lin, Weixiong and Zhao, Ziheng and Zhang, Xiaoman and Wu, Chaoyi and Zhang, Ya and Wang, Yanfeng and Xie, Weidi},
  journal={arXiv preprint arXiv:2303.07240},
  year={2023}
}
来源信息

官方网站:
访问官网

下载链接:

登录后下载
需要登录并获得知识星球权限

百度网盘:

登录后访问
需要登录并获得知识星球权限

相关论文:
查看论文

发布日期: 2023.3

统计信息

创建时间: 2025-09-10 10:21

更新时间: 2025-09-13 06:25