PMC-OA

PMC-OA 是一个大规模的数据集，包含 165 万个图像-文本对。它涵盖了来自 PubMed Central 的 2,478,267 篇可用论文中的图形和说明文字，并从中提取了 12,211,907 个图像-说明文本对。作为一个专注于生物医学领域的大型数据集，旨在解决该领域数据稀缺的问题，并推动计算机视觉（CV）和自然语言处理（NLP）的发展。它包含了从 PubMedCentral 的开放获取（OpenAccess）子集中收集的 160 万个图像-标题对，是之前数据规模的 8 倍。PMC-OA 数据集涵盖了多种不同的模态和疾病类型，大多数图像-标题样本在更细的层面上进行了对齐，即子图形和子标题。

xianweichengxiang

可视化图片

PMC-OA_0.png

PMC-OA_1.webp

PMC-OA_2.webp

数据集元信息

维度	2D
模态	other
任务类型	other
解剖结构	全身
解剖区域	全身
数据量	1.6M
文件格式	.jpg, .json

文件结构

.
|
├── images
│   ├── xxx.jpg
│   └── ...
│
│── train.jsonl
│── valid.jsonl
└── test.jsonl

图像尺寸统计

统计类型	间距 (mm)	尺寸
最小值	`-`	`-`
中位值	`-`	`-`
最大值	`-`	`-`

引用

@article{lin2023pmc,
  title={Pmc-clip: Contrastive language-image pre-training using biomedical documents},
  author={Lin, Weixiong and Zhao, Ziheng and Zhang, Xiaoman and Wu, Chaoyi and Zhang, Ya and Wang, Yanfeng and Xie, Weidi},
  journal={arXiv preprint arXiv:2303.07240},
  year={2023}
}

来源信息

官方网站：
访问官网

下载链接：

下载数据

公开下载，无需权限

百度网盘：

登录后访问

需要登录并获得知识星球权限才能访问百度网盘

相关论文：
查看论文

发布日期： 2023.3

统计信息

创建时间： 2025-09-10 10:21

更新时间： 2025-09-13 06:25