版面分析数据集
这里整理了常用版面分析数据集,持续更新中:
- publaynet数据集
- CDLA数据集
- TableBank数据集
- D4LA 数据集
- DocLayNet文档布局分割数据集
- M6Doc数据集
版面分析数据集多为目标检测数据集,除了开源数据,用户还可使用合成工具自行合成,如labelme等。
1、publaynet数据集
- 数据来源:https://github.com/ibm-aur-nlp/PubLayNet
- 数据简介:PubLayNet是文档图像版面分析的大型数据集,其布局用多边形边框分割标注。文档的来源是PubMed Central Open Access子集(商业用途集合),通过匹配PubMed Central Open Access子集中的文章的PDF格式和XML格式,自动生成注释,包含Text、Title、Tale、Figure、List,共5个类别,数据集中包含335,703张训练集、11,245张验证集和11,405张测试集。
- 说明:使用该数据集时,需要遵守CDLA-Permissive协议。
2、CDLA数据集
- 数据来源:https://github.com/buptlihang/CDLA
- 数据简介:CDLA据集的训练集合中包含5000张图像,验证集合中包含1000张图像。总共包含10个类别,分别是:
Text, Title, Figure, Figure caption, Table, Table caption, Header, Footer, Reference, Equation
。部分图像以及标注框可视化如下所示。
- 说明:基于PaddleDetection套件,在该数据集上训练目标检测模型时,在转换label时,需要将
label.txt
中的__ignore__
与_background_
去除。
3、TableBank数据集
- 数据来源:https://doc-analysis.github.io/tablebank-page/index.html
- 数据简介:TableBank数据集包含Latex(训练集187199张,验证集7265张,测试集5719张)与Word(训练集73383张,验证集2735张,测试集2281张)两种类别的文档。仅包含
Table
1个类别。部分图像以及标注框可视化如下所示。
- 说明:使用该数据集时,需要遵守Apache-2.0协议。
4、D4LA 数据集
数据来源:https://modelscope.cn/datasets/iic/D4LA/summary
数据介绍:D4LA是面向文档版面分析的数据集。包含12类文档工27类文档版面类型,详细如下:
5、DocLayNet文档布局分割数据集
数据来源:https://github.com/DS4SD/DocLayNet
数据介绍:DocLayNet 使用边界框为来自 6 个文档类别的 80863 个独特页面上的 11 个不同类标签提供逐页布局分割的基本事实。与 PubLayNet 或 DocBank 等相关工作相比,它提供了几个独特的功能:
人工注释:DocLayNet 由训练有素的专家手工注释,通过对每个页面布局的人工识别和解释,提供布局分割的黄金标准
布局变化大:DocLayNet 包括来自金融、科学、专利、投标、法律文本和手册等多种公共来源的多样化且复杂的布局
详细标签集:DocLayNet 定义了 11 个类标签,以高度详细地区分布局特征。
冗余注释:DocLayNet 中的一小部分页面带有双重或三重注释,允许估计注释不确定性以及使用 ML 模型可实现的预测准确性的上限
预定义的训练集、测试集和验证集:DocLayNet 为每个集提供固定集,以确保类标签的比例表示,并避免在集合中泄漏独特的布局样式。
6、M6Doc数据集
数据来源:https://github.com/HCIILAB/M6Doc
数据介绍:数据集现已由华南理工大学深度学习与视觉计算实验室发布,数据集总共包含9,080张现代文档图像,分为七个子集,即科学文章(11%)、教科书(23%)、试卷(22%)、杂志(22%)、报纸(11%)、笔记(5.5%)和书籍(5.5%)(根据内容和布局)。它包含三种格式:PDF(64%)、拍照文档(5%)和扫描文档(31%)。该数据集总共包含 237,116 个带注释的实例。