文档版面分析数据集整理

news2026/2/12 17:02:24

版面分析数据集

这里整理了常用版面分析数据集，持续更新中：

publaynet数据集
CDLA数据集
TableBank数据集
D4LA 数据集
DocLayNet文档布局分割数据集
M6Doc数据集

版面分析数据集多为目标检测数据集，除了开源数据，用户还可使用合成工具自行合成，如labelme等。

1、publaynet数据集

数据来源：https://github.com/ibm-aur-nlp/PubLayNet
数据简介：PubLayNet是文档图像版面分析的大型数据集，其布局用多边形边框分割标注。文档的来源是PubMed Central Open Access子集（商业用途集合），通过匹配PubMed Central Open Access子集中的文章的PDF格式和XML格式，自动生成注释，包含Text、Title、Tale、Figure、List，共5个类别，数据集中包含335,703张训练集、11,245张验证集和11,405张测试集。
说明：使用该数据集时，需要遵守CDLA-Permissive协议。

2、CDLA数据集

数据来源：https://github.com/buptlihang/CDLA
数据简介：CDLA据集的训练集合中包含5000张图像，验证集合中包含1000张图像。总共包含10个类别，分别是： Text, Title, Figure, Figure caption, Table, Table caption, Header, Footer, Reference, Equation。部分图像以及标注框可视化如下所示。
说明：基于PaddleDetection套件，在该数据集上训练目标检测模型时，在转换label时，需要将label.txt中的__ignore__与_background_去除。

3、TableBank数据集

数据来源：https://doc-analysis.github.io/tablebank-page/index.html
数据简介：TableBank数据集包含Latex（训练集187199张，验证集7265张，测试集5719张）与Word（训练集73383张，验证集2735张，测试集2281张）两种类别的文档。仅包含Table 1个类别。部分图像以及标注框可视化如下所示。
说明：使用该数据集时，需要遵守Apache-2.0协议。

4、D4LA 数据集

数据来源：https://modelscope.cn/datasets/iic/D4LA/summary
数据介绍：D4LA是面向文档版面分析的数据集。包含12类文档工27类文档版面类型，详细如下: 在这里插入图片描述

5、DocLayNet文档布局分割数据集

数据来源：https://github.com/DS4SD/DocLayNet
数据介绍：DocLayNet 使用边界框为来自 6 个文档类别的 80863 个独特页面上的 11 个不同类标签提供逐页布局分割的基本事实。与 PubLayNet 或 DocBank 等相关工作相比，它提供了几个独特的功能：
人工注释：DocLayNet 由训练有素的专家手工注释，通过对每个页面布局的人工识别和解释，提供布局分割的黄金标准
布局变化大：DocLayNet 包括来自金融、科学、专利、投标、法律文本和手册等多种公共来源的多样化且复杂的布局
详细标签集：DocLayNet 定义了 11 个类标签，以高度详细地区分布局特征。
冗余注释：DocLayNet 中的一小部分页面带有双重或三重注释，允许估计注释不确定性以及使用 ML 模型可实现的预测准确性的上限
预定义的训练集、测试集和验证集：DocLayNet 为每个集提供固定集，以确保类标签的比例表示，并避免在集合中泄漏独特的布局样式。
在这里插入图片描述

6、M6Doc数据集

数据来源：https://github.com/HCIILAB/M6Doc
数据介绍：数据集现已由华南理工大学深度学习与视觉计算实验室发布，数据集总共包含9,080张现代文档图像，分为七个子集，即科学文章（11%）、教科书（23%）、试卷（22%）、杂志（22%）、报纸（11%）、笔记（5.5%）和书籍（5.5%）（根据内容和布局）。它包含三种格式：PDF（64%）、拍照文档（5%）和扫描文档（31%）。该数据集总共包含 237,116 个带注释的实例。
在这里插入图片描述