文档版面分析数据集整理

news2024/11/17 19:34:53

版面分析数据集

这里整理了常用版面分析数据集,持续更新中:

  • publaynet数据集
  • CDLA数据集
  • TableBank数据集
  • D4LA 数据集
  • DocLayNet文档布局分割数据集
  • M6Doc数据集

版面分析数据集多为目标检测数据集,除了开源数据,用户还可使用合成工具自行合成,如labelme等。

1、publaynet数据集

  • 数据来源:https://github.com/ibm-aur-nlp/PubLayNet
  • 数据简介:PubLayNet是文档图像版面分析的大型数据集,其布局用多边形边框分割标注。文档的来源是PubMed Central Open Access子集(商业用途集合),通过匹配PubMed Central Open Access子集中的文章的PDF格式和XML格式,自动生成注释,包含Text、Title、Tale、Figure、List,共5个类别,数据集中包含335,703张训练集、11,245张验证集和11,405张测试集。
    在这里插入图片描述
  • 说明:使用该数据集时,需要遵守CDLA-Permissive协议。

2、CDLA数据集

  • 数据来源:https://github.com/buptlihang/CDLA
  • 数据简介:CDLA据集的训练集合中包含5000张图像,验证集合中包含1000张图像。总共包含10个类别,分别是: Text, Title, Figure, Figure caption, Table, Table caption, Header, Footer, Reference, Equation。部分图像以及标注框可视化如下所示。
    在这里插入图片描述
  • 说明:基于PaddleDetection套件,在该数据集上训练目标检测模型时,在转换label时,需要将label.txt中的__ignore___background_去除。

3、TableBank数据集

  • 数据来源:https://doc-analysis.github.io/tablebank-page/index.html
  • 数据简介:TableBank数据集包含Latex(训练集187199张,验证集7265张,测试集5719张)与Word(训练集73383张,验证集2735张,测试集2281张)两种类别的文档。仅包含Table 1个类别。部分图像以及标注框可视化如下所示。
    在这里插入图片描述
  • 说明:使用该数据集时,需要遵守Apache-2.0协议。

4、D4LA 数据集

数据来源:https://modelscope.cn/datasets/iic/D4LA/summary
数据介绍:D4LA是面向文档版面分析的数据集。包含12类文档工27类文档版面类型,详细如下:在这里插入图片描述

5、DocLayNet文档布局分割数据集

数据来源:https://github.com/DS4SD/DocLayNet
数据介绍:DocLayNet 使用边界框为来自 6 个文档类别的 80863 个独特页面上的 11 个不同类标签提供逐页布局分割的基本事实。与 PubLayNet 或 DocBank 等相关工作相比,它提供了几个独特的功能:
人工注释:DocLayNet 由训练有素的专家手工注释,通过对每个页面布局的人工识别和解释,提供布局分割的黄金标准
布局变化大:DocLayNet 包括来自金融、科学、专利、投标、法律文本和手册等多种公共来源的多样化且复杂的布局
详细标签集:DocLayNet 定义了 11 个类标签,以高度详细地区分布局特征。
冗余注释:DocLayNet 中的一小部分页面带有双重或三重注释,允许估计注释不确定性以及使用 ML 模型可实现的预测准确性的上限
预定义的训练集、测试集和验证集:DocLayNet 为每个集提供固定集,以确保类标签的比例表示,并避免在集合中泄漏独特的布局样式。
在这里插入图片描述

6、M6Doc数据集

数据来源:https://github.com/HCIILAB/M6Doc
数据介绍:数据集现已由华南理工大学深度学习与视觉计算实验室发布,数据集总共包含9,080张现代文档图像,分为七个子集,即科学文章(11%)、教科书(23%)、试卷(22%)、杂志(22%)、报纸(11%)、笔记(5.5%)和书籍(5.5%)(根据内容和布局)。它包含三种格式:PDF(64%)、拍照文档(5%)和扫描文档(31%)。该数据集总共包含 237,116 个带注释的实例。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1508216.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AIGC——ControlNet模型的原理

简介 ControlNet旨在控制预训练的大型扩散模型&#xff0c;以支持额外的输入条件。ControlNet能够以端到端的方式学习特定任务的条件&#xff0c;即使在训练数据集很小的情况下&#xff08;<50k&#xff09;&#xff0c;也能保持稳健性。此外&#xff0c;训练ControlNet的速…

更改npm的镜像地址

使用如下命令查看镜像地址 npm config get registry 修改npm镜像的地址 npm config set registry https://registry.npmmirror.com/

​如何防止网络攻击?

应对不同类型网络攻击的最佳途径是“知己”、“知彼”&#xff0c;在了解它们的工作原理、能够识别其手段、方法及意图的前提下&#xff0c;找出针对性的应对文案。今天&#xff0c;就为大家总结以下防止不同类型网络攻击的有效方法&#xff0c;希望无论是对个人、还是企业和组…

Linux调试器--gdb的介绍以及使用

文章目录 1.前言 ✒️2.介绍gdb✒️3.Debug模式和Release模式的区别✒️4.如何使用gdb✒️1️⃣.在debug模式下编译2️⃣.进入调试3️⃣ .调试命令集合⭐️⭐️ 1.前言 ✒️ &#x1f557;在我们之前的学习中已经学会了使用vim编译器编写c/c代码&#xff0c;但是对于一个程序员…

零基础自学C语言|自定义类型:结构体

✈结构体类型的声明 前面我们在学习操作符的时候&#xff0c;已经学习了结构体的知识&#xff0c;这里稍微复习一下。 &#x1f680;结构体回顾 结构是一些值的集合&#xff0c;这些值称为成员变量。结构的每个成员可以是不同类型的变量。 &#x1fa82;结构的声明 例如&a…

了解转义字符

了解转义字符 也许在前面的代码中你看到 \n , \0 很纳闷是啥。其实在字符中有⼀组特殊的字符是转义字符&#xff0c;转义字符顾名思义&#xff1a;转变原来的意思的字符。 比如&#xff1a;我们有字符 n &#xff0c;在字符串中打印的时候自然能打印出这个字符&#xff0c;如下…

OpenCV 图像的几何变换

一、图像缩放 1.API cv2.resize(src, dsize, fx0,fy0,interpolation cv2.INTER_LINEAR) 参数&#xff1a; ①src &#xff1a;输入图像 ②dsize&#xff1a;绝对尺寸 ③fx&#xff0c;fy&#xff1a;相对尺寸 ④interpolation&#xff1a;插值方法 2.代码演示 import cv2 …

项目管理类,PMP和软考哪个更实用?

如果你想转变职业发展方向&#xff0c;那么请仔细考虑你的工作定位。对于项目管理而言&#xff0c;PMP考试是专门为项目管理人员设计的。而与项目管理相关的软考考试主要包括软考集成和高级。不过&#xff0c;软考更多地关注计算机技术和软件专业的认证。以下是我对PMP和软考两…

【Redis】 缓存双写一致性

缓存双写一致性 给缓存设置过期时间&#xff0c;定期清理缓存并回写&#xff0c;是保证最终一致性的解决方案。 我们可以对存入缓存的数据设置过期时间&#xff0c;所有的写操作以数据库为准&#xff0c;对缓存操作只是尽最大努力即可。也就是说如果数据库写成功&#xff0c;缓…

业界主流数据加速技术路线

计算存储分离已经成为云计算的一种发展趋势。在计算存储分离之前&#xff0c;普遍采用的是传统的计算存储相互融合的架构&#xff0c;但是这种架构存在一定的问题&#xff0c;比如在集群扩容的时候会面临计算能力和存储能力相互不匹配的问题。用户在某些情况下只需要扩容计算能…

编译支持国密的抓包工具 WireShark

目录 前言WireShark支持国密的 WireShark小结前言 在上一篇文章支持国密的 Web 服务器中,我们搭建了支持国密的 Web 服务器,但是,我们使用 360 安全浏览器去访问,却出现了错误: 是我们的 Web 服务器没有配置好?在这里插入图片描述还是 360 安全浏览器不支持国密?还是两…

pycharm手动安装常用插件

下载插件 &#xff08;1&#xff09;下载地址&#xff1a;JetBrains Marketplace 这里以语言包为例子 2、中文语言包 进入pycharm中的设置&#xff0c;点击plugins,选从磁盘中安装插件

分享axios+signalr简单封装示例

Ajax Axios Axios 是一个基于 promise 网络请求库&#xff0c;作用于node.js 和浏览器中。 它是 isomorphic 的(即同一套代码可以运行在浏览器和node.js中)。在服务端它使用原生 node.js http 模块, 而在客户端 (浏览端) 则使用 XMLHttpRequests。 从浏览器创建 XMLHttpReque…

最新基于R语言lavaan结构方程模型(SEM)技术

原文链接&#xff1a;最新基于R语言lavaan结构方程模型&#xff08;SEM&#xff09;技术https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247596681&idx4&sn08753dd4d3e7bc492d750c0f06bba1b2&chksmfa823b6ecdf5b278ca0b94213391b5a222d1776743609cd3d14…

ChatGPT等AI使用的过程苦笑不得瞬间

引言&#xff1a; 在人工智能的浪潮中&#xff0c;我们见证了技术的飞速发展和智能应用的广泛渗透。特别是随着语言模型的进步&#xff0c;AI如ChatGPT、文心一言、通义千问、讯飞星火等已经成为人们日常生活和工作中不可或缺的助手。然而&#xff0c;与任何新兴技术一样&#…

在云端构建和部署工作负载的最佳方式是怎样的?

如果要问当今企业希望从云计算中获得什么&#xff0c;那么 “低延迟” 以及 “更接近客户” 可能会是很多企业的首要目标。低延迟可以带来诸多好处&#xff0c;如提升用户满意度、增加竞争优势、降低运营成本等&#xff1b;更接近客户则有助于降低网络拥塞、减少数据丢失、符合…

【算法】一类支持向量机OC-SVM

【算法】一类支持向量机OC-SVM 前言一类支持向量机OC-SVM 概念介绍示例编写数据集创建实现一类支持向量机OC-SVM完整的示例输出 前言 由于之前毕设期间主要的工具就是支持向量机&#xff0c;从基础的回归和分类到后来的优化&#xff0c;在接触到支持向量机还有一类支持向量机的…

可免费使用的AI平台汇总 + 常用赋能科研的AI工具推荐

赋能科研&#xff0c;AI工具助你飞跃学术巅峰&#xff01;(推荐收藏) 文章目录 赋能科研&#xff0c;AI工具助你飞跃学术巅峰&#xff01;(推荐收藏)一、可免费使用的AI平台汇总1. ChatGPT2. New Bing3. Slack4. POE5. Vercel6. 其他平台7. 特定功能平台8. 学术资源平台9. 中文…

Linux学习——线程的控制

目录 ​编辑 一&#xff0c;线程的创建 二&#xff0c;线程的退出 1&#xff0c;在子线程内return 2,使用pthread_exit(void*) 三&#xff0c;线程等待 四&#xff0c;线程获取自己的id值 五&#xff0c;线程取消 六&#xff0c;线程分离 一&#xff0c;线程的创建 在对…

MySQL常见的索引类型介绍

我将为您详细讲解 MySQL 中常见的索引类型&#xff0c;以及它们的使用场景、特点、区别和优势。索引是提高数据库查询性能的关键工具&#xff0c;它可以加速数据检索速度&#xff0c;减少服务器的负担。在 MySQL 中&#xff0c;索引类型主要包括 B-Tree 索引、哈希索引、全文索…