AI文档识别技术之表格识别 (一)

news2025/7/3 22:47:16

AI文档识别技术之表格识别(一)

文章目录

文章目录

AI文档识别技术之表格识别(一)
- 1. 表格识别原理介绍
- - 1.1 表格类型分类
  - 1.2 识别原理
- 2. 整体识别流程
- - 2.1 流程图
  - 2.2 图像处理部分大致流程
- 3. 将表格转换为html与json格式输出
- - 3.1 html格式
  - 3.2 json格式
  - 3.3 表格识别实例

前言

此文章主要介绍DocumentAI表格识别的V1版本，通过DocumentAI表格识别实现表格检测并实现表格还原结构

表格检测：检测表格在图片中所处的区域
表格还原结构：通过表格图片还原表格的结构信息，主要包括（行数，列数，合并单元格数）

目前DocumentAI表格识别已实现V2版本，大幅提升标准表格的识别准确率，具体信息会在下一篇blog中再具体说明

1. 表格识别原理介绍

1.1 表格类型分类

在现实生活中，表格大小、种类与样式复杂多样，例如表格中存在不同的背景填充，不同的行列合并方法，不同的内容文本类型等，并且现有文档既包括现代的、电子的文档，也有历史的、扫描的手写文档，它们的文档样式、所处光照环境以及纹理等都有比较大的差异，表格识别一直是文档识别领域的研究难点。

DocumentAI表格识别将表格分为两类，一种为标准表格，另一种为非标准表格：

标准表格：表格边框完整，表格内线完整且清晰，无需人为再添加表格线条做表格内容分割

在这里插入图片描述

标准表格图片

非标准表格：缺少表格边框或者表格内线，表格线条不清晰，需要人为添加表格线条分割表格内容，例如下面的表格就缺少很多的横线与竖线

在这里插入图片描述

非标准图片

1.2 识别原理

DocumentAI通过结合AI与传统算法实现表格识别，主要用到的AI能力与算法有：

AI：版面分析能力（通过AI版面分析检测表格在图片内所处的区域）
AI：OCR能力（通过OCR实现识别表格内容）
算法：图像处理算法（通过结合图像处理算法辅助获取表格结构信息）

通过以上的AI与算法再结合一些表格识别算法即可实现通用表格识别，同时支持识别标准表格与非标准表格

2. 整体识别流程

2.1 流程图

在这里插入图片描述

2.2 图像处理部分大致流程

图像处理的大致流程为：

对输入的表格图片进行预处理
通过形态学算法过滤非线条信息
检测线条与block得到表格的基础信息

3. 将表格转换为html与json格式输出

3.1 html格式

通过输出表格的html格式更方便用户的结果可视化与调试

3.2 json格式

通过json格式更方便的在各语言之间传输表格数据

3.3 表格识别实例

在这里插入图片描述

原图

在这里插入图片描述

html展示结果

{

“type”: “table_with_line”, //表格类型

“angle”: 0, //表格倾斜角度

“width”: 572, //表格宽度

“height”: 93, //表格高度

“rows”: 3, //表格行数

“cols”: 3, //表格列数

“position”: [111, 266, 683, 266, 683, 359, 111, 359], //表格位置

“height_of_rows”: [32, 30, 31], //表格每一行的高度

“width_of_cols”: [190, 190, 191], //表格每一列的宽度

“table_cells”: [ //表格内所有单元格的信息

{

“start_row”: 1, //单元格所在开始行号

“end_row”: 1, //单元格所在结束行号

“start_col”: 1, //单元格所在开始列号

“end_col”: 1, //单元格所在结束列号

“text”: “”, //单元格文本内容

“position”: [0, 0, 190, 0, 190, 32, 0, 32], //单元格位置

“lines”: [] //单元格文本行信息

},

…, // 其余单元格

{

“start_row”: 3,

“end_row”: 3,

“start_col”: 3,

“end_col”: 3,

“text”: “23%”,

“position”: [380, 62, 571, 62, 571, 93, 380, 93],

“lines”: [

{

“text”: “23%”,

“score”: 1,

“position”: [458, 70, 491, 70, 491, 93, 458, 93]

}

]

}

]

}

表格json结果

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/852837.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

可靠传输概述——停止-等待协议

可靠传输概述——停止-等待协议

基本概念： 使用差错检测技术（例如循环冗余校验CRC），接收方的数据链路层就可检测出帧在传输过程中是否出现了误码。此时有： 不可靠传输服务：仅仅丢弃有误码的帧，其他什么也不做可靠传输服务&a…

阅读更多...

Weblogic未授权远程代码执行漏洞 (CVE-2023-21839)

Weblogic未授权远程代码执行漏洞 (CVE-2023-21839)

前言： Weblogic 允许远程用户在未经授权的情况下通过IIOP/T3进行JNDI lookup 操作，当JDK版本过低或本地存在javaSerializedData时，这可能会导致RCE漏洞。 0x00 环境设置此次实验，我们使用P神的vulhub。启动环境： cd…

阅读更多...

Android Studio实现图形验证码

Android Studio实现图形验证码

源代码源代码MainActivity 效果图32行需要修改，不修改会报错：需要常量表达式，我的代码已修改点击后 MainActivity import static com.example.graphicverificationcode.RxCaptcha.TYPE.NUMBER;import android.annotation.SuppressLint; import android.os.Bundle; impo…

阅读更多...

【Terraform学习】保护敏感变量（Terraform配置语言学习）

【Terraform学习】保护敏感变量（Terraform配置语言学习）

实验步骤创建 EC2 IAM 角色导航到IAM 在左侧菜单中，单击角色。单击创建角色该按钮以创建新的 IAM 角色。在创建角色部分，为角色选择可信实体类型： AWS 服务使用案例:EC2 单击下一步添加权限：现在，您可以看到…

阅读更多...

Sentieon | 每周文献-Multi-omics（多组学）-第九期

Sentieon | 每周文献-Multi-omics（多组学）-第九期

多组学系列文章-1 标题（英文）： Prediction of axillary lymph node metastasis in triple-negative breast cancer by multi-omics analysis and an integrated model标题（中文）： 基于多组学分析和综合模型…

阅读更多...

Java使用String来开发验证码

Java使用String来开发验证码

Java使用String来开发验证码需求分析代码实现小结Time 需求分析使用String来开发验证码。实现随机产生验证码，验证码的每位可能是数字、大写字母、小写字母根据需求分析，步骤如下： 1.首先，设计一个方法，该方法接收…

阅读更多...

细胞——求细胞数量 C++详解

细胞——求细胞数量 C++详解

细胞——求细胞数量 C详解求细胞数量题目描述输入格式输出格式样例样例输入样例输出提示数据规模与约定解法代码求细胞数量题目描述一矩形阵列由数字 0 0 0 到 9 9 9 组成，数字 1 1 1 到 9 9 9 代表细胞，细胞的定义为沿细胞数字上下左右若还…

阅读更多...

产品经理回到三线城市能去干什么？

产品经理回到三线城市能去干什么？

首先要强调一个重要原则：尽量待在一线城市。我们付出了很多努力，在大城市生活了好几年，如果不能在这里获得成功，真的愿意回到原来的地方吗？我出生在山东农村，家庭条件很普通。自从上大学时，我就…

阅读更多...

企业权限管理（二）-环境搭建

企业权限管理（二）-环境搭建

环境搭建项目的基本架构 pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://mav…

阅读更多...

Drools用户手册翻译——第四章 Drools规则引擎（十三）复杂事件处理（CEP）会话时钟，事件流和切入点

Drools用户手册翻译——第四章 Drools规则引擎（十三）复杂事件处理（CEP）会话时钟，事件流和切入点

甩锅声明：本人英语一般，翻译只是为了做个笔记，所以有翻译错误的地方，错就错了，如果你想给我纠正，就给我留言，我会改过来，如果懒得理我，就直接划过即可。目录会话时钟…

阅读更多...

无货源无技术无专业做跨境电商？Live Market一站式服务助你出海

无货源无技术无专业做跨境电商？Live Market一站式服务助你出海

近年来，我国跨境电商发展取得可喜进展。商务部数据显示，跨境电商货物进出口规模占外贸比重由5年前的不足1%上升到目前的5%左右。越来越多的资本开始重视这一领域，越来越多的玩家开始布局。然而，对于普通商家来说想要踏足跨境电商…

阅读更多...

解决VtsHalLightTargetTest问题

解决VtsHalLightTargetTest问题

一、问题描述： 二、解决方案： Date: Fri, 14 Jul 2023 11:14:31 0800 Subject: [PATCH] fix: 解决VtsHalLightTargetTest问题Description:依据报错修改代码Self Test:PassChange-Id: Ia0bca62480cd26845b285ae61c3d8264d8555d9a ---diff --git a/aidl/d…

阅读更多...

软件开发项目文档清单(多套实际案例)

软件开发项目文档清单(多套实际案例)

写在前面： 我花了一些时间整理了这些年从事软件行业以来的文档，将它们分类整理后，电脑瞬间变得更加简洁。我整理了数百份软件开发过程中的常用文档，包括项目计划、立项计划、需求分析、概要设计、详细设计、数据库设计、用户操作手…

阅读更多...

mysql不用窗口函数，后面加一列序号

mysql不用窗口函数，后面加一列序号

前言在后端开发中最常用的数据库还是比较稳定的5.8，而窗口函数是只有在mysql8以上才有的，然后在开发中有个需要排序序号的需求，翻找资料，问AI得出结论可以实现。列出方法如果你使用的是MySQL 5.7版本，而没有窗口…

阅读更多...

好的测试数据管理，到底要怎么做？

好的测试数据管理，到底要怎么做？

你的组织是否实施了测试数据管理？如果你的组织处理关键或敏感的业务数据，测试数据管理肯定会让组织受益。与测试数据相关的问题占所有软件缺陷的 15%，这一事实强调了测试数据的重要性。本文将准确讨论测试数据经理职责、测试数据经理需要什么…

阅读更多...

【雕爷学编程】Arduino动手做（200）---WS2812B幻彩LED灯带6

【雕爷学编程】Arduino动手做（200）---WS2812B幻彩LED灯带6

37款传感器与模块的提法，在网络上广泛流传，其实Arduino能够兼容的传感器模块肯定是不止37种的。鉴于本人手头积累了一些传感器和执行器模块，依照实践出真知（一定要动手做）的理念，以学习和交流为目的&#x…

阅读更多...

云服务器选什么系统

云服务器选什么系统

特网科技是一家领云计算服务提供商，拥有全球性服务，覆盖了超过200个国家和地区，提供多种不同的服务器操作系统，包括常见的Linux和Windows，以及一些非常特殊的OS，如FreeBSD和OpenSUSE。如何选择合适的操作系…

阅读更多...

PCB状态字段细分，线程安全问题，加锁，synchronized

PCB状态字段细分，线程安全问题，加锁，synchronized

补充：之前的线程休眠 sleep ，参数是以ms作为单位，但是sleep本身就存在一些误差。sleep(1000),不一定是精确在休眠1000ms（线程的调度，也是需要时间的） sleep（1000）的意思是说该线程在…

阅读更多...

js案例：1.简单计算器

js案例：1.简单计算器

目录一.效果图二.实现思路整体思路 1.关键是dom操作 2.设置点击事件 3.数据类型的隐式转换和赋值三.完整代码一.效果图二.实现思路整体思路 1.关键是dom操作通过 document.getElementById(id) 获取html中的dom元素每一个html标签都是一个对象&…

阅读更多...

如何用看板让你的项目管理更上一层楼

如何用看板让你的项目管理更上一层楼

项目管理的核心挑战项目管理始终是一个充满挑战的领域。在多变的环境中，管理一个项目并确保其成功完成是一项巨大的任务。那么，为什么项目管理会如此复杂呢？ 概述项目的复杂性每一个项目都有其独特性，无论是项目的规模、团队…

阅读更多...

推荐文章

最新文章