通用能力及AI核心能力表现优异!合合信息智能文档处理系统(IDP)高评级通过中国信通院评估

news2024/12/24 2:25:44

数字经济快速发展的背后,全球数据总量呈现出爆发式增长趋势。智能文档处理(IDP)技术能够高效地从多格式文档中捕捉、提取和处理数据,帮助机构和企业大幅提升文档处理效率,节约时间和人力成本。近期,合合信息智能文字识别产品通过中国信息通信研究院(以下简称“中国信通院”)“可信AI—智能文档处理系统”评估工作,并获得“5级”评定。据悉,“5级”为该模块最高评定等级。

人工智能技术的应用场景正在不断拓展,其发展也面临着产品能力参差不齐、缺乏行业基准和标杆安全可信要求落实不明确等问题。中国信通院于2018年起逐步构建和完善“可信AI”评测体系,助力人工智能技术的发展和产业的健康成长,“智能文档处理”是近两年来新增的评测项目之一。

中国信通院智能文档处理系统评测体系介绍图源:中国信通院

 

国际数据公司(IDC)最新发布的预测数据显示中国数据量规模将从2022的23.88ZB增长至2027年的76.6ZB,年均增长速度CAGR达到26.3%。其中企业数据量占据70%,目前仅有24%的数据被用于分析或AI决策。由此可见,企业在经营中沉淀下来的数据,有大部分价值尚待释放。

计算机信息化系统中的数据分为结构化数据和非结构化数据,人们日常生活、工作中所接触到的各类办公文档、文本、图片、报表都属于非结构化数据。由于格式复杂、标准多样,非结构化数据处理起来既困难又耗时智能文档处理技术可以把关键信息从半结构化/非结构化数据中提取出来,进一步实现业务流程的端到端自动化。IDC认为,智能文档处理技术提升部分行业业务流程核心生产要素随着与应用和流程自动化的深度整合,潜在的应用场景广泛普及空间较大。

目前,智能文档处理技术已被广泛应用于文档数字化管理、自动化流程、图文提取等业务场景,并加速渗透金融、政务、医疗、海关等垂直领域。中国信通院持续关注智能文档处理技术及应用的发展情况,依据《自然语言处理技术和产品评估方法 第8部分:智能文档处理系统》,全方位评估企业智能文档处理的技术先进度。

评估结果显示,合合信息智能文档处理产品在通用能力及AI核心能力方面均表现优异

通用能力方面,合合信息产品在信息抽取、表格文字识别、版面分析等方面均获得5分评分表格文字识别、版面分析是文档处理的难点,合合信息表格文字识别技术支持识别图片/PDF格式文档中的多类型表格内容。在财报相关表格识别测试中,合合信息有线表识别单元格结构准确率高于98%;无线表识别在保证表格区域内容的完整性的同时,检测准确率较传统方法显著提升。

 

合合信息“表格文字识别”处理效果展示

合合信息版面分析技术通过解决版面分割、区域间的逻辑关系处理等方面的难题,可将文档图像切分成不同类型内容(文本、图形、公式、表格等)的区域,并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、大小和排版方式,从各类版式复杂的图片文档中精准获取信息。

AI核心能力方面,合合信息产品在NLP领域的文本分类、知识图谱领域的实体识别、关系抽取及OCR领域的字符识别、文本行识别均获得5,并支持文本生成、事件抽取等高阶处理能力,其中准确率、召回率、F1值等指标评分总体较高。

合合信息创立于2006年,是一家人工智能及大数据科技企业。合合信息智能文档处理产品是一款集图像处理、文档质量判断、文档识别、版面分析、文档结构化信息抽取、存储、检索、管理等技术于一体的智能文档解决方案产品,旨在帮助个人和企业实现文档信息化管理。

技术发展之路上,安全是不可缺席的话题。本月,中国信通院携手合合信息启动了《文档图像篡改检测标准》制定工作,中国图象图形学学会、中国科学技术大学等知名学术机构参与联合编制。该检测标准将基于产业现状,围绕“细粒度”视觉差异伪造图像鉴别、生成式图像判别等行业焦点议题,凝聚行业共识,为中国“可信AI”在机器视觉、图像处理领域的体系建设提供有力支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/670079.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言进阶--字符函数与内存函数

目录 一.字符函数 1.strlen函数 模拟实现strlen 2.strcpy函数 模拟实现strcpy 3.strcat函数 模拟实现strcat strcat能否用于自己追加自己? 4.strcmp函数 模拟实现strcmp 5.strncpy函数 6.strncat函数 7.strncmp函数 模拟实现strncmp 8.strstr函数 模…

哨兵2号数据下载与利用Python处理(波段融合、降采样、可视化、裁剪等)

简单介绍 网址:https://scihub.copernicus.eu/dhus/#/home 哨兵2号(Sentinel-2)是欧洲空间局(European Space Agency,简称ESA)推出的一组遥感卫星,旨在为地球观测和环境监测提供高质量的光学图像数据。 S2MSI2A是哨兵2号卫星的一种传感器。 S2MSI2A是哨兵2号卫星搭载…

huggingface - PEFT.参数效率微调

GitHub - huggingface/peft: 🤗 PEFT: State-of-the-art Parameter-Efficient Fine-Tuning. 最先进的参数高效微调 (PEFT) 方法 Parameter-Efficient Fine-Tuning (PEFT) 方法可以使预训练语言模型 (PLM) 高效适应各种下游应用程序,而无需微调模型的所有…

记录--Vue3 封装 ECharts 通用组件

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 按需导入的配置文件 配置文件这里就不再赘述,内容都是一样的,主打一个随用随取,按需导入。 import * as echarts from "echarts/core"; // 引入用到的图表…

ctfshow web入门 php特性 web93-97

1.web93 intval($num,0),0代表根据变量类型进行使用哪一种进制进行取整 可以使用8进制,正负数,小数点 payload: 010574 4476.0 4476.0 2.web94 过滤了0,不能使用8进制了,还可以使用小数点,正负数等 payload&#xff1…

【Java算法题】剑指offer_算法之02动态规划

对于动态规划问题,我将拆解为如下五步曲,这五步都搞清楚了,才能说把动态规划真的掌握了! 确定dp数组(dp table)以及下标的含义确定递推公式dp数组如何初始化确定遍历顺序举例推导dp数组 JZ42 连续子数组的…

CTFshow-pwn入门-栈溢出pwn35-pwn36

pwn35 首先还是先下载pwn文件拖进虚拟机加上可执行权限,使用checksec命令查看文件的信息。 chmod x pwn checksec pwn32位的我们直接拖进ida中反编译: // main int __cdecl main(int argc, const char **argv, const char **envp) {FILE *stream; // […

阿里云 OSS介绍

1、什么是阿里云 OSS? OSS 为 Object Storage Service,即对象存储服务。是阿里云提供的海量、安全、低成本、高可靠的云存储服务。 OSS 具有与平台无关的 RESTful API 接口,可以在任意应用、任意时间、任意地点 存储与访问 任何类型的数据。…

软考:软件工程:软件可行性分析,需求分析,ER实体图,数据流图,状态转换图,数据字典

软考:软件工程: 提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学习和总结,以应对未来更多的可能性 关于互联网大厂的笔试面试,都是需要细心准备的 (1&#…

微信小程序——分页组件的创建与使用

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

使用Aspose.Words将word转PDF并且去水印。

😜作 者:是江迪呀✒️本文关键词:Java、工具类、转换、word转pdf、Aspose.Words、后端☀️每日 一言:只要思想不滑坡,办法总比困难多。 前言 在我们日常开发中经常会有将word文档转为PDF的场景&#xff0…

深入理解循环队列----循环数组实现ArrayDeque

我们知道队列这种数据结构的物理实现方式主要还是两种,一种是链队列(自定义节点类),另一种则是使用数组实现,两者各有优势。此处我们将要介绍的循环队列其实是队列的一种具体实现,由于一般的数组实现的队列…

IP地址分类

IP地址是TCP/IP协议中非常关键的要素之一,它用于标识网络中的设备和主机。根据使用版本的不同,IP地址分为IPv4和IPv6两种类型。 IPv4(Internet Protocol version 4)是IP地址的第四个版本,采用32位二进制数来表示IP地址…

JavaWeb之EL表达式和JSTL标签库

文章目录 EL表达式基本介绍EL表达式搜索域数据的顺序EL表达式输出Bean的普通属性,数组属性,List集合属性,Map集合属性EL表达式 - 运算关系运算逻辑运算算数运算empty运算三元运算. 点运算 和 [] 中括号运算符 EL表达式的11个隐含对象EL获取四…

Java中Thread 类的五种基本用法(简介)

目录 一.线程创建 Lambda创建一个线程 基础格式 举例 运行结果 二.线程中断 第一种:设置变量方法 举例 运行结果 第二种:interrupted()方法 举例 运行结果 三.线程等待 举例 运行结果 四.线程休眠 举例 五.获取线程实例 举例 运行结果 …

如何用梯度下降法求解数学建模的拟合问题——以logistics增长问题为例

引言 众所周知的是,在大学课程中一般只会教授一种拟合方法(也即参数估计方法)——最小二乘法。这是一种直接求解的方法,非常的有效,不仅是损失最小解,而且是最大似然解。只不过,有一个缺点,它只能解决线性…

Jenkins配置仅合并代码后触发流水线

使用GitLabJenkins集成, 使用Jenkins的Generic WebHook插件;此插件可以作为各个工具间集成使用的通用方式,但是遇到些场景需要写些代码。关于 “合并代码后触发Pipeline”的配置方式, 其实思路简单,实现和让我描述起来…

电脑怎样连接打印机?分享4个简单操作!

为了更方便学习,我买了一个打印机来打印需要用的资料,但是操作了半天还是没连接上,想请问一下有经验的朋友是怎么将打印机与电脑进行连接的呢? 在现代人的工作和生活中,打印机是一个重要的设备。我们可以利用打印机进行…

一文搞懂String、StringBuffer、StringBuilder三者的对比以及扩容机制

String:不可变的字符序列;底层使用char[]存储StringBuffer:可变的字符序列;线程安全的,效率低;底层使用char[]存储StringBuilder:可变的字符序列;jdk5.0新增的,线程不安全的,效率高;…

行为型设计模式09-中介者模式

🧑‍💻作者:猫十二懿 ❤️‍🔥账号:CSDN 、掘金 、个人博客 、Github 🎉公众号:猫十二懿 中介者模式 1、中介者模式介绍 中介者模式(Mediator Pattern)是一种行为设计模…