CIIS 2023丨聚焦文档图像处理前沿领域,合合信息AI助力图像处理与内容安全保障

news2025/1/12 21:01:40

近日,2023第十二届中国智能产业高峰论坛(CIIS 2023)在江西南昌顺利举行。大会由中国人工智能学会、江西省科学技术厅、南昌市人民政府主办,南昌市科学技术局、中国工程科技发展战略江西研究院承办。本次大会重点关注AI大模型、生成式AI、无人系统、智能制造、数字安全等领域,汇集了来自中国工程院、国际欧亚科学院、国际核能院等多个学术机构的院士进行主题报告演讲、专题论坛研讨。近200位人工智能领域专家学者同场交流分享,吸引了线上线下超千万人次观会。

大会现场

行业的发展离不开信息传递,文档是信息传递最常见的载体之一。智能文档处理技术历来便是学术界重点关注的领域,多模态大模型可以利用大量的数据进行预训练,有效解决文档图像质量及自然语言处理技术限制问题。基于此,大会期间,中国人工智能学会(CAI)模式识别专委会与合合信息共同承办了《多模态大模型与文档图像智能理解》专题论坛,论坛主席为华南理工大学金连文教授、复旦大学邱锡鹏教授。来自清华大学、华中科技大学、复旦大学、百度、科大讯飞、合合信息等研究机构和企业的技术专家,围绕行业焦点议题展开探讨。

《多模态大模型与文档图像智能理解》专题论坛现场

“大模型的出现势必对行业带来巨大的影响,文档图像的分析、识别、理解与大模型技术间存在互补关系。”合合信息智能技术平台事业部副总经理、高级工程师丁凯博士在《文档图像预训练模型的探索与思考》分享中提到,在互联网语料“见底”之日逐渐逼近之时,电子书成为了大模型训练的新“燃料”,而电子书很多是由文档图像组成的,文档图像识别分析与智能理解技术可以将大量的文档图像转化为具有丰富格式信息的文本,为大模型提供更丰富更高质量的训练语料,解决大模型训练的‘token荒’的问题。

合合信息智能技术平台事业部副总经理、高级工程师丁凯博士进行《文档图像预训练模型的探索与思考》主题分享

文档图像技术已走过百年历程,但文档图像质量退化、文字检测及版面分析困难、非限定条件文字识别率低、结构化智能理解能力差等问题如今仍是工业化落地中的难题。丁凯认为,文档图像处理技术在推动大模型技术发展的同时,大模型的小样本学习能力、多任务能力、智能涌现能力对于文档图像处理问题的解决具有重要的研究价值。

“在已有的学术研究中,文档图像专有大模型在更复杂的文档理解问题上存在天然的短板,而一些多模态大模型已经表现出了从含有表格、图片等多重元素的文档中提取关键信息进行分析,理解内容的潜力。”丁凯表示,研究人员可以基于现有的领域做更好的融合,开辟新的研究方向。

合合信息-华南理工大学文档图像分析识别与理解联合实验室也对以下行业前沿问题进行了研究,包括如何将文档图像识别分析的各种任务定义为序列预测的形式,通过不同的AI提示词(prompt)引导模型完成不同的文档图像识别分析与理解任务,让模型更好地支持篇章级的文档图像识别分析。

大模型蓬勃生长的背面,大量经过人工、生成式AI篡改合成的图片被用于散播谣言、经济诈骗,AI图像内容安全也成为了文档大模型发展中亟待解决的痛点。丁凯表示,合合信息智能文档处理技术覆盖了图像预处理、解析识别到AI安全等文档图像处理全生命周期,在端到端提升文件处理效率、准确率的同时,有效保障用户及企业数据安全。

今年8月,合合信息战胜了来自全球的上千支参赛团队,获得了文档分析与识别国际会议(ICDAR 2023)“文本篡改检测”赛道冠军。合合信息技术团队提出的方案能够在保持极低误检率的同时,准确识别并定位图片中文本的篡改行为,从而有效保障文本信息的真实性。相关方案此前已在银行、证券、保险多个场景中应用。此前,合合信息曾获得ICPR、ICFHR 等十余项文档图像处理、文字识别领域国际竞赛冠军。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1030158.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

搭建Flink集群、集群HA高可用以及配置历史服务器

Flink集群搭建 Flink集群搭建集群规划下载并解压安装包修改集群配置分发安装目录启动集群访问Web UI Flink集群HA高可用概述集群规划配置flink配置master、workers配置ZK分发安装目录启动HA集群测试 Flink参数配置配置历史服务器概述配置启动、停止历史服务器提交一个Job任务查…

如何选择适合你的隧道爬虫ip?

隧道爬虫IP在保护你的网络隐私和提供安全的数据传输方面起着关键作用。然而,在众多的商家中选择适合自己的并非易事。本文将分享一些关键的考虑因素,帮助你选择适合你的隧道爬虫IP商家。无论你是个人用户还是企业客户,相信这些指南都能帮助你…

单元测试 —— JUnit 5 参数化测试

JUnit 5参数化测试 目录 设置我们的第一个参数化测试参数来源 ValueSourceNullSource & EmptySourceMethodSourceCsvSourceCsvFileSourceEnumSourceArgumentsSource参数转换参数聚合奖励总结 如果您正在阅读这篇文章,说明您已经熟悉了JUnit。让我为您概括一下…

家居服务小程序发展指南

随着互联网的快速发展,越来越多的企业开始关注并投资于线上平台的建设,以满足用户的多样化需求。家居服务行业也不例外,通过打造小程序平台,可以更好地服务用户,提供更便捷的家居服务体验。 首先,我们可以选…

大二毕设.3-网盘系统

目录 技术选型: 功能概括: 基本演示: 实现讲解: 技术选型: 前端: Vue3 Element Plus后端: SpringBoot Mybatis-Plus MySQL Redis Caffeine FastDFS/OSS SpringCloud Stream RocketMQ Zookeeper 功能概括&…

Flutter实现地图上汇聚到一点的效果。

要求效果: 实现的效果: 代码: 选择点的界面: import dart:math;import package:flutter/material.dart; import package:get/get.dart; import package:kq_flutter_widgets/widgets/animate/mapChart/map_chart.dart; import pa…

Winserver安装Linux虚拟机执行java程序踩坑

前言: “好久没有更新文章了,最近太忙了!”一个特别朴实无华的小马哥说到。 “小马蝈蝈,那你现在更新文章了,是不是很闲啊,来帮我....” 耳畔听到一个妹子的声音。咳咳咳~~此处省略一万字,文末也…

WebGL 用鼠标控制物体旋转

目录 鼠标控制物体旋转 如何实现物体旋转 示例程序(RotateObject.js) 代码详解 示例效果 鼠标控制物体旋转 有时候,WebGL程序需要让用户通过鼠标操作三维物体。这一节来分析示例程序RotateObject,该程序允许用户通过拖动&…

数据通信——传输层TCP(超时时间选择)

引言 TCP每一次发送报文段,就会对这个报文段设置一次计时器。如果时间到了却没有收到确认报文,那么就要重传该报文。 这个之前在TCP传输的机制中提到过,这个章节就来研究一下超时时间问题。 关于加权的概念 有必要提及一下加权的概念&#x…

天地一体化指挥!平战结合的应急感知云来了

面向智慧应急数字化转型需求,天翼物联基于感知云平台创新能力,为客户提供泛协议接入、感知云应急平台、应急感知数据治理、决策处置大屏等在内的应急感知云服务,构建应急感知神经系统新型数字化底座,实现应急感知、预警、决策、处…

程序员必须掌握的算法系列之贪心算法

一:引言 在计算机科学中,贪心算法(Greedy Algorithm)是一种基于贪心策略的算法思想,它在每一步选择中都采取当前状态下最优的选择,以希望最终能够得到全局最优解。贪心算法通常可以在较短的时间内找到问题…

springcloud3 分布式事务实现逻辑思想2

一 分布式事务逻辑 1.1 CAP理论 CAP原则又称CAP定理,指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性)这3个基本需求&…

SPI在Java中的实现与应用 | 京东物流技术团队

1 SPI的概念 API API在我们日常开发工作中是比较直观可以看到的,比如在 Spring 项目中,我们通常习惯在写 service 层代码前,添加一个接口层,对于 service 的调用一般也都是基于接口操作,通过依赖注入,可以…

【深度学习实验】前馈神经网络(六):自动求导

目录 一、实验介绍 二、实验环境 1. 配置虚拟环境 2. 库版本介绍 三、实验内容 0. 导入必要的工具包 1. 标量求导 2. 矩阵求导 3. 计算图 一、实验介绍 PyTorch提供了自动求导机制,它是PyTorch的核心功能之一,用于计算梯度并进行反向传播。自动求…

C++流插入和流提取的重载!

C作为C语言的衍生,其弥补了C语言中的很多不足,也对C语言进行了一定的优化!今日就来讲解一下C中输入/出流相关的知识!以及对输入/出的重载!,希望读完本篇文章,能让读者们对C中输入/出流有更深一步…

Java之IO概述以及

1.1 什么是IO 生活中,你肯定经历过这样的场景。当你编辑一个文本文件,忘记了ctrls ,可能文件就白白编辑了。当你电脑上插入一个U盘,可以把一个视频,拷贝到你的电脑硬盘里。那么数据都是在哪些设备上的呢?键…

散列(哈希)查找的定义,常见的散列函数设计以及处理哈希冲突方法

1.散列表 1.散列表的定义 散列表(Hash Table),又称哈希表。 是一种数据结构,特点是:数据元素的关键字与其存储地址直接相关。 特点: 若不同的关键字通过散列函数映射到同一个值,则称它们为“同义词”。通过散列函数确定的位置…

Maven 设置环境变量(Windows、Linux)

文章目录 Windows 配置 Maven 环境变量Linux 配置 Maven 环境变量 如果想在任意路径下都能通过 mvn 命令运行 Maven 程序,就需要将 Maven 程序路径设置到环境变量中, 否则使用 mvn 命令时每次都要加上 Maven 程序的全路径 核心就一句话,把 M…

坚鹏:中国邮政储蓄银行金融科技前沿技术发展与应用场景第4期

中国邮政储蓄银行金融科技前沿技术发展与应用场景第4期培训圆满结束 中国邮政储蓄银行拥有优良的资产质量和显著的成长潜力,是中国领先的大型零售银行。2016年9月在香港联交所挂牌上市,2019年12月在上交所挂牌上市。中国邮政储蓄银行拥有近4万个营业网点…

学习记忆——英语篇——右脑记忆单词

文章目录 英语字母形象起源右脑记忆单词的原则四大步骤第一步:摄取信息第二步:处理信息第三步:储存信息第四步:提取信息 训练例子字母形象训练 右脑记忆单词5大方法字源法编码法字母编码法字母组合编码法 拼音法全拼法拼音组合 熟…