【倒计时2天】CCIG文档图像智能分析与处理论坛开启直播预约,共探智能文档处理前沿技术

news2025/1/11 4:06:47

文档是人们在日常生活、工作中产生的信息的重要载体,各领域从业者几乎每天都要与金融票据、商业规划、财务报表、会议记录、合同、简历、采购订单等文档“打交道”。让计算机具备阅读、理解和解释这些文档图像的能力,在智能金融、智能办公、电子商务等许多领域具有广阔的应用价值。

现阶段,文档图像的处理过程中面临着诸多挑战:文档类型的多样产生了繁杂的版式与结构;受拍摄器材、背景环境影响,图像时常存在噪声和质量问题。文档图像处理是图像图形技术研究的重要方向,中国图象图形学学会等专业组织及合合信息等人工智能企业长期关注文档图像智能分析、处理焦点议题,开展了系列研发和实践工作。

文档处理中常见的问题

2023年5月11-14日,中国图象图形大会(CCIG 2023)将于苏州举办,谭铁牛院士、赵沁平院士、吴一戎院士、徐宗本院士、胡事民教授、高新波教授确定莅临CCIG 2023大会,并作大会主旨报告。众多专家学者将齐聚苏州,开启“最强大脑”,为大家带来一场精彩的学术盛宴。大会以“图象图形向未来”为主题,汇集100余位国内顶尖学者以及知名企业专家、2000余名科研院校师生、一线技术工程师,共同探索图像图形技术行业的最新进展。

为了促进文档图像分析与处理领域的技术交流及发展,中国图象图形学学会文档图像分析与识别专业委员会与合合信息共同打造了《文档图像智能分析与处理》高峰论坛。

本次论坛中,合合信息特别邀请了来自中科院自动化所、北大、中科大、华南理工大的学术专家与华为等知名企业的研究者们,围绕文档图像处理及OCR领域的前沿技术展开“头脑风暴”,寻找文档图像处理领域的未来进阶方向。

论坛时间:5月13日13:30-17:30

观看方式:扫描下方议程海报二维码,在线观看直播

讲者信息

讲者一

姓名:成林

单位和职称:中国科学院自动化研究所,研究员

 个人简介:刘成林中国科学院自动化研究所副所长,研究员、博士生导师,中国科学院大学人工智能学院副院长。1989年、1992年、1995年分别在武汉大学、北京工业大学、中国科学院自动化研究所获学士、硕士和博士学位。1996年至2004年先后在韩国科学技术院、日本东京农工大学、日立中央研究所从事博士后和研发工作。2005年起在中国科学院自动化研究所任研究员。2008年获得国家杰出青年科学基金。研究兴趣包括模式识别、机器学习、文字识别与文档分析等。在国内外期刊和学术会议上发表论文300余篇,合著英文专著一本。现任Pattern Recognition期刊和《自动化学报》的副主编,以及多个期刊的编委。任国际模式识别学会副主席,中国人工智能学会副理事长、会士,中国自动化学会会士、模式识别与智能系统专委会主任,中国图象图形学学会常务理事。美国电气电子工程师协会会士 (IEEE Fellow)、国际模式识别学会会士(IAPR Fellow)

报告题目人工智能大模型时代的文档识别与理解

报告摘要 文档图像识别的任务包括版面分析、文本识别、图形符号识别、信息抽取等。近年来,得益于深度学习方法的发展,文档识别性能快速提升,在文档数字化、票据处理、笔迹录入、智能交通、信息检索等领域得到广泛应用。然而,实际应用也表明,现有技术在识别精度和可靠性、可解释性、自适应性等方面还有明显不足,还有很多技术问题有待解决。另一方面,人工智能大模型的快速发展促使团队重新思考文档识别领域今后的发展方向,除了解决识别层次的遗留问题,应面向文档语义理解和应用,在语义信息抽取和决策层面开展研究。本报告对文档识别技术现状做简要回顾,分析现有技术的不足,并提出人工智能大模型时代新的研究问题和方向。

讲者二

姓名:邹月娴

单位和职称:北京大学,教授

邹月娴,北京大学教授/博士生导师,鹏城实验室双聘教授,电子科技大学本硕,香港大学博士, IEEE高级会员,新加坡归国学者。现任北京大学深圳研究生院党委副书记、北京大学深圳研究生院现代信号与数据处理实验室(ADSPLAB)主任;深圳市人工智能学会副理事长兼秘书长、深圳市女科技工作者协会副会长、中国自动化学会模式识别与机器智能专业委员会委员、广东省图象图形学会理事会。荣获深圳市高层次专业人才(地方级人才)、深圳市三八红旗手称号。长期从事智能信号与信息处理、跨媒体分析与理解等相关领域的科研与教学工作,先后主持和参与国家级、地方级科研项目30多项,荣获中国电子工业部科技进步三等奖和深圳市科学技术奖科技进步一等奖。在顶级学术期刊(TPAMI、TIP、TSP、TMM、TIM等)和旗舰学术会议(AAAI、NIPS、ACL、CVPR、IJCAI、ACMMM等)上发表学术论文270多篇,申请发明专利20项。目前致力于跨媒体分析与理解、人机对话、深度学习理论方法与应用研究(https://web.pkusz.edu.cn/adsp/)。

报告题目:视觉-语言预训练模型及迁移学习方法

报告摘要基于大规模文本数据、Transformer和无监督预训练技术的ChatGPT毫无疑问是人工智能的里程碑技术,展示了机器智能的能力和可用性。随之而来的视觉-语言双模态超大规模预训练模型GPT-4更是展现了超人的数理能力、零样本/小样本能力。本次演讲简要分析ChatGPT的技术能力与局限性,介绍视觉-语言预训练模型及迁移学习的前沿研究成果,分享我们团队在视频文本预训练(VLP)和语言视频定位(Visual Grounding)任务的研究进展。

讲者三

姓名:谢洪涛

单位和职称:中国科学技术大学教授

 谢洪涛,中国科学技术大学教授、博导,国家基金委优青项目获得者,中科院青年创新促进会优秀会员。从事多媒体内容安全方向的研究,包括视觉内容检测与识别、视频图像内容检索、数字图像篡改检测与取证等。发表ACM/IEEE汇刊论文和CCF-A类会议长文70余篇,主持科研项目10余项,含国家重点研发计划项目1项、基金委重点项目1项。研究成果在国家相关部门和商业公司的线上系统获得应用,取得积极效果。获2019年度国家自然科学奖二等奖、2021年度中国专利奖优秀奖、2018年度中国电子学会自然科学奖一等奖、2022年度CSIG青年科学家奖等奖励。实验室主页:http://imcc.ustc.edu.cn/

报告题目:篡改文本图像的生成与检测

报告摘要:

近年来,经过深度学习篡改生成的文本图像已广泛传播于互联网,对金融票据、证件和网页内容识别等多个行业领域产生了重要影响。基于篡改生成与检测矛与盾的关系,本报告从场景文本图像的篡改生成与篡改检测两个方面进行讲述,包括探索基于文本笔迹的文本图像生成和基于频域关系的局部纹理差异性建模,最终实现高质量的场景文本图像篡改生成以及准确的场景文本图像篡改检测。针对篡改文本图像生成质量差的问题,本报告首先从文本图像擦除的角度考虑文本擦除彻底性和背景纹理完整性,并结合通用的篡改生成框架提出基于笔迹的场景文本图像篡改生成算法。其次,本报告提出了一种通用的自然场景文本图像篡改检测框架,并结合频域信息最大化真实和篡改文本的局部纹理差异性。

讲者四

姓名:廖明辉

单位和职称:华为云AI算法研究员

  

 廖明辉华为云AI算法研究员。2021年于华中科技大学获得博士学位。主要研究方向为自然场景文字检测与识别。以第一作者身份在TPAMI、TIP、CVPR、ECCV、AAAI等顶级期刊会议发表论文十余篇,其中ESI高被引论文2篇。谷歌学术引用数超3500。获得了CSIG优博、CSIG自然科学奖一等奖、CCF-CV学术新锐奖、第五届中国互联网+大学生创新创业大赛国赛金奖、AI华人新星百强、AI 2000人工智能全球最具影响力学者榜单等荣誉。

报告题目华为云OCR技术进展与行业实践

报告摘要OCR技术有广泛的应用场景,也是华为云AI服务的核心能力之一。本次报告将介绍华为云在OCR技术上的研究进展以及华为云在OCR行业的实践,包括文字识别自监督预训练模型的研究进展及其在金融行业的应用、华为云OCR服务产品介绍等。

讲者五

姓名:丁凯

单位和职称:上海合合信息科技股份有限公司 高级工程师

丁凯,上海合合信息科技股份有限公司智能技术平台事业部副总经理,高级工程师获华南理工大学博士学位担任CSIG文档图像分析与识别专委会委员,CSIG机器视觉专委会委员,上海科技大学企业导师,华南理工大学校外研究生导师等职务,获得上海市人才发展基金资助。研究方向为人工智能、模式识别、文档分析与理解、OCR、知识图谱等。带领团队在ICDAR、ICPR等权威学术会议组织的国际竞赛中获得多项冠军,作为主要完成人获得CSIG科技进步奖二等奖。近年来主持的名片识别理解、电子文档还原、多模态文档理解、知识图谱构建与挖掘等项目的研发工作,支撑了合合信息多项核心业务

报告题目智能文档处理技术在工业界的应用与挑战

报告摘要

随着技术的不断发展,OCR技术在工业界中的应用也从最开始的简单的光学字符识别拓展到涵盖图像预处理、文字识别、版面分析、文档理解等多项技术的智能文档处理领域。近年来,特别是深度学习技术出现以后,智能文档处理的各项技术均取得了突破性的进展。然而在实际的工业界场景中文档处理仍然面临着大量的问题和挑战,例如文档图像中的形变/弯曲及光照影响、文档篡改检测、复杂文档图像的版式还原,以及各种复杂场景下的文档的识别与理解难题。本报告主要介绍了合合信息依托自研的TextIn智能文字识别服务平台,在解决工业界中面临的各类问题中所做一些相关工作进展和研究成果,并探讨当前工业界中面临的一些关键技术难题和挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/515004.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

9:00面试,9:03就出来了 ,问的实在是太变态了···

从外包出来,没想到竟然死在了另一家厂子 自从加入这家公司,每天都在加班,钱倒是给的不少,所以我也就忍了。没想到12月一纸通知,所有人都不许加班,薪资直降30%,顿时有吃不起饭的赶脚。 好在有个…

BRC20懂Web3?探寻宗教式社区建设- Yuga Labs「猿」宇宙案例解析

前言 早前,NFT 领域最强IP 缔造者Yuga Labs官宣:将基于Ordinal 协议在比特币区块链上推出NFT 系列「TwelveFold 」,为比特币NFT 生态添加了催化剂。所以以太坊失宠了吗?事实上,据欧科云链OKLink多链浏览器数据显示&am…

单精度浮点数与十进制数据相互转换

一、float基础: Float类型占4个字节,也就是32bit,其中最高位是符号位,2~9位是指数位,后边的23bit是数值位.如下所示 大部分数据的二进制形式都可以用科学计数法表示,即1.m*2^n这种形式,只要知道m和n,就能确定一个数值 二、小数位如何转变为二进制: 下面…

工业主板定制选型的要点都有哪些呢?

工业主板是工控机的核心部件。工控机通过工业主板将CPU等各种器件和外部设备有机地结合起来,形成一套完整的系统,因此工控机的整体运行速度和稳定性在相当程度上取决于工业主板的性能。工业主板应用范围广泛,使用环境复杂,因此用户…

键树_Trie树_介绍和C语言实现_20230511

键树_Trie树形式_树介绍及C语言实现 前言 上一篇提到键树有两种不同的表示方法,它们分别是双链树和Trie树,在上文中对双链树的数据结构以及在键树上的C语言实现做了详细的分析与讨论。如若键树中的结点的度较大,则采用Trie树结构较双链结构…

【软件工程】期末复习总结(通俗易懂,学不会来打我)

【软件工程】期末复习总结(通俗易懂,学不会来打我) 第一章 1.1 软件工程的发展历程 1.1.1 软件危机(日子没法过了) 软件危机(Software Crisis)是指在计算机软件开发、运行、维护和管理过程中…

126-Linux_git安装及使用

文章目录 一.git基本概念1.什么是git2.git的特点3.git工作流程4.文件的四种状态 二.git的安装1.在ubuntu上测试有没有安装2.使用命令 sudo apt install git 进行安装3.安装后查看版本,检查是否安装成功 三.git的使用1.git常用命令(1)创建一个目录(2)使用git init 命令将其变为一…

Netty编程入门超级详细,有这篇就足够了

目录 前言一、简介二、为什么使用Netty2.1 NIO的缺点2.2 Netty的优点 三、架构图四、永远的Hello Word4.1引入Maven依赖4.2 创建服务端启动类4.3 创建服务端处理器4.4 创建客户端启动类4.5 创建客户端处理器4.6 测试 五、Netty的特性与重要组件5.1 taskQueue任务队列5.2 schedu…

MyBatis的CRUD

0-基础知识 id:唯一标识 type:映射的类型,支持别名 java里的命名规则是驼峰,而sql里面是下划线,如何对数据库表的字段起别名? 数据库表的字段名称和实体类的属性名称 不一样,则不能自动封装数据…

算法套路十五——最长公共子序列LCS

算法套路十五——最长公共子序列LCS 算法示例:LeetCode1143. 最长公共子序列 给定两个字符串 text1 和 text2,返回这两个字符串的最长 公共子序列 的长度。如果不存在 公共子序列 ,返回 0 。 一个字符串的 子序列 是指这样一个新的字符串&am…

Windows系统配置Anaconda虚拟环境,并安装Numpy、Scipy和Matplotlib等模块方法

有些项目不是必须在Ubuntu系统下进行的,对大部分人来说更熟悉Window系统,且查阅电脑中相关文件和使用微信更方便,因此记录一下Windows系统配置Anaconda虚拟环境步骤和安装Numpy、Scipy及Matplotlib等模块方法。 一、Anaconda安装 Anaconda可以…

异步电机速度估计-模型参考自适应MRAS法(补充)

导读:前期文章已经介绍过模型参考自适应MRAS进行速度估计的方法,本期文章主要是对MRAS实现的细节做一下补充。 若需要文章的仿真模型,关注微信公众号:浅谈电机控制,获取。 一、MRAS知识点回顾 1.1 基本原理 MRAS 模…

Calico的BGP打通Kubernetes网络和局域网

1、项目背景 随着云原生技术的不断发展,容器化应用已成为企业构建云原生架构的重要方式。而随着集群规模不断扩大,跨主机通信的需求也越来越重要。在 Kubernetes 集群中,Pod 是最小的调度和管理单位,而网络也是 Kubernetes 中最重…

双链表——“数据结构与算法”

各位CSDN的uu们你们好呀,今天,小雅兰又回来了,到了好久没有更新的数据结构与算法专栏,最近确实发现自己有很多不足,需要学习的内容也有很多,所以之后更新文章可能不会像之前那种一天一篇或者一天两篇啦&…

浅谈 Node.js

Node.js 是什么? Node.js 是一个开源、跨平台的 JavaScript 运行时环境。 官网:https://nodejs.org/zh-cn 更多精彩内容,请微信搜索“前端爱好者“, 戳我 查看 。 Node.js ≠ JavaScript Node.js中,没有BOM和DOM。…

【LLM】LangChain基础使用(构建LLM应用)

note LangChain应用开发框架,支持python和typescript语言;可以帮助生成prompt模板,并通过代理充当其他组件(如提示模板、其他大语言模型、外部数据和其他工具)的中央接口。LangChain可以直接与 OpenAI 的 text-davinc…

BGW协议(算数共享)

概述 BGW协议可以用于对域上包含加法、乘法、常数乘法门的算术电路求值,此协议强依赖Shamir秘密分享方案,利用其同态特性对各个秘密份额进行适当的处理,就可以在秘密值上进行安全计算。 加法门 算数加法共享(两方) …

c++ 友元介绍

友元的目的就是让一个函数或类访问另一个函数中的私有成员 友元函数 (1)普通函数作为友元函数 class 类名{friend 函数返回值类型 友元函数名(形参列表);//这个形参一般是此类的对象.... } 经过以上操作后,友元函数就可以访问此类中的私有…

Vue最新快速上手教程(狂神)

文章目录 前端核心分析1. 第一个Vue程序2. Vue基本语法3. Vue绑定事件4. Vue双向绑定5. 组件讲解6. Axios异步通信7. 计算属性8. 插槽slot9. 自定义事件内容分发10. 第一个vue-cli程序11. webpack学习使用12. vue-router路由13. vueelementUI14. 路由嵌套15. 参数传递及重定向1…

【JAVA】黑马程序员JAVA教程笔记 基础篇 Day 1

常用命令行DOS命令 Path环境变量 用途 1. 可以理解为系统中的一个大管家,记录了很多软件的完整路径。 2. 将常用的软件都交给Path环境变量,便于用命令行打开。 设置步骤 复制要使用的软件的存储地址右键点击 此电脑,打开属性点击 高级系统…