CCIG 2023 从视觉-语言模型到智能文档图像处理

news2025/1/17 22:05:50

前言

一、视觉-语言模型是什么?

二、视觉-语言模型可以用来做什么?

三、视觉-语言 预训练模型

3.1、模型架构

3.2、训练目标

3.2.1、图像-文本匹配损失(ITM)

3.2.2、掩码语言建模损失(MLM)

3.2.3、掩码视觉建模损失(MVM)

3.3、SOTA模型

四、视觉到语言的数字化转型——智能文档分析

4.1、智能文档分析的技术难题

4.2、智能文档图像处理新应用

4.2.1、手写板发光擦除

4.2.2、文档图像篡改检测

4.3、智能文档图像处理利器

最后

前言

        最近,中国图像图形大会(CCIG 2023)在苏州成功结束。本次大会以“图像图形·向未来”为主题,由中国科学技术协会指导,中国图像图形学学会主办,苏州科技大学承办。论坛邀请了5位学术界🎓产业界💼的专家做特邀报告,共同交流文档图像分析与处理的前沿学术进展、在典型行业的规模化应用情况,并探讨未来技术及产业发展趋势,本次大会,来自北京大学的邹月娴教授和合合信息的丁凯博士带来的报告令人印象深刻。


一、视觉-语言模型是什么?

        视觉作为一种主要的感知模态,使我们能够感知和理解周围的世界,促使物体识别、运动感知和美景欣赏等能力的形成,是使我们能够与外部现实建立联系的一扇关键的窗口。

        而语言则作为一种认知工具,是认知的媒介,用于思考、交流和表达。通过语言,我们使用抽象符号来表达概念、情感和思想,帮助我们组织和理解知识、推理和解决问题以及与他人进行沟通和合作。

        在多模态领域中,视觉提供图像和视频的视觉信息,语言则提供文字和语音的语义信息,通过多模态输入的融合,模型能够从视觉与语言的相互关系中汲取灵感。通过结合视觉和语言信息,更全面地感知和认知世界,更好地理解和表达复杂的场景和任务。

        视觉-语言模型是一种结合了图像和文本信息的典型跨模态模型,其主要目的是学习图像和文本之间的语义关系。它可以用于多种视觉-语言任务,例如图像描述生成、图像问答、视觉推理等。

二、视觉-语言模型可以用来做什么?

        视觉-语言模型可以帮助计算机更好地理解图像和文本之间的语义关系,从而实现更加智能化的视觉-语言交互,其中包括但不限于以下几个方面:图像描述生成、视频理解和摘要生成、视觉问答、跨模态检索、视觉语音合成。

这里我列了一张表格,总结了视觉-语言中部分任务、数据集、评价指标及其主流模型:

类型任务输入输出数据集评价指标部分主流模型
生成图像字幕图像句子COCO 、Flickr30K 、Flickr8K 、CC3M 、CC12M 、SBU CaptionsBLEU、METEOR、ROUGE 、CIDEr ,SPICEm-RNN、BUTD、AoANet、AutoCaption、ORT、CPTR
生成文本生成图像文本图像COCO、CUBInception Score、FID、RStackGAN、AttnGAN、DF-GAN
理解视觉问答图像+文本短语VQA、VQAv2、DAQUAR、COCO QAVQA AccuracySAN、BUTD、MCB、MUTAN
理解视觉推理图像+文本+图形文本GQA、CLEVER、NLVR、VCRAccuracyNMN、N2NMN、PG+EE、TbD-net、NS-VQA、XNM-Det
检索图像-文本检索、文本-图像检索文本/图像图像/文本COCO、Flickr30k、Flickr8KRecall@K, Median rMNLM、m-CNN、m-RNN、SCAN、Deep Fragment

三、视觉-语言预训练模型

        视觉-语言模型的训练通常分为两个阶段:预训练微调。预训练阶段是在无监督的情况下,通过最大化某种预训练目标函数来学习模型参数。微调阶段是在有监督任务中对模型进行微调,以提高模型的表现能力。视觉-语言预训练模型是视觉-语言模型的一种预训练形式,旨在通过联合训练图像和文本数据,在无监督的情况下,通过最大化某种预训练目标函数来学习模型参数从而使计算机能够理解和表达视觉和语言之间的关联。这些模型通常使用大规模的视觉和语言数据集进行预训练,以学习图像和文本之间的对应关系和语义表示。

3.1、模型架构

        视觉-语言预训练模型的典型架构是使用Transformer或类似的注意力机制模型。它由两个主要组件组成:视觉编码器和语言编码器。

  1. 视觉编码器负责处理图像数据,并将其转换为高维的视觉特征表示。这一过程通常通过卷积神经网络(CNN)来实现,将图像输入模型,并提取出图像的特征向量。这些特征向量捕捉了图像中的语义和结构信息。
  2. 语言编码器则用于处理文本数据,将文本转化为语义向量表示。常见的方法是使用循环神经网络(RNN)或Transformer模型,将文本序列输入模型,并将其编码为具有语义信息的固定长度向量。

        从多模态融合的角度来看,视觉-语言预训练模型主要分为两种架构:单信息流体系结构和多信息流体系结构。

        单流架构指将文本和视觉特征连接在一起,然后馈送到单个Transformer块中,如下图所示,单流结构利用合并的注意力来融合多模态输入。

        多信息流架构是指文本和视觉特征不连接在一起,而是单独发送到两个不同的Transformer块,如下图所示。这两个Transformer块不共享参数,而为了获得更高的性能,一般使用交叉注意来实现跨模态交互。

3.2、训练目标

        为了学习视觉和语言的联合表示,视觉语言预训练方法通常使用几个自监督学习损失来在大数据集上预训练模型,预训练方法主要有三种,分别是图像文本匹配(Image Text Matching)、掩模语言建模(Masked Language Modeling)和掩模视觉建模(Masked Vision Modeling)。

3.2.1、图像-文本匹配损失(ITM)

        图像-文本匹配(Image-Text Matching,简称ITM)是指通过计算机视觉和自然语言处理技术,将图像和文本进行匹配和对齐的任务。其目标是衡量图像和文本之间的相似性或关联程度。ITM的目标是通过建立一个模型,能够将每个图像与其相关的文本进行匹配,以便衡量它们之间的相似性或相关性,其可以表述为一个二元分类任务:

\mathcal{L}_{\mathrm{ITM}}=-\mathbb{E}_{(\mathcal{W}, V) \sim D} \log p(y \mid \mathcal{W}, V)

其中,W表示文本符号序列,而V表示视觉内容,y=0时表示图像和文本匹配,y=1时表示图像和文本不匹配。

3.2.2、掩码语言建模损失(MLM)

        掩码语言建模(Masked Language Modeling,MLM)损失是用于训练基于掩码语言建模任务的预训练模型的损失函数,被用来鼓励模型学习语言标记和视觉内容之间的隐式关系,其从已知的语言标记和视觉内容中重构被屏蔽的语言标记,使模型能够学习到单词的上下文表示和语义关联,可以被表述为:

\left.\mathcal{L}_{\mathrm{MLM}}=-\mathbb{E}_{(\mathcal{W}, V) \sim D} \log p\left(w_{i} \mid \mathcal{W}_{\backslash i}, V\right)\right)

其中,W\i​表示没有第i个单词的句子,公式通过最大似然估计(MLE)计算掩码语言建模任务的损失,具体而言,其根据上下文W\i​和可见特征V的信息,预测位置i的掩码单词wi​的概率分布。然后,通过计算预测概率与真实值的交叉熵(取负号),得到对应位置的损失值。对整个数据集中的所有位置进行求和或平均,即可得到最终的MLM损失。

3.2.3、掩码视觉建模损失(MVM)

        受MLM的启发,掩码视觉建模损失(Masked Vision Modeling,MVM)通过重构被屏蔽的视觉内容来学习语境化的视觉表示,其用于对图像中的掩模区域进行建模和预测,通过对图像中的一部分区域进行遮挡(或掩模),然后根据已知的图像信息预测被掩盖区域的内容。与具有词汇字典的语言模型类似,可视化建模与可视化字典(Visual Modeling with Visual Dictionary,MVMVD)需要一个视觉词汇字典(VD),而MVMVD的目标是重建被屏蔽的VD令牌,其可以被表述为:

\mathcal{L}_{\mathrm{MVM}}=-\mathbb{E}_{(\mathcal{W}, f(\mathcal{V})) \sim D} \log p\left(f\left(v_{j}\right) \mid \mathcal{W}, f(\mathcal{V})_{\backslash j}\right)

其中,f()表示从图像网络到VD中可视标记的映射,j表示VD中掩码标记的索引。

3.3、SOTA模型

        VisualBERT是第一个图像-文本预训练模型,它使用Faster R-CNN提取视觉特征,将提取出的视觉特征与文本嵌入连接起来,馈送到BERT初始化的单个转换器中。Unicoder-vl、UNITER、ImageBERT、VL-BERT等许多视觉-语言模型也采用了类似的特征提取和架构。

        最近,VDBERT通过 迁移学习 对大规模图像-文本对进行预训练,对视觉和语言中的深层视觉-语言对齐进行建模。VLMO则利用图像的补丁嵌入和文本的单词嵌入,并将连接的嵌入与模态专家一起馈送到单个Transformer中,实现了令人印象深刻的性能。METER使用单模态预训练模型并提出了双流架构模型来处理多模型融合,从而实现了很好的性能。

四、视觉到语言的数字化转型——智能文档分析

        随着数字化时代的到来,越来越多的企业和组织开始将纸质文档转化为数字文档,以提高工作效率和准确性。然而,随着文档数量的不断增加,如何高效地处理和分析这些文档成为了一个亟待解决的问题,丁凯博士为我们带来了智能文档处理技术的相关内容。

4.1、智能文档分析的技术难题

        传统的文档处理方式往往需要大量的人力和时间,效率低下且容易出错。而智能文档分析是指利用人工智能技术对文档进行自动化处理和分析,例如文本分类、文本摘要、实体识别等。智能文档处理可以帮助人们更加高效地处理和管理文档,提高工作效率和准确性。

文档图像智能分析与处理是一个重要且极具挑战性的研究问题

  1. 文档的场景和板式多样。不同的文档可能采用不同的排版方式和格式,这给文档的处理和分析带来了很大的挑战。
  2. 采集设备不确定,文档的来源和采集方式也会影响文档的质量和可处理性。
  3. 用户需求多样化,不同的用户可能对文档的处理和分析有不同的需求和要求。这就需要智能文档处理系统具备一定的灵活性和可定制性,以满足不同用户的需求。
  4. 文档图像质量退化严重。由于文档的保存时间和方式不同,文档图像可能会出现模糊、失真、噪声等问题,这会影响文档的识别和分析效果。
  5. 文字检测及版面分析。特别是对于复杂的文档,如手写文档、印刷体和手写体混合的文档等,文字检测和版面分析的难度更大。
  6. 非限定条件文字识别率低。由于文档中的文字可能出现各种字体、大小、颜色和方向,这会影响文字识别的准确率和效率。
  7. 结构化智能理解能力差。结构化智能理解即如何将文档中的信息进行结构化处理和分析,以便更好地理解和利用文档中的信息。因此,智能文档处理系统需要具备一定的结构化智能理解能力,以实现更加智能化的文档处理和分析。

4.2、智能文档图像处理新应用

        作为一家专注于人工智能技术研发和应用的企业,合合信息一直致力于解决以上智能文档图像处理面临的各种技术难题,专注于智能文字识别、图像处理、自然语言处理(NLP)、知识图谱、大数据挖掘等技术。基于自主研发的领先的智能文字识别及商业大数据核心技术,还为全球C端用户和多元行业B端客户提供身份证、票据数字化、PS篡改检测等智能图像处理产品及服务。

4.2.1、手写板发光擦除

        在拍摄黑板上的文字时,由于光线的反射和折射,会产生反光干扰,影响手写内容的识别和显示。合合信息在手写板反光抑制技术中使用了背景提取模块和信息融合模块

        背景提取模块会对手写板的背景进行提取,并将手写内容与背景进行分离。基于深度学习的分割方法是最常用的方法之一,其通过使用卷积神经网络等深度学习技术,自动学习图像中的特征,实现高效准确的图像分割并将图像分为前景和背景,常见的方法有基于U-Net的深度学习背景提取方法和基于Mask R-CNN的深度学习背景提取方法。信息融合模块会将手写内容与背景进行融合,并将结果显示在手写板上。通过这种方式,可以有效减少反光干扰,提高手写板的使用效果,为用户提供更好的使用体验。

4.2.2、文档图像篡改检测

        在数字化时代,文档图像的篡改已经成为了一种常见的问题,文档图像篡改检测技术可以有效地保护文档图像的完整性和真实性。传统基于文件标记篡改检测方法通过在文件中添加特殊的标记,用于检测文件是否被篡改。当文件被篡改时,标记的信息也会被改变,从而可以检测出文件的篡改。但该方法很容易受到篡改攻击的影响,一些高级的篡改攻击可以绕过该方法的检测,一些第三方软件已经可以抹除文档的Exif信息,已经存在很大的安全隐患。

        基于此问题,合合信息提出了一种图像篡改检测系统,其主要包括两个方面:特征提取和篡改检测。特征提取是指从文档图像中提取出包括纹理、颜色、形状等一系列特征。篡改检测是指通过比较文档图像的特征,检测文档图像是否被篡改。

4.3、智能文档图像处理利器

        合合信息 C 端产品方面的扫描全能王(智能扫描及文字识别 APP)、名片全能王(智能名片及人脉管理 APP)、启信宝(企业商业信息查询 APP)这些耳熟能详的产品覆盖了全球百余个国家和地区的亿级用户;

        智能文字识别服务平台 TextIn,基于合合信息自主研发的领先的智能文字识别及商业大数据核心技术,也为面向企业客户提供以智能文字识别、商业大数据为核心的服务,形成了包括基础技术服务、标准化服务和场景化解决方案的业务矩阵,满足客户降本增效、风险管理、智能营销等多元需求。

        合合信息专注于智能文字识别、图像处理、自然语言处理(NLP)、知识图谱、大数据挖掘等技术,很多产品已在银行、保险、制造业等多个行业得到了应用。

最后

        本次大会,来自知名高校和企业的研究者们,围绕文档图像处理的前沿技术展开了“头脑风暴”,在文档图像处理领域的未来进阶方向上为我们带来了很多有意思的观点分析。

        我认为在大模型时代,视觉-语言跨模态模型的研究已经成为一个重要趋势,它可以实现对图像和文本信息的联合建模和深度理解,从而提高文档图像处理的准确性和效率。在文档图像处理方面,其可以对图像和文本信息深度理解和分析,从而提高处理的准确性和效率。随着人工智能技术的不断发展和应用,我相信视觉-语言跨模态模型和文档图像处理技术将发挥越来越重要的作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/540353.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Shell基础学习---4、文本处理工具、综合应用案例(归档文件、发送信息)

1、文本处理工具 1.1 cut cut的工作就是“剪”,具体的说就是在文件中负责剪切数据用的。cut命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段输出。 1、基本语法 cut [选项参数] filename 说明:默认分割符是制表符 2、选项参数说明 选…

AOP设计思想与实用

文章目录 一、AOP思想(一)什么是AOP(二)为什么要使用AOP 二、Spring AOP(一)AOP 的组成1. Join Point(连接点)2. Pointcut(切点)3. Advice(通知&a…

怎样做一个优秀的网关技术选型报告~

1、简介 当使用单体应用程序架构时,客户端(Web 或移动端)通过向后端应用程序发起一次 REST 调用来获取数据。负载均衡器将请求路由给 N 个相同的应用程序实例中的一个。然后应用程序会查询各种数据库表,并将响应返回给客户端。微服…

nodejs进阶(4)—读取图片到页面

我们先实现从指定路径读取图片然后输出到页面的功能。 先准备一张图片imgs/dog.jpg。 file.js里面继续添加readImg方法,在这里注意读写的时候都需要声明binary。(file.js 在上一篇文章nodejs进阶3-路由处理中有完整的内容) readImg:functi…

思维中的世界

⾝体的空间,以⾏为为导向的空间 感官⼩矮⼈ 当我们观察特定的事物时,⼤脑的相应区域就会被“点亮”,并变得 活跃起来。 ⾝体映射到⼤脑上,映射到“感官⼩矮⼈”上, 即从左⽿延伸,过⼤脑顶⾻,…

OpenCV 实战七 setMouseCallback 鼠标交互画框

鼠标交互画框效果: 目录 1、setMouseCallback()函数 2、on_Mouse函数 3、代码 1、setMouseCallback()函数 函数原型 void setMouseCallback(const String& winname, MouseCallback onMouse, void* userdata 0); 参数说明 winname 窗口名称 onMouse 鼠标…

全网最火爆,性能测试-测试用例与测试方法总结(超详细)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 性能测试用例 无…

视频截取动图怎么做?分享在线视频转gif小窍门

如何将一段视频制作成gif动图表情包呢?Gif表情包常见的制作方法就是将电影、电视剧中的某个画面截取出来做成gif表情包。那么,如何从视频中截取GIF呢? 一、怎样才能完成视频转gif制作? 通过使用GIF中文网的视频转gif&#xff08…

C语言算法--冒泡排序

C语言算法–冒泡排序 1-什么是冒泡排序 冒泡排序是一种简单的排序算法,它通过比较相邻元素的大小,并根据需要交换它们的位置来排序数据。它的名称来自于越小的元素会慢慢“冒泡”到数组的开头。 冒泡排序的基本思想是从数组的第一个元素开始&#xff…

【黑马笔记】web app项目初始化

文章目录 0. 工程介绍1. 使用模版初始化1.1 选择模版1.2 补充文件 2. 使用空项目初始化2.1 新建maven项目&#xff0c;直接新建2.2 补充文件2.2.1 补充packaging形式&#xff1a;war2.2.2 借助Facets自动补齐 0. 工程介绍 打包方式 新建maven项目&#xff0c;使用<packing&…

数据结构总结1:了解数据结构、时间复杂度、空间复杂度

后续可能会有补充和更改 目录 一、数据结构 1.算法介绍 二、时间复杂度、空间复杂度 三、练习 1.时间复杂度 2.空间复杂度 一、数据结构 数据结构是计算机存储、组织数据的方式&#xff0c;指相互之间存在一种或多种特定关系的数据元素的集合。 数据结构和数据库的区…

Jmeter测试POST请求

Jmeter测试POST请求 1、添加http请求 线程组->取样器->http请求 参数说明&#xff1a; 协议&#xff1a;http 服务器&#xff1a;10.1.1.26&#xff08;也就是ip地址&#xff09; 端口&#xff1a;8081 方法&#xff1a;POST 路径&#xff1a;例如&#xff…

滴滴 Java 一面面经

目录 1.了解Java集合嘛&#xff0c;详细说一下Map&#xff1f;2.为什么HashTable线程安全却不常用&#xff1f;3.HashMap不是线程安全&#xff0c;多线程下会出现什么问题&#xff1f;4.什么办法能解决HashMap线程不安全的问题呢5.ConcurrentHashmap是怎么实现的&#xff1f;6.…

ALOHA 开源机械臂(Viper 300 Widow X 250 6DOF机械臂 操作系统)第三部分

详情链接&#xff1a;https://tonyzhaozh.github.io/aloha/ Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 用低成本硬件学习细粒度双手操作 Tony Zhao Vikash Kumar Sergey Levine Chelsea Finn Stanford University UC Berkeley Meta 斯坦福大学…

分布式锁解决方案_Zookeeper分布式锁原理

通过召zk实现分布式锁可靠性时最高的 公平锁和可重入锁的原理 取水秩序&#xff1a; &#xff08;1&#xff09;取水之前&#xff0c;先取号&#xff1b; &#xff08;2&#xff09;号排在前面的&#xff0c;就可以先取水&#xff1b; &#xff08;3&#xff09;先到的排在…

Go语言的学习【1】基础语法之前的准备事项

目录 什么是云原生学习方法go语言的IDE配置之VScode写go代码要注意的事情一些基本命令基础语法Go 语言原生自带测试Go vetPrint-format 错误&#xff0c;检查类型不匹配的printBoolean 错误&#xff0c;检查一直为 true、false 或者冗余的表达式Range 循环&#xff0c;比如如下…

ThingsBoard部署tb-gateway并配置OPCUA

1、安装 我实在自己的虚拟机上安装,使用官方Docker的安装方式 docker run -it -v ~/.tb-gateway/logs:/thingsboard_gateway/logs -v ~/.tb-gateway/extensions:/thingsboard_gateway/extensions -v ~/.tb-gateway/config:/thingsboard_gateway/config --name tb-gateway --…

《安富莱嵌入式周报》第312期:开源磁场照相机,仿生神经元PCB,开源无线耳机,手机系统PalmOS移植到各种单片机,开放系统组装协议OSAP

周报汇总地址&#xff1a;嵌入式周报 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬汉嵌入式论坛 - Powered by Discuz! 更新一期视频教程&#xff1a; BSP视频教程第26期&#xff1a;CAN/CANFD/CANopen专题&#xff0c;CANFD整个运行机制精…

PyTorch RNN的原理及其手写复现。

PyTorch RNN的原理及其手写复现。 记忆单元(考虑过去的信息)分类包括&#xff1a;1.RNN 2.GRU 3.LSTM模型类别&#xff1a;1.单向循环(左到右) 2.双向循环&#xff08;考虑未来信息&#xff09; 3.多层单向或双向循环优缺点应用场景具体公式 代码实现 记忆单元(考虑过去的信息)…

网络安全合规-数据安全评估

目前&#xff0c;我国在数据管理领域&#xff0c;已经正式出台的国家标准有《数据管理能力成熟度评估模型&#xff08;GB/T 36073-2018&#xff09;》&#xff08;DCMM&#xff09;&#xff0c;在数据安全检测评估、认证领域的标准有《数据安全能力成熟度模型&#xff08;GB/T …