发掘非结构化数据价值:AI 在文档理解领域的现状与未来

news2024/9/29 1:20:24

编者按: 在当今这个由数据主导的时代,我们被海量多样的信息所环绕,但大部分数据都以非结构化的形式存在,诸如文档、电子邮件、合同等,这使得从中提取有价值的信息成为一大挑战。

幸运的是,AI 领域正在悄然孕育一场革命性变革,它将帮助我们攻克长期以来困扰非结构化数据处理的种种困难。

这篇文章首先解释了文档理解场景面临的主要挑战——需要处理文本、图像等多模态信息,并理解它们之间的逻辑关联。接着介绍了 DocLLM 和 DocGraphLM 等创新模型,它们融合了语言模型与图神经网络等技术的优势,能够更好地理解文档的结构和语义信息。基于此,文档分析的自动化程度将大幅提高,为商业智能(BI)、企业合规管理等领域带来全新机遇。更有趣的是,结合对话系统和面向任务的 Agents,则能实现真正的"端到端"文档处理流程自动化。

作者 | Anthony Alcaraz

编译 | 岳扬

🚢🚢🚢欢迎小伙伴们加入AI技术软件及技术交流群,追踪前沿热点,共探技术难题~

我们正站在人工智能新时代的风口上。在过去的一年里,生成模型的快速发展令人瞠目结舌。从能够使用DALL-E 3生成极富想象力的图像,到使用 ChatGPT 生成言辞优美、表达流畅、富有感染力的文章,这些模型展示出这段时间人工智能技术取得的巨大进步。

然而,在更专业的人工智能领域——文档理解,也在悄然发生着同样深刻的变化,尽管这种变化并不那么轰动。这一领域的最新进展有望实现自动推理非结构化企业数据中的大量信息,或将进一步推动人类生产力的发展、提质。

据估计,超过 80% 的潜在可用业务信息存储在扫描文档、表格、合同、电子邮件和其他非结构化数据源(unstructured data sources)中。 这是一笔惊人的知识财富。然而,计算机在处理这些信息时,缺乏人类所具备的直觉和对细节的理解能力。

当今最优秀的人工智能系统能够以相当高的准确率识别日期、名称和金额等信息。但是,对于概念之间层次关系的深层语义把握、基于证据进行逻辑推理,以及其他处理非结构化数据时将会面临的复杂情况和难题,目前仍然是一大挑战,需要进一步突破。

例如,通过交叉引用交易截止日期(due date)并将其与单独的付款通知文件(payment advice documents)关联起来,从发票中推断出付款日期(payment dates),这需要考虑到文档的相关背景,而不仅仅是简单地依据其中的某个信息。解决财务记录中的存在的不一致或矛盾之处,或针对商业活动或业务运营方面的问题或需求所提出的询问也需要如此。

能够最终破解这些难题的关键创新技术已经问世 —— 这些模型将强大的处理自然语言的神经网络模型(neural language foundations)与利用 Graphical and spatial encoding(译者注:这种方法用于将文档结构和内容以图形化或空间化的方式编码成计算机可以理解和处理的形式。)理解文档结构的能力相结合。

语言模型对文本媒介(textual mediums)的掌握,再与处理图像和音频的架构进步相结合,为文档分析(document analysis)领域的突破性应用奠定了基础,这些应用有望极大地提高人类的生产效率。

Generated by Dall-E-3

01 利用技术手段从文档中获取有用的信息或知识

文档理解的主要挑战在于,与结构化数据不同,文档中既包含了复杂的视觉元素,如表格、图表等,又包含了自然语言的文字描述,且文字排列方式灵活自然,不受严格的结构限制。 人类的推理能力可以轻松地处理这些错综复杂的信息,但计算机却很难复制人类这种能力。

1.1 理解文档中的视觉元素如何排列和组织

与纯文本不同,文档使用诸如表格、图表、页眉和页脚之类的视觉结构来传达信息之间的联系。要推理出这些关系,就需要分析页面上各元素的positioning(译者注:元素在页面上的位置)、proximity(译者注:元素之间的接近程度或距离) 和 bounding boxes(译者注:围绕元素的边界框,用于确定元素在页面上的位置和范围),而不仅仅是单独处理文本。

例如,将数值(values)与表头(table headers)相匹配,将侧边栏中的文本与相关部分链接起来,理解文档中各部分的排列顺序,以及在多页文档中各部分之间的逻辑关系和信息传递流程。上述挑战都需要对文档的整体组织结构和布局格式进行深入分析。

1.2 理解文件中语言的组织、表达方式

文档中语言表达的自由性和灵活性会给理解和处理文档带来挑战。复杂的语法、双重否定、讽刺、零散的文本、领域术语等都需要根据上下文进行理解。

预训练语言模型已经可以很好地理解语言中存在的细微差别。但是,要可靠地解释合同、财务报告或医疗记录中的独特语言模式,针对特定领域的文档进行微调是必不可少的。

1.3 将文档中各部分逻辑关系联系起来

最后,在处理大量数据或信息时,进行推理、分析和判断的过程比较复杂,且极具挑战性。这些文件包含一些相互关联但没有明确联系的信息。分析财务文件并能够发现潜在的支付欺诈行为,并确定相关的联系,需要从多个来源聚合证据片段建立逻辑线索。这仍然是一个长期存在的障碍。

02 新一代文档处理人工智能模型的涌现

可供学习的资料:

1.https://arxiv.org/abs/2401.00908

2.https://arxiv.org/abs/2401.02823

2.1 具备强大语言理解和处理能力的基础模型

DocLLM 和 DocGraphLM(来自摩根大通)都建立在先进的神经语言模型之上,利用其丰富的语言知识和文本理解能力。

具体而言,DocLLM通过将文档的空间布局结构信息融入自注意力机制的计算过程中,对基于标准 Transformer 架构的大语言模型进行了扩展和增强。

与此同时,DocGraphLM 将图神经网络(graph neural networks)与预训练的语言模型嵌入相融合,实现了对文本语义和结构语义的统一表征和建模。

因此,它们既保留了基础模型的语义分析优势,同时通过对模型进行增强或改进,使其能够更好地适应文档处理的需求和特点。

2.2 对文档中的组织结构、排版方式、段落布局等方面进行理解和分析

这些模型的一个主要区别在于,它们各自采用了不同的技术方案来处理文档中的组织结构、排版布局、段落安排等视觉结构信息:

DocLLM 引入了一种解耦的空间注意力机制(disentangled spatial attention mechanism),允许在 Transformer 框架中对文本内容和文档空间布局结构信息这两种不同的数据模态并行建模。

另一方面,DocGraphLM 则以图的形式清晰地表示文档的结构和内容,将文本段落映射为图的节点,并捕获它们之间的空间关系。

因此,一个模型采用了 Transformer 方法,另一个模型使用了图形化方式来表示或呈现语义信息 —— 两种方法都被证明是有效的。

2.3 进行模型预训练时所设定的目标或任务

这两个模型都使用适用于文档的自监督学习目标(Self-supervised objectives)进行预训练:

DocLLM 的训练任务包括填充和屏蔽文本块,以便在 generative modeling (生成式模型的构建)过程中处理不规则的文档布局。

DocGraphLM 通过学习如何预测缺失的连接以重构完整的图形结构以将文档结构转换成一个向量或者一种表示形式,以便模型能够更好地理解文档的组织结构和关系。

预训练推动了多模态文档理解能力的发展。

03 文档分析领域可能出现的新机遇

语言模型对文本媒介的强大理解和处理能力,加上多模态理解方面的架构进步,为文档分析领域的突破性应用奠定了基础:

3.1 利用自动化技术从文档中提取信息并进行标注

在大多数企业中,通过人力进行信息提取仍然是主流做法。但人工智能有望通过检测文档中的实体、实体之间的关系和文档中可能存在的层次结构(entities, relationships and hierarchies),自动完成高达 50-60% 的标注工作。这将极大地提升分析师的生产力,并推动下游的分析工作。

3.2 通过引入新技术、方法或数据源等,使得 BI 系统具有更强大的功能

将文档理解功能直接嵌入到 BI 系统中,可以使某些信息得以被发现或理解。销售报告可以将交易记录联系起来,展现的竞争对手情报可以将市场份额的变化与产品发布等联系起来。

3.3 提供工具、流程、指导或技术解决方案,以确保运营活动合规

分析法律合同实现合规风险的评估,为财务审计中某个论断或主张提供可信的证据或支持并协助调查等,这些都是 BI 能够为法律团队和合规团队带来较大帮助的领域。

04 自动化任务或流程之后进行的后续处理步骤

虽然 RAG 核心系统专注于检索和生成这一机制,但还可以集成额外的后处理模块,以实现自动化任务(automated task)的完成。这有助于 RAG 模型在实际业务工作流程中的运用。

4.1 Conversational Agents

通过将 RAG 系统置于具有对话管理的对话框架(conversational framework)中,它们可以成为企业助手,实现文档理解的自动化。该 Agent 负责处理交互 —— 理解用户的意图、对信息传递过程进行引导或管理,并在整个对话过程中保持上下文(context)。

4.2 面向任务的 Agents

除了能够与用户进行对话外,面向任务的对话型 Agents 可以指导 RAG 系统完成下游任务。例如,Agents 可以将文档理解结果解释为所需的数据格式,当某些条件满足时,系统会自动发送通知,通知相关人员进行人工审查或审核,添加新的数据、修改已有的数据或者进行其他类型的更新,或使用 API 集成执行决策。

4.3 强化学习

为了优化与 RAG 系统进行交互的自动化 Agents ,可以使用强化学习逐步改进决策策略,以便根据文档理解结果采取行动。Agents 可学习如何采取一系列有效的行动,以达到特定的业务目标或实现某些任务。

05 对人工智能发展的整体趋势和影响进行更深入的思考和讨论 The Bigger Picture

随着人工智能的迅速发展,将非结构化的文本和图像转化为结构化知识,将使其分析能力在短时间内也会产生巨大的进步。将对文档所提供信息的完整理解与由结构化数据驱动的分析框架相结合,很可能会发生很多有趣的事情!

它预示着一场通过即时获取信息和利用技术或工具自动执行日常性的智力任务来提高人类生产力的革命即将到来。但是,负责任的发展要求在进步速度加快的同时,也要确保决策和行为的公平性、透明度和责任性。

因此,虽然生成模型的进步不断登上媒体头条,但变革性的变化往往在静谧的角落中悄然酝酿,然后爆发出来。而 document AI 可能很快就会从那星星之火转变为熊熊烈火,照亮人工智能下一个时代的道路。

Thanks for reading!

————

Anthony Alcaraz

Chief AI Officer & Architect : Builder of Neuro-Symbolic AI Systems @Fribl enhanced GenAI for HR

END

本文经原作者授权,由 Baihai IDP 编译。如需转载译文,请联系获取授权。

原文链接:

https://ai.plainenglish.io/the-coming-revolution-in-document-understanding-70e8b037e4c2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1550746.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

负荷频率控制LFC,自抗扰ADRC控制,麻雀SSA算法优化自抗扰参数,两区域二次调频simulink/matlab

红色曲线为优化结果,蓝色曲线为没有自抗扰和没有优化的结果!

JWT认证原理

简介: JSON Web Token (JWT) is an open standard (RFC 7519) that defines a compact and self-contained way for securely transmitting information between parties as a JSON object. This information can be verified and trusted because it is digitally …

用户下单、订单支付

一、用户下单 1.1 需求分析和设计 1.2 代码开发 1.2.1 Controller层 import com.sky.dto.OrdersSubmitDTO; import com.sky.result.Result; import com.sky.service.OrderService; import com.sky.vo.OrderSubmitVO; import io.swagger.annotations.Api; import io.swagger.a…

友商健康巡检分析

1、腾讯云 健康检查的参考资料:​​cloud.tencent.com​​ 检查的项目(参数说明) 检查类别 检查项 检查内容 资源状态 kube-apiserver 的状态 检测组件是否正在运行,如果组件以 Pod 形式运行,则检测其24小时内是…

《系统架构设计师教程(第2版)》第7章-系统架构设计基础知识-05-特定领域软件体系结构(DSSA)

文章目录 1. DSSA的定义1.1 概述1.2 DSSA 的必备特征如下 2. DSSA的基本活动2.1 领域分析2.2 领域设计2.3 领域实现 3. 参与DSSA的人员3.1 领域专家3.2 领域分析人员3.3 领域设计人员3.4 领域实现人员 4. DSSA的建立过程4.1 定义领域范围4.2 定义领域特定的元素4.3 定义领域特定…

[密码学] 密码学基础

目录 一 为什么要加密? 二 常见的密码算法 三 密钥 四 密码学常识 五 密码信息威胁 六 凯撒密码 一 为什么要加密? 在互联网的通信中,数据是通过很多计算机或者通信设备相互转发,才能够到达目的地,所以在这个转发的过程中,如果通信包…

安静:内向性格的竞争力 - 三余书屋 3ysw.net

精读文稿 这期我们介绍的这本书叫做《安静》,副标题是《内向性格的竞争力》。本书共有267页,我会用大约25分钟的时间为你讲述书中的精髓。内向性格具备什么样的竞争力?内向性格的人在人际交往和日常生活中似乎总是吃亏,因为他们不…

c语言知识点整理------基础c语言框架,数据类型,变量常量,注释

前言 本文不涉及讲解原理,用简洁明了的风格,去整理方便查阅的知识点。 (适合有编程基础,或者需要作为笔记的人群使用) 程序基本框架 结果会输出hello world。 程序的执行 c语言属于编译型语言。 代码执行分为五个…

python学习13:python中的字符串格式化

python中的字符串格式化另外一种方式 我们前面是使用的%d,%f,%s占位符来实现字符串的格式化的;这次我们通过f"{}"来快速实现格式化,代码示例如下:

计算机网络(二)物理层

物理层 一、通信基础1.奈氏准则、香农定理2.编码与调制3.电路交换、报文交换、分组交换 二、 传输介质、设备1.导向性传输介质:1.1双绞线1.2 同轴电缆1.3光纤 2.非导向性传输介质: 一、通信基础 信道带宽:信道能通过的最高频率和最低频率之差…

管理阿里云服务器ECS -- 网站选型和搭建

小云:我已经学会了如何登录云服务器ECS了,但是要如何搭建网站呢? 老王:目前有很多的个人网站系统软件,其中 WordPress 是使用非常广泛的一款,而且也可以把 WordPress 当作一个内容管理系统(CMS…

739.每日温度

class Solution:def dailyTemperatures(self, temperatures: List[int]) -> List[int]:n len(temperatures)#从小到达&#xff0c;存放下标 把-1当作栈顶&#xff0c;0当作栈底index_stack [0]res [0] * nfor i in range(1,n):if temperatures[i] < temperatures[ind…

MSTP-3 8K/4K多业务综合光传输平台

MSTP-3作为全新的多业务综合光传输平台&#xff0c;是目前市场上少有的非插卡式、集中式最大32路4K多业务综合光传输产品&#xff0c;不但实现了自主知识产权和国产化替代&#xff0c;还填补了国内多通道8K/16K远距离光传输产品空白。 ⚫ 单套设备即可实现集中式多业务远距离光…

深入解析《企业级数据架构》:HDFS、Yarn、Hive、HBase与Spark的核心应用

写在前面 进入大数据阶段就意味着进入NoSQL阶段&#xff0c;更多的是面向OLAP场景&#xff0c;即数据仓库、BI应用等。 大数据技术的发展并不是偶然的&#xff0c;它的背后是对于成本的考量。集中式数据库或者基于MPP架构的分布数据库往往采用的都是性能稳定但价格较为昂贵的小…

2024年3月28日蚂蚁新村今日答案:人间能得几回闻和冰蚕吐凤雾绡空哪句诗描写的云锦之美?

蚂蚁新村是一个虚拟社区。在这个虚拟社区中&#xff0c;用户可以参与各种活动&#xff0c;比如生产能量豆、做慈善捐赠等。同时&#xff0c;蚂蚁新村也提供了一些知识问答环节&#xff0c;用户在参与的过程中可以增进知识。这些问答内容往往涉及广泛的主题&#xff0c;如文化、…

Java:反射 reflection ( 概念+相关类+使用方法)

文章目录 一、反射(reflection)1.概念优点&#xff1a;缺点 2.反射的相关类1.Class类1.**反射机制的起源**2.获得类相关的方法3.获得类中属性的相关方法4.获得类中注解相关的方法5.获得类中构造器相关的方法6.获得类中方法相关的方法 2.获取Class对象的三种方法&#xff1a;1.使…

基于springboot实现校园管理系统项目【项目源码+论文说明】

基于springboot实现校园管理系统演示 摘要 随着科学技术的飞速发展&#xff0c;社会的方方面面、各行各业都在努力与现代的先进技术接轨&#xff0c;通过科技手段来提高自身的优势&#xff0c;校园管理系统当然也不能排除在外。校园管理系统是以实际运用为开发背景&#xff0c…

SQL107 将两个 SELECT 语句结合起来(二)(不用union,在where里用or)

select prod_id,quantity from OrderItems where quantity 100 or prod_id like BNBG% order by prod_id;在where子句里使用or

ABC346 A-G 题解

ABC346 A-G题解 A题目AC Code&#xff1a;时间复杂度 B题目时间复杂度AC Code&#xff1a; C题目时间复杂度AC Code&#xff1a; D题目时间复杂度AC Code&#xff1a; E题目时间复杂度AC Code&#xff1a; F题目时间复杂度AC Code&#xff1a; G题目时间复杂度AC Code&#xff…

Leo赠书活动-21期 《一篇讲明白 Hadoop 生态的三大部件》

✅作者简介&#xff1a;大家好&#xff0c;我是Leo&#xff0c;热爱Java后端开发者&#xff0c;一个想要与大家共同进步的男人&#x1f609;&#x1f609; &#x1f34e;个人主页&#xff1a;Leo的博客 &#x1f49e;当前专栏&#xff1a; 赠书活动专栏 ✨特色专栏&#xff1a;…