谷歌云 | Document AI 引入了强大的新自定义文档拆分器来自动化文档处理

news2024/11/23 13:07:31

【本文由Cloud Ace整理发布。Cloud Ace是谷歌云全球战略合作伙伴,拥有 300 多名工程师,也是谷歌最高级别合作伙伴,多次获得 Google Cloud 合作伙伴奖。作为谷歌托管服务商,我们提供谷歌云、谷歌地图、谷歌办公套件、谷歌云认证培训服务。】

企业依靠处理大量文档来驱动流程并做出决策。许多此类文档合并为一个文件。例如,贷款申请可能在单个文件中包含驾驶执照、工资单、W2、银行对账单和其他文档类型。在单个文件中处理多种文档类型的复杂性使得企业难以进行大规模管理。

谷歌云致力于通过持续投资文档 AI 解决方案套件来解决这些挑战,该套件提供用于文档处理和见解的机器学习产品。Document AI Workbench 可帮助用户快速构建具有世界一流精度的 ML 模型,并针对其特定用例进行训练。

2023 年 2 月,谷歌云在通用版 (GA) 中推出了自定义文档提取器 (CDE),以帮助用户从生产用例中的文档中提取结构化数据。

2023 年 3 月,在 GA 中推出了自定义文档分类器 (CDC)帮助自动分类文档类型。

近日,谷歌云在 GA 中发布了 Document AI Workbench 的最新功能:自定义文档拆分器 (CDS),可帮助用户自动拆分和分类单个文件中的多个文档。

CDS 通过帮助客户对文档进行排序和分类,为客户提供切实的商业价值。例如,企业可以验证他们是否拥有申请人提供的所有所需文件。此外,单独分类的文档使企业能够更好地自动化下游流程,包括根据文档类型选择适当的存储、分析或处理步骤。CDS 带来的效率可帮助企业降低文档处理时间和成本。  

Document AI Workbench 中拆分和分类模型的优点

Document AI Workbench 可以通过简化模型训练(从数据集管理到测试再到部署)来节省时间和金钱。CDS 帮助企业实现更高的自动化率以扩展流程,同时降低成本。

Zencore 交付服务副总裁 Sean Earley 表示:“我们为一家大型银行完成了一个项目,使用 Document AI Workbench 对文档中的数据进行拆分、分类和提取,以实现《住房抵押贷款披露法案》报告的自动化。考虑到我们构建的模型的准确性, ,我们的客户估计将贷款报告覆盖率从 20% 提高到 100%,同时每年消除数千个错误,从而大大降低了银行合规报告程序的运营成本。”

德勤咨询有限公司人工智能与数据经理 Fabian Beckmann 表示:“通过利用 Document AI 的自定义文档拆分器,我们的客户德国商业银行(一家大型欧洲银行)可以轻松地根据其后台要求对客户提交的内容进行细分,从而大大减少了用于额外的手动排序或路由。这种集成为文档人工智能管道内的无缝自动化铺平了道路,带来了巨大的商业利益。”

IT 服务公司 Devoteam 的 ML Tribe 技术主管 Kaïs Albichari 表示,“自定义文档拆分器 (CDS) 帮助我们金融服务行业的一位客户节省了大量时间并提高了数据准确性。通过识别文档的哪些部分他们可以丢弃并保留用于实体提取,CDS 帮助该公司实现了文档处理任务的自动化。实施后工作流程更加高效和简化,使员工能够专注于其他任务。Devoteam 的 G Cloud 团队帮助该公司实施了 CDS并实现这些好处。”

Frank Neugebauer 是 Google Cloud 保险解决方案顾问,他与一家财富 100 强保险公司合作,使用 CDS 创建了一个模型,可以对数百万份保险文件进行拆分和分类,准确率高达 98%。有了这些信息,保险公司可以更好地了解其非结构化数据的性质,为业务策略提供信息,包括特定文档类型的数量,为提取工作提供信息。客户认为这种洞察力水平在他们 200 多年的历史中是前所未有的。

如何使用自定义文档拆分器

您可以利用Google Cloud Console中的简单界面和一组公共 API来准备训练数据、创建和评估模型、将模型部署到生产中,以及调用 API 端点来拆分和分类文档类型。您可以按照文档中的说明来创建、训练、评估、部署和运行模型预测。

导入并准备训练数据

首先,导入并标记文档以训练和评估 ML 模型。

要快速构建训练数据集,请导入单个文档(每个文件一个文档),并使用相关文档类型批量标记它们。您可以一次导入一个或多个文件夹,并为每个文件夹选择正确的文档类型。如下图所示,一次导入可能有一个包含 200 个银行对账单的文件夹,另一个包含 200 个 W2 的文件夹,另一个包含 200 个工资单的文件夹等,所有这些在导入时都会立即标记。

最多可输入30,000份文档和100,000页进行培训。通过这种方式,您可以在几分钟内构建一个训练数据集,其中每个类包含数百个标记文档。与往常一样,如果文档已经使用其他工具进行了标记,只需以文档格式导入带有 JSON 的标签即可。

您只需单击按钮即可开始培训。训练模型后,您可以使用它自动标记添加到数据集中的文档,从而让您快速构建强大的测试和训练数据集以评估和提高模型性能。

要准确评估 CDS 模型,请导入同一文件中包含多种文档类型的文件并将它们分配给测试数据集。然后,使用一个简单的接口来定义文档边界和类型。

您在测试数据集中标记的基本事实用于评估 CDS 模型的分割和分类预测。

投入生产

一旦模型满足准确性目标,就可以部署到生产中并调用 API 端点来拆分和分类文档类型。

文档 AI 工作台入门

自定义文档拆分器已在 GA 中公开发布,可帮助客户实现文档拆分和分类的自动化。通过Document AI Workbench 网页、Document AI Workbench 文档了解更多信息,或在 Google Cloud Console 中尝试。

如果您有任何问题或需求,请与我们取得联系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/773427.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Orange:一个基于 Python 的数据挖掘可视化平台

本篇介绍一个适合初学者入门的机器学习工具。 Orange 简介 Orange 是一个开源的数据挖掘和机器学习软件。Orange 基于 Python 和 C/C 开发,提供了一系列的数据探索、可视化、预处理以及建模组件。 Orange 拥有漂亮直观的交互式用户界面,非常适合新手进…

测试用例(3)

功能测试用例方法: 等价类 边界值 因果图 正交实验分解法 判定表驱动分析方法 非功能性的测试用例方法: 错误推测法 功能图分析方法 场景: 场景设计方法 1) 在任何情况下都必须使⽤边界值分析⽅法,经验表明⽤这种⽅法设…

CGT Asia嘉年华|3D细胞培养与类器官研发峰会10月广州召开

类器官指利用成体干细胞或多能干细胞进行体外三维(3D)培养而形成的具有一定空间结构的组织类似物,是近10年来干细胞领域发展最快的研究热点之一。2022年,FDA 通过现代化法案 2.0,批准全球首个完全基于“类器官芯片”研…

pandas 笔记:pivot_table 数据透视表\pivot

1 基本使用方法 pandas.pivot_table(data, valuesNone, indexNone, columnsNone, aggfuncmean, fill_valueNone, marginsFalse, dropnaTrue, margins_nameAll, observedFalse, sortTrue)2 主要参数 dataDataFramevalues要进行聚合的列index在数据透视表索引(index…

# Linux下替换删除文件中的颜色等控制字符的方法

Linux下替换删除文件中的颜色等控制字符的方法 文章目录 Linux下替换删除文件中的颜色等控制字符的方法1 Linux下的控制字符(显示的文字并不是他本身):2 颜色字符范例:3 替换4 最后 我们在shell编程显示输出时,会定义文…

【Java】一个简单的接口例子(帮助理解接口+多态)

要求: 请实现笔记本电脑使用USB鼠标、USB键盘的例子 1. USB 接口:包含打开设备、关闭设备功能 2. 笔记本类:包含开机功能、关机功能、使用 USB 设备功能 3. 鼠标类:实现 USB 接口,并具备点击功能 4. 键盘类&am…

人才输送|我的“捷码低代码工程师”转型之路!

最新职位 招聘岗位:低代码工程师 需求公司:上海北斗西虹桥基地 应聘条件:1、本科以上,最好硕士;2、有三年以上开发经验; 工作内容:带领团队用捷码低代码平台进行项目开发。 工作地点&#xff1a…

长城汽车Hi4技术品牌成果初现,大象转身必将势不可挡

今年1-6月,长城汽车销售52万辆,新能源车型销售9.3万辆,同比增长47%;智能新能源新产品密集上市,新能源销量与占比逐月攀升,6月销售超2.6万辆,占比突破25%,皆创历史新高; 全…

文档翻译成中文怎么弄?今天分享文档翻译免费要怎么弄

有一天,小华来到了一个外国小镇。然而,他发现镇上的路牌、菜单和旅游手册都是用外语写的,让他感到非常困扰。他不知道该去哪里游玩,也无法理解当地的文化和历史。他非常喜欢这个小镇的风景,但是他无法读懂他们这里的一…

【Linux -- 查看进程--ps,top,pstree】

Linux – 查看进程 文章目录 Linux -- 查看进程一、查看进程 -- ps二、动态查看进程的变化 -- top三、pstree -- 可以找进程之间的相关性总结 提示:以下是本篇文章正文内容,下面案例可供参考 一、查看进程 – ps 更详细的可以通过man ps查看 ps aux …

深入理解Java虚拟机(三)垃圾收集器与内存分配策略

Java与C之间有一堵由内存动态分配和垃圾收集技术所围成的高墙,墙外面的人想进去,墙里面的人却想出来。 Java内存运行时区域的各个部分,其中程序计数器、虚拟机栈、本地方法栈3个区域随线程而生,随线程而灭,栈中的栈帧随…

echarts图例对齐

富文本不生效,是没有设置lineHeight

【运维】shell监控脚本结合钉钉机器人实现服务及服务器监控告警

文章目录 前言一、监控shell脚本和钉钉机器人二、创建钉钉机器人:1.在钉钉群聊里点击设置2.在设置里点击机器人选项3.再点击添加机器人4.再点击选择自定义机器人5.设置机器人名称、是否加密、是否限制ip、以及触发关键字6.获取机器人的Webhook地址 三、编写监控脚本…

MySQL表关联更新

背景: 有两张表,一张class信息表,一张student信息表,但student表里的信息存在错误,需要用class表中的信息去更新student表数据。 方法一: update student_info s set class_name (select class_name fr…

一本通12951917:装箱问题

不知道说什么废话好了 题目 装箱问题 描述 有一个箱子容量为V(正整数,0<=V<=20000),同时有n个物品(0<n<=30),每个物品…

Spring 的依赖注入

Spring 的依赖注入 文章目录 Spring 的依赖注入每博一文案1. 依赖注入1.1 构造注入1.1.1 通过参数名进行构造注入1.1.2 通过参数的下标,进行构造注入1.1.3 不指定参数下标,不指定参数名字,通过自动装配的方式 1.2 set 注入 2. set注入的各种方…

uniapp 小程序 picker 日期时间段选择(精确到年月日时分+周几)

效果图&#xff1a; picker时间选择器 精确到年月日时分周几 需要引入moment.js&#xff0c;有可能引入后在项目内会报错&#xff0c;可以考虑把选择日期作为一个组件引入 1、timepage.vue组件封装 <template><view><picker mode"multiSelector" :va…

人才输送|捷码帮我走出求职迷茫期!

大家好&#xff0c;我是边文军。 很荣幸应余老师之邀&#xff0c;在这里和各位兄弟姐妹分享应聘青岛英哲低代码工程师的求职经历&#xff0c;希望能给大家提供点帮助。 01 自我介绍 先来做一个自我介绍吧&#xff01;我是计算机专业出身&#xff0c;学的移动应用开发专业。学…

【贪心算法part01】| 455.分发饼干、376.摆动序列、53.最大子序和

目录 &#x1f388;LeetCode455.分发饼干 &#x1f388;LeetCode376.摆动序列 &#x1f388;LeetCode53.最大子序和 &#x1f388;LeetCode455.分发饼干 链接&#xff1a;455.分发饼干 假设你是一位很棒的家长&#xff0c;想要给你的孩子们一些小饼干。但是&#xff0c;…

决赛结束,颁奖在即:2023隐私计算大会暨“星河杯”隐私计算大赛颁奖典礼震撼来袭!

7月11日-12日&#xff0c;首届“星河杯”隐私计算大赛4个赛题共计37支团队陆续完成决赛评审&#xff0c;决出的大赛获奖团队代表将受邀出席7月26日在青岛星河湾酒店举办的2023隐私计算大会暨首届“星河杯”隐私计算颁奖典礼。 2023隐私计算大会暨首届“星河杯”隐私计算大赛颁奖…