合合信息的OCR技术在智能文档处理方面有哪些具体的应用案例?

news2024/9/20 8:59:31

智能文档处理(IDP)是利用人工智能技术,自动从复杂的非结构化和半结构化文档中抽取关键数据,并将其转换成结构化数据的技术。能够自动识别、提取并结构化处理文档中的关键信息。这种技术通常基于自然语言处理(NLP)和计算机视觉等先进技术,可以应用于各种类型的文档,如PDF、Word、Excel、图片等。

合合信息智能文档抽取的主要功能包括:

文本抽取:从文档中提取出所有文字内容,包括标题、正文、表格等。

实体识别:识别文档中的特定实体,如人名、地名、组织名、日期、金额等。

关键信息提取:根据预设的规则或模型,从文档中提取出关键信息,如合同条款、财务数据、项目进度等。

结构化输出:将提取出的信息以结构化的形式输出,如JSON、XML、CSV等。

自动化处理:可以与业务流程集成,实现自动化的文档处理,提高工作效率。

智能文档抽取在许多领域都有广泛的应用,如金融、法律、医疗、人力资源等。

下面将以金融场景为例,对金融大数据业务场景进行详细介绍。

在金融大数据服务行业,尤其是在财报和年报季,企业面临着巨大的数据处理挑战。传统的数据录入方法依赖于数据清洗和正则表达式来提取网页内容,然而这些方法在处理格式多样、版面复杂的文档时效果不佳。这导致重要信息难以高效准确地转换为可用数据,给企业带来了很大的困扰。

通过使用合合信息的文档解析工具,企业可以在短时间内处理大量数据输入。

一、革新券商综合柜面业务应用

综合柜面业务文件种类多,版式不一,复杂版面多,处理难度大。合合信息智能文档抽取产品,融合了OCR文字识别、版面解析、语义理解(Embedding)、结构化提取等多项技术,具备在多种复杂场景下实现高精度文档抽取的能力。将以智能文档抽取技术为核心的解决方案应用于综合柜面业务系统,能够在满足安全与合规要求的前提下,显著提升业务运行效率,降低运营风险。

合合信息智能文档处理平台,针对综合柜面业务的场景,提供“开箱即用”的文档抽取能力,涵盖:

客户风险承受能力测评及告知函
法人开户申请表法人开户申请表(产品)  个人开户申请表
三方存管协议  产品适当性评估结果确认书
业务授权委托书  业务受理单
证券开立申请表及证券业务办理须知  证券业务申请表(查、休、销)及业务办理须知
证券账户开立申请表及办理须知  证券账户业务申请表(适用于办理证券账户关联关系确认、转挂业务)
证券账户业务申请表(适用于开放式基金账户资料查询、场内外对应关系维护)  销户申请表
更多......

以版式各不相同的三方存管协议为例,三方存管协议主要用于个人开户业务、机构开户业务、合同企业开户业务、私募产品开户业务、单资金户和休眠户激活等业务,协议格式多样,抽取内容文字信息如投资者姓名、身份证件类型、证件号码等信息,还会涉及签署日期的手写字体识别,投资者签章、机构公章、经办签章、复核签章的公章识别。

创新点:开箱即用,“零样本”抽取

合合信息的智能文档抽取产品,具备开箱即用的特点,无需预先提供标注样本即可实现高效文档抽取。

这一“零样本”抽取能力,得益于平台内置的丰富模型和算法库,使系统在初次部署时就能快速适应并处理各种类型的文档。相比传统方法,省去了大量前期的数据标注和模型训练工作,从而极大减少了准备工作的时间和成本。用户只需简单配置,即可投入使用,大幅提升了部署效率和应用便捷性。

此外,在处理突发业务需求时,平台能够迅速响应和调整,满足各种复杂业务场景下的文档处理需求。

二、银行函证业务的数字化领航者

银行询证函是注册会计师、投行IPO项目组(询证者)直接从银行获取书面答复作为审计证据的过程,具备“独立性”特点,根本目的是核对账目,所确定的内容更多集中在应收应付账款的真实性与准确性,用于发现财务舞弊。

01函证审核

会计师/IPO项目组发函给商业银行,银行需要对函证中盖章规范性进行审核,并判定询证函格式是否符合银行规范;在回函之前,需要将回函件与用印件比对查看风险差异项。

合合信息智能文档处理平台的印章检测识别模型可同时判断印章存在性、印章类型、颜色、形状并进行印章内容抽取,智能化实现印章合规性审核。平台同时提供文档比对模型,支持PDF、Word、图片、Excel、txt等多种文档格式,包含印刷体/手写体、表格、印章比对等。

■ 印章检测识别:

支持智能识别印章类型,涵盖:公章、合同专用章、法定代表人章、财务专用章、发票专用章、业务专用章等。同时可识别印章颜色、印章形状、涵盖主体名称的印章内容,并提供印章图像切片。

■ 询证函格式比对:

支持“修改、删除、增加”三种不同类型差异显示,原文高亮展示文本差异处信息,可左右文档同步预览或异步预览,快速定位、直观比对差异点,将自动过滤骑缝章、授权章及回函章等的影响,支持同步滚动展示模式,文档差异点按条款聚合,一目了然。

02函证回复

根据《银行函证工作操作指引》,适用于注册会计师执行财务报表审计业务的询证函有两种格式。

格式一由注册会计师根据根据被审计单位相关信息填写,银行接收到格式一询证函后,需要采集函证内14大类信息,与行内业务系统中客户数据比对,回复是否相符,如不符,还应提供详细信息。

格式二由注册会计师填写扣款银行账号以及供银行识别函证范围所需信息,银行接收到格式二询证函后,需要抽取被审计单位的账户信息,对接内部数据库,填写具体信息后回函。

合合信息智能文档抽取产品,支持格式一、格式二两种版式银行询证函的关键信息抽取,涵盖银行存款、银行借款、担保等14大类信息及被审计单位账户信息,依托合合信息自研的垂直领域语义模型,实现开箱即用的“零样本”抽取,辅助业务人员智能化完成信息抽取与比对。

覆盖函证字段:

1. 银行存款:账户名称、银行账号、币种、利率、账户类型、账户余额、是否属于资金归集、起始日期、终止日期、是否存在使用限制、备注
2. 银行借款:借款人名称、借款账号、币种、余额、借款日期、到期日期、利率、抵(质)押品/担保人、备注
3. 注销的银行存款账户:账户名称、银行账号、币种、注销账户日
4. 被审计单位作为委托人的委托贷款:账户名称、银行结算账号、资金借入方、币种、利率、余额、贷款起止日期、备注
5. 被审计单位作为借款人的委托贷款:账户名称、银行结算账号、资金借出方、币种、利率、余额、贷款起止日期、备注
6. 担保:被担保人、担保方式、币种、担保余额、担保到期日、担保合同编号、备注
7. 银行承兑汇票:银行承兑汇票号码、结算账户账号、币种、票面金额、出票日、到期日、抵(质)押品
8. 已贴现而尚未到期的商业汇票:商业汇票号码、承兑人名称、币种、票面金额、出票日、到期日、贴现日、贴现率、贴现净额
9. 被审计单位为持票人的商业汇票:商业汇票号码、承兑人名称、币种、票面金额、出票日、到期日
10. 不可撤销信用证:信用证号码、受益人、币种、信用证金额、到期日、未使用金额
11. 外汇买卖合约:类别、合约号码、贵行卖出币种、贵行买入币种、未履行的合约买卖金额、汇率、交收日期
12. 证券或其他产权文件:证券或其他产权文件名称、证券代码或产权文件编号、数量、币种、金额
13. 未到期银行理财产品:产品名称、产品类型(封闭式/开放式)、币种、持有份额、产品净值、购买日、到期日、是否用于担保或存在其他使用限制
14. 资金归集:资金提供机构名称、资金提供机构账号、资金使用机构名称、资金使用机构账号、币种、资金余额、备注

03 发送回函

合合信息智能文档抽取产品,可智能化抽取函证中的回函地址、联系人等信息,对接快递系统下单。

三、基金合同信息自动提取

合合信息智能文档处理平台重磅上线基金合同抽取模型,内置30+常用字段智能抽取,包括:基金名称、产品名称、存续期限、是否节假日顺延、运作方式、产品类型、募集币种、管理人名称、托管人名称、产品风险级别、投资者风险承受能力、管理人网站、基金服务机构全称、注册登记编码、代销机构全称、最低募集金额、最低投资者人数、最高投资者人数、首次投资最低金额、追加认购最低金额、认购失败利息处理方式、认购期利息处理方式、是否收取认购费、赎回限制天数、认购费归属、封闭期、申购费归属、赎回费等。

除内置字段外,合合信息智能文档处理平台的基金合同抽取模型还支持自定义配置抽取字段,开箱即用,无需标准训练,即可实现抽取。

· 功能亮点:

1.开箱即用:内置30+常用字段,同时支持自定义配置字段。无需标注训练,即可实现抽取。

2. 泛化性强:兼容不同版式的基金合同

3. 复杂版面解析:准确还原复杂表格(含少线表、无线表、合并表格)

4. “多模态”抽取:支持抽取多种文件格式及手写体、印章、整表等元素

5. 长文本抽取:支持抽取多达数百页的基金合同

6. 具备通用及基金领域知识:基于高质量语料库应用,具备基金领域的专项知识

·应用场景:

合合信息智能文档处理平台的基金合同抽取模型适用于基金公司、证券资管、保险资管、证券/银行托管等机构业务。这些机构每日需要处理大量的划款单、邮件或传真指令、开户表单、对账单、基金宣传材料、基金合同、托管协议、公司行动公告等非结构化文本。合合信息智能文档处理平台基于文档解析、文档抽取、文档审核、文档比对等核心AI技术能力,可自动化处理海量业务文档,无缝对接业务系统,提升业务效率,驱动业务智能化升级。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2037821.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【连续4届EI检索,SPIE 出版】第五届信号处理与计算机科学国际学术会议(SPCS 2024,8月23-25)

第五届信号处理与计算机科学国际学术会议(SPCS 2024) 将于2024年8月23-25日在中国哈尔滨举行。会议主要围绕信号处理与计算机科学等研究领域展开讨论。 会议旨在为从事信号处理与计算机科学研究的专家学者、工程技术人员、技术研发人员提供一个共享科研成果和前沿技…

如何使用Wireshake解密Wi-Fi QoS Data报文?

1. 使用Wireshake解密Wi-Fi数据报文 通常当Wi-Fi发生某些问题时,我们都会抓取Wi-Fi sniffer log,用以协助分析问题,但是如果Wi-Fi使用了加密,则我们无法从sniffer log中获取到IP数据的层级,因为在Wi-Fi报文中&#xf…

非专业人士的编程梦:低代码开发平台的崛起与挑战

文章目录 每日一句正能量前言技术概览基本概念主要特点市场现状适用性分析结论 效率与质量的权衡效率提升质量与安全的挑战企业应用开发中的利弊应对策略结论 挑战与机遇挑战机遇应对策略结论 后记 每日一句正能量 书读的越多而不加思考,你就会觉得你知道得很多&…

24/8/14算法笔记 复习_逻辑回归sigmoid

import numpy as np import matplotlib.pyplot as pltdef sigmoid(x):return 1/(1np.exp(-x))x np.linspace(-5,5,100) y sigmoid(x)plt.plot(x,y,colorgreen) #损失函数 from sklearn import datasets from sklearn.linear_model import LogisticRegression from mpl_toolki…

SpringBoot教程(二十一) | SpringBoot实现定时任务

SpringBoot教程(二十一) | SpringBoot实现定时任务 单点定时任务方式一:使用ScheduledEnableScheduling注解巨坑(Scheduled任务都用了同一个线程去执行,导致定时任务存在堵塞)解决办法一:添加自…

linux监控命令

在 Linux 中,有许多命令可以用于监控系统的性能和状态。以下是一些常用的监控命令及其用途: 1. top​ 和 htop​ top ​top​ 命令显示当前系统中运行的进程列表及其资源使用情况。 top​​ ‍ htop ​htop​ 是 top​ 命令的增强版,提…

使用 Spring Event 解耦代码

​ 博客主页: 南来_北往 系列专栏:Spring Boot实战 前言 在Spring框架中,事件机制扮演着至关重要的角色,它不仅促进了组件间的互动,还在提高系统灵活性方面迈出了重要步伐。相较于常规的方法调用,这种机制显著提…

前端组件库汇总

文章目录 一、前端组件库1. ElementUI(基于 Vue 2.0 的桌面端组件库)2. Element Plus(基于 Vue 3,面向设计师和开发者的组件库)3. Vue DevUI(一个基于 DevUI Design 的 Vue3 组件库)4. vant(轻量、可定制的移动端 Vue 组件库)5. Ant Design(助力设计开发者「更灵活」…

使用Spring Boot整合ip2region获取客户端IP地理位置信息

😄 19年之后由于某些原因断更了三年,23年重新扬帆起航,推出更多优质博文,希望大家多多支持~ 🌷 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 🎐 个人CSND主页——Mi…

Spring之@Import注解

1. 前言 Import 注解 在 Spring 中占据重要地位,是 Spring 的一个重要扩展点。这篇博文我们以案例、源码、应用相结合,来系统的学习一下这个注解 2. 案例演示 2.1 代码准备 2.1.1 创建配置类 AppConfig ComponentScan("com.ys") public c…

实战项目:贪吃蛇游戏的实现(上)

前言 Hello, 今天我们来一起完成一个实战项目:贪吃蛇。 相信大家都不会对这个游戏感到陌生,贪吃蛇游戏是久负盛名的游戏,他和俄罗斯方块,扫雷游戏等游戏位列世界经典游戏之列。这次我们旨在通过实战项目贪吃蛇的实现&#xff0c…

opencv2.4.9源码在Windows下VS2019的编译

1、opencv2.4.9解压后根目录下建立build文件夹 2、采用CMake-gui进行编译 记得把上面两个√去掉,用老版本的opencv再用cuda完全没有意义,我们只是验证算法用。 把这个√也去掉。 重新Configure和Generate,如下图: 然后&#xff1…

大模型汇总:文心一言大模型、腾讯混元大模型、通义千问大模型、字节豆包大模型、智普清言大模型、KIMI 大模型、紫东太初大模型、讯飞星火大模型

文心一言大模型 作为百度自主研发的大型语言模型,具有显著的特点、广泛的应用场景以及独特的优势。以下是对文心一言特点、应用、优势的详细介绍: 特点:知识增强: 文心一言通过持续学习技术,不断吸收海量数据和知识…

Postman接口测试基础教程--2024最新版

文章目录 一、Postman 简介二、Postman 功能概览三、Postman 安装说明1. 下载与安装2. 界面导航说明3. 发送第一个请求 四、Postman 基础功能1. 常见类型的接口请求查询参数的接口请求表单类型的接口请求上传文件的表单请求JSON 类型的接口请求 2. 接口响应数据解析3. 接口管理…

基于GA遗传算法的拱桥静载试验车辆最优布载matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于GA遗传算法的拱桥静载试验车辆最优布载matlab仿真。主要是为了实现桥梁静载试验自动化布载(确定车辆位置使得满足加载效率ηq的要求,0…

初级python代码编程学习---- 简单记事本小程序

简单记事本小程序 提供一个基于Python的简单记事本小程序示例。这个小程序将允许用户添加、查看和删除记事条。 # Simple Note Pad Mini-Application # 记事本数据结构 notes [] def add_note(note): """添加一条新的记事条""" …

可重用性功能 在 Jira 中扩展测试管理

在当今动态的软件开发环境中,高效且可扩展的测试管理对于确保软件产品的质量和可靠性至关重要。Jira 是一种流行的项目管理工具,它通过与Zephyr Scale的集成为测试管理提供了强大的解决方案。 在这篇博文中,我们将探讨可重用性功能在测试管理…

信创教育:培养未来科技创新的生力军

随着全球数字化转型的加速,信息技术应用创新(简称“信创”)产业作为推动国家信息技术自主可控和产业升级的关键领域,正迎来前所未有的发展机遇。信创教育,作为培养未来科技创新生力军的重要阵地,其重要性和…

智慧卫生间环境传感器有哪些?智慧卫生间的特点@卓振思众

随着科技的进步和人们对生活品质的要求不断提高,智慧卫生间作为现代化设施的代表,越来越受到关注。智慧卫生间不仅仅是在外观设计上做文章,更在于其背后强大的智能系统,特别是环境传感器的应用,让厕所的管理和使用变得…

第36课 Scratch入门篇:画正多边形

画正多边形 故事背景: 绘制一个正多边形! 程序原理: 我们前面学习了绘制三角形(3 条边,旋转 120 度),正方形(4 条边,旋转 90 度),我们可以归纳一个公式,针对正多边形,有n条边,那么旋转的角度就是 360/n。通过程序实现就是 开始编程 1、隐藏预设的猫咪角色,…