文本检测与识别技术的产业应用现状
文本是人类文明的视觉和物理载体,文本的检测和识别使视觉与对其内容的理解进一步联系起来。在这一部分中,我们列出并分析了对提高我们的生产力和生活质量产生或将产生重大影响的最杰出的项目。
自动数据录入,除了现有文档的电子存档外,OCR还可以通过自动数据录入的形式提高我们的生产率。一些行业涉及耗时的数据输入,例如快递行业的客户写的快递订单,以及金融和保险行业的手写信息表。应用OCR技术可以加快数据输入过程,同时保护客户隐私。一些公司已经在使用这些技术,例如SF Express。另一个潜在的应用是笔记软件,比如NEBO,它是一款在iPad等平板电脑上的笔记软件,可以在用户写笔记时进行即时转录。
身份认证自动,身份认证是OCR可以充分发挥作用的另一个领域。在互联网金融和海关等领域,用户/乘客需要提供身份证和护照等身份信息。
自动识别和分析所提供的文档需要OCR来读取和提取文本内容,并且可以自动化并大大加快此类过程。有些公司已经开始基于人脸和身份证进行身份识别,例如MEGVII(face++)。
增强计算机视觉,由于文本是理解场景的基本要素,OCR可以在许多方面辅助计算机视觉。在自动驾驶车辆的场景中,嵌入文本的面板携带重要信息,例如地理位置、当前交通状况、导航等。关于自动驾驶车辆的文本检测和识别,已经有几项工作,迄今为止最大的数据集也特别重视交通标志。另一个例子是即时翻译,OCR与翻译模型相结合。当人们旅行或阅读用外语书写的文件时,这是非常有帮助和节省时间的。谷歌的翻译应用程序可以执行这种即时翻译。一个类似的应用是配备OCR的即时文语转换软件,它可以帮助视力残疾者和文盲。
智能内容分析,OCR还允许行业执行更智能的分析,主要用于视频共享网站和电子商务等平台。可以从图像和字幕以及实时评论字幕(用户添加的一种浮动评论,例如Bilibili和Youtube中的评论)中提取文本。一方面,这种提取的文本可以用于自动内容标记和推荐系统。它们还可用于执行用户情绪分析,例如视频的哪个部分最吸引用户。另一方面,网站管理员可以对不适当和非法的内容进行监督和过滤,例如恐怖主义宣传。
文本检测与识别技术的产业应用案例
Textin票据机器人
发票与企业财务、税务管理强相关,同时也是真实、全流程记录交易信息的重要载体,因此在企业数字化转型的过程中,发票管理数字化,是不可或缺的先行环节。传统的发票管理模式不仅阻碍企业数字化、增加企业经营成本,还可能带来不确定的税务风险与经济损失。
尤其是现在越来越多的大中型企业开始建设FSSC(财务共享服务中心),将不同主体、不同地点的重复性高、技术含量低、易标准化的财务业务,通过人员、技术、流程的有效整合,实现标准化和流程化,从而解决大型企业财务职能建设中重复投入和效率低下的弊端。而建设FSSC的难点之一,就是原始账务数据的准确采集与管理。 传统的票据数据采集,首先要人工整理原始票据,再进行扫描,最后人工录入票面信息并对凭证进行审核。
财务数据保留在纸质、电子单据上,且管理分散,不利于集团统筹,也无法灵活使用分析。财务运营成本高,既包括直接人力成本,还包括管理人力、职场费用、招聘培训等间接成本。人工验真发票,稽核不严,易导致问题票入账,产生合规风险,审计复查增加财务压力。发票单据的复杂和合规规则多样,单一技术无法解决自动化问题。
合合信息推出Textin票据机器人,依托核心识别技术STR(场景文本识别),对票据图像进行高精度的智能分类、识别、验真和结构化输出,覆盖20+常见票据类型,帮助企业实现对纸电票的集中管理、会计凭证数字化,简化录入、査验、认证、抵扣、报销等流程,提升发票数据价值,赋能企业财税数字化。
支持多票据混贴切分
在一页A4纸上混贴多张票据的场景下,Textin票据机器人能智能识别并切边提取。支持多类票据批量上传、混合扫描、切图、分类、识别。
票据智能自动分类
上传票据时不用手动选择类型,直接上传票据图像即可智能识别类型、完成分类。支持含国税票种、地方票种及其他票种等20多种票据的自动分类。
复杂场景下图像优化、精准采集
在拍摄角度倾斜、清晰度低、背景复杂、亮度低、亮度不均匀、反光、印章或内容错位、有折痕、拍摄不完整等多种复杂场景下,Textin票据机器人能自动优化图像质量,精准采集票面信息。
全票面信息毫秒级识别
精准识别各类票据全部结构化字段,支持PDF、jpg、jpeg、png以及国家正在推广的OFD格式,票据全票面信息自动提取,关键栏位图像自动截取,方便比对。
增值税发票验真
传统发票验真方式是在国家税务总局全国增值税发票查验平台上,手动输入发票号码、代码、开票日期、金额等信息查验,财务每月需耗费大量时间用于发票审核,效率与合规性无法兼顾。Textin票据机器人提供发票自动验真功能,批量联网进行发票查验,检查是否真票、错票或红冲等,提升发票管理效率。
自动合规检查
Textin票据机器人还能辅助财务稽核,避免问题票入账,自动完成重复、红冲、CA证书、抬头、连号、备注、敏感细目(如烟酒、礼品等)、供应商黑名单等30项合规检查。
应用场景
· 供应商清账
实现从供应商对账、发票扫描识别输入、三单校验到审批、记账的供应商发票管理自动化,提升业务流程效率。
运用词条特征识别、手写识别等核心技术,提升订单、收货单、发票的三单匹配准确率。发票智能分类,系统容错性高,对8种标准供应商发票的识别准确率高达99%,自动化发票合规查验,更少人工介入决策。
Textin票据机器人与ERP接口建立协议,支持数据和图像传输,自动完成三单匹配,并与ERP系统改造同步实施,相关税务系统通过接口进行数据交换。
· 费控报销
报销环节中,将增值税发票、出租车票、火车票等票据拍照扫描或上传后,即可准确识别录入系统,另支持定制内部表格识别,系统自动完成发票的验真、查重等30项合规风控审查,报销类型与发票金额、数量审查,并可通过API与企业内部税控系统相连接。有效减少员工报销时长和财务人员发票审核录入的工作量,同时帮助企业完善费用流向监控,提升费用管控和预算管理能力。
· 进项抵扣
简化进项发票采集、查验、管理、抵扣流程,在进项税额抵扣时,通过Textin票据机器人录入相关增值税扣税凭证,实现进项税额的快速计算。
灵活的部署方式
· 公有云API
通过合合信息自有的AI开放平台,将票据机器人服务通过标准API接口与客户各个客户端快速对接。
· 私有化部署
支持所有识别模块快速部署在客户本地服务器。
· AI一体机
票据机器人支持软件+服务器硬件一体化的形式,可以部署识别服务在客户本地,接入内部系统,快速上线。
客户案例
· 某大型跨国金融集团
在企业费控管理系统中引入了合合信息Textin票据机器人,实现各类票据扫描、识别、验真、结构化数据输出的一体化服务。通过手机移动端APP,员工便可一键开启各类票据报销的快捷体验,在简化报销流程的同时,帮助财务人员更好的追踪费用流向、分析财务数据。
Textin财报机器人
当前,财务报表的数据分析基本还是基于人工阅读审核的方式,效率低且无法实现审批自动化。银行的信审部分,传统的人工审核方式已经严重阻碍了银行信审的效率和业务开展。
合合信息财报机器人,采用核心基于深度学习的文本检测与识别技术加以配置工具,极大提高了数据采集的效率和准确度,解决财报自动填入系统问题。通过预设配置将财报标准模板设定,实现全字段自动录入,无缝链接企业财务系统,实现财务审批流程自动化,解决人工录入效率低、易出错,财报格式众多、无法标准化的问题。
多文件格式识别
支持PNG、JPG、JPEG、TIF、PDF、XLS、XLSX格式的多文件上传,一次上传可同时识别资产负债表、利润表、现金流量表。
模板灵活配置
上传文件自动匹配13个行业财报标准模板,支持更改和创建财报模版,可根据需求添加财报科目和公式。
原图定位对照
根据颜色区分报表类型,点击数据即可切换到原图中识别位置并高亮显示。
会计科目匹配
智能判断科目列、数值列,删除无关列(附注列)。同时增加科目相似名,提高科目匹配准确度,并根据置信度进行颜色标识,方便手动调整。
内容自动配平
会计科目匹配无误后,财报机器人支持对科目内容进行配平,并对未配平内容智能纠错和公式提示。
标准化输出
支持预览/存储/导出三份数据:原始数据、标准科目数据、配置数据,可将数据导出Excel和Json格式。
支持识别页筛选
当PDF文件页面过多,包含非财报页面时,可精准选择识别页,手动过滤掉非财报页面,提升识别速度。
主续表排序
报表顺序错乱时可手动拖拽调整图片排序,调整主续表顺序,调整多份财报图片识别次序。
图像自动校正
当图片出现90°、180°、270°倾斜,可自动旋正,无需手动旋转。
财报智能分组
可判断企业年报、季报多组财报并智能分组,也可支持手动拖拽调整财报分组及财报顺序。
应用场景
Textin合同机器人
在企业签订合同确立合作的业务流程中,合同比对是必不可少的一个环节。合同在文本确定前,往往经历了反复修改、版本迭代,或者存在电子版与纸质版之间的增减差异。在签订合同时,需要确保用印合同与审核通过的合同文本一致,关键信息齐备,以避免范本使用、文本修改、阴阳合同、函证造假等风险。
合合信息推出Textin合同机器人,基于STR识别和NLP算法,开发出合同关键信息识别与抽取和合同比对两大核心能力,将合同文本进行自动识别与精准智能比对,快速展示差异结果,从而帮助企业降低合同风险,避免重大损失,同时提升工作效率,减少重复劳动,降低用人成本。助力企业实现合同全生命周期管理,在银行、保险、证券、资管、融资租赁、供应链金融等泛金融业务以及企业法务合同审阅场景中都有突出应用。
在合同审阅与管理流程中,不同的合同往往需要抽取不同的关键信息,比如购销合同需要抽取甲乙方、合同金额等信息,租赁合同需要抽取承租方、出租方、租赁费用、保证金等信息,施工合同需要抽取工程名称、工程地点、开工日期等信息,基金合同需要抽取基金委托人、管理人、募集期等信息。
统一的标准化的抽取字段无法满足所有类型合同的抽取需求,故此,TextIn合同机器人推出了“按合同分类抽取信息”的新功能。用户可在“关键信息配置”中,对合同类型进行分类,并针对每一种合同类型自定义创建所需的抽取字段。
将合同按照分类上传后,合同机器人即可自动抽取出所配置的关键信息及印章信息。
核心功能:
智能抽取关键信息与印章信息
支持识别图片(png、jpg、jpeg、tif、tiff)、Word、PDF、Excel格式合同,智能抽取关键信息与印章信息。支持按合同分类自定义设置关键信息字段。印章信息涵盖印章类型与主体信息,印章类型包括:公章、合同专用章、法定代表人章、财务专用章、发票专用章、业务专用章。
关键信息比对
支持对合同中抽取出的标准信息与自配置信息进行智能比对,快速定位关键信息差异项,一键导出Excel、Word、PDF差异报告。
合同中常常存在大量的表格信息,表格识别与比对也是合同比对中的一项难点。
合同机器人基于复杂的信息抽取和文本检测与识别技术,不仅可以高精度识别不同格式文档中的表格信息,显示全字段比对差异,且对表格比对样式做了优化,按照单元格对内容差异进行对齐与列表显示,便于更清晰直观地锁定合同差异。
应用场景
保险合同管理
帮助保险企业将OA系统中通过审核的合同与风险系统中上传的用印版合同进行比对,如存在差异,发出预警,规避合同伪造风险;将承办人提交的合同与同类型合同模板条款比对,提醒差异、缺少情况,如合同模板由对方提供,则提取关键信息,与后台规则进行匹配。
银行信贷审批
帮助银行对租赁合同、经营实地场所、农村产权承包证等材料进行印章存在性判存、手写签字判存,对待审议合同与合同模板进行比对,判断条款是否有增、删、改。
企业法务审核
帮助企业法务部门对各文档版本的迭代进行管控,便于在双方法务反复修改合同环节提高效率、减少人为错误。
采购防范风险
帮助企业采购部门在前期洽谈合同环节中,防范“阴阳合同”、函证造假风险,识别纸质合同上的差异并展示。
TextIn Studio文本识别训练平台
随着各行业数字化、智能化建设的脚步加快,OCR得到了普及应用。随之,企业对OCR的识别精度、定制灵活度、迭代速度等有了更高的要求。范围有限的常规证件、发票识别已经无法满足企业业务场景中种类繁多的单证处理需求,越来越多的企业,开始定制OCR识别模型,以满足个性化的卡证、票据、文档识别需求。
但定制OCR的成本高、周期长,且受限于特定行业的数据保密性要求,存在诸多困难。
01定制成本高
企业的业务场景复杂,需要识别多类型的卡证、票据、单据,且同类单据常会有多种版式,交付定制成本高昂。
02定制周期长
厂商驻场定制开发识别引擎周期长、效率低、沟通对接时间成本高,技术能力无法很快赋能业务。尤其是对于定期会更改版式的银行单据,版式调整后需要厂商进行模型调适,工作流程长,效率低。
03不固定版式文档识别率低
传统规则算法,在不固定版式上不具备很好的泛化能力。对于不固定版式文档,识别率低,可用性差,定制OCR时,常常需要对特定版式做高度定制化开发,存在重复采购风险。
04业务数据保密性要求高
金融机构数据保密性要求强,可能无法对厂商提供业务数据作为训练样本,模型性能无法保障。
为了解决上述痛点,合合信息推出TextIn Studio文本识别训练平台,基于合合信息的深度学习算法和能力,为有OCR自主定制开发需求的企业提供低代码、自动化的一站式OCR开发平台。
TextIn Studio文本识别训练平台是面向零基础的开发者或实际业务人员的全流程一站式OCR开发平台。针对文本检测、文本识别、文档分类、信息抽取等任务,基于先进的深度学习算法,提供了集模型创建、数据标注、模型训练、模型测试、模型部署于一体的机器学习服务。
TextIn Studio文本识别训练平台内置了场景丰富的预训练模型,配备了信息抽取(锚点)、信息抽取(K-V)、信息抽取(NLP)、分类识别四大模型类型,以满足固定版式、半固定版式、不固定版式文档的识别与分类需求,根据文档特点创建适配的模型类型,有效提升识别精度,降低训练难度。
TextIn Studio生产出来的OCR模型适用范围广、精度高,可与业务系统快速对接,降低人工录入和校核的成本,提升业务效率。
TextIn Studio还具备数据回流功能,将实际业务中产生的标注信息数据回流进行训练,实现“在业务场景中越用越好用”的持续迭代效果,持续提升识别精度,真正做到了智能化和终身学习。
1 信息抽取(锚点)
基于预置的文本检测与识别模型,针对固定版式的卡证票据,框选出版式参照区与所需提取的信息区域,即可实现数据的结构化提取。选择该模型无需训练,只需要一张样本配置好固定字段与识别字段后,即可直接完成模型创建。
2 信息抽取(K-V)
基于内置的高性能预训练模型,针对用户标注的键值对位置和文本信息,训练专属场景的AI模型,从而提升文本检测、文本识别、字段属性分析的精度,此方法适用于半固定版式的文档分析,例如卡证、票据。
3信息抽取(NLP)
基于内置的多模态(图像、文本)高性能预训练模型,针对用户标注的键值对位置和文本信息,训练专属场景的信息抽取模型,从而提升文本检测、文本识别、字段属性分析的精度,此方法适用于不固定版式的文档分析,例如海外Invoice、物流单据、合同、简历等。
信息抽取(NLP)模型通过“智能化语义理解”,可以很好地解决不固定版式文档中的文本空间位置不固定,导致抽取精度低的问题。
4分类识别
通过大量图片类型标注,基于深度学习算法学习图片特征,从而达到图片的分类识别。该模型有两种算法:纯图像算法模式,适合差异较大的图像分类;图像+文本算法模式,能对图像特征与文本特征进行特征融合处理,适合相似度较高的图像分类。
1模型创建
信息抽取(锚点)、信息抽取(K-V)、信息抽取(NLP)、分类识别四大模型类型自主选择,满足不同版式文档识别与分类需求。全可视开发,配置操作简单。
2创建数据集
批量上传样本图片,支持jpg、jpeg、png、bmp、单页pdf格式。
3创建标注任务
为数据集标注,数据标注简单易用,在样本图片上框选需要识别的字段,即可自动识别填表。支持预标注,大批量样本可快速完成标注。
4训练&测试
推荐预训练模型、迭代轮数,一键自动训练,通过训练日志对训练过程进行监控。自动化测试验证,提供测试报告展示整体、每个字段识别率,以及每张样本的详细测试结果,模型识别率一目了然。
5模型部署
下载模型部署包,部署到服务器,即可通过API调用。
1自动预标注,快速标注大批量样本
人工标注样本操作枯燥、耗时长,TextIn Studio提供预标注功能,用户可先用少量样本训练模型,使用模型对大批量待标注样本进行识别抽取,人工审核后即完成预标注。预标注完成的样本可再次投入模型进行训练。
2海量训练数据自动生成
当训练数据不足时,TextIn Studio可基于模板和语料知识库,自动生成海量虚拟训练数据。虚拟训练数据自动替换了样本内容但保留了图像版式,可快速扩充训练集,提升模型训练效果。
3零门槛,无需算法基础
全可视化开发,无需算法基础,零门槛操作。集模型创建、数据标注、模型训练、模型测试、模型部署于一体,任务集中管理,操作简单,零基础OCR开发者也可完成模型开发。
4识别精度高
基于合合信息深耕十余年的智能文本识别技术与商用模型实训经验,预训练模型训练基础扎实,识别准确性高、识别速度快、鲁棒性高。
5开发周期短
只需要创建模型、标注数据,即可开始自动训练。大幅度压缩模型开发时间,相比传统定制模型周期显著缩短。
6训练模式丰富
内置四大预训练模型,用户可灵活根据样本版式特征,选择匹配度最高的模型,以达到更好的训练效果。
金融
集中运营
当前,股份制银行、头部城商行、农商行与头部券商纷纷推进集中运营建设,形成分支机构前台受理、专门机构后台集中处理的业务运作模式。在集中运营中,长流程的业务被切分成“前台受理-录入-审核-授权”几段清晰分离、相对短的流程。录入环节通常为“两录一校”,两位录入员分别录入凭证切片上的信息,校验员判断两录结果是否一致。
基于TextIn Studio可生产多类型凭证的OCR识别模型,将其中一录由人工录入转变为智能文本识别录入,系统自动识别提取切片信息,另一录依然为人工录入,将智能文本识别结果与人工录入结果进行一致性校验,在保证录入流程严格准确的基础上,大幅度提升了业务效率,降低人力成本。
金融
银行后督
银行需要根据会计规范与银行相关法规,对行内各网点的业务交易进行事后监督,通过对业务凭证、营业日报表等进行复审、核对、检验,实现重点监督、差错处理与综合对账。传统事后监督流程中,由于人工审核的人力与效率的局限性,无法对全业务进行审查,只能手工抽查部分大额交易凭证,后督业务覆盖不全面。
TextIn Studio可输出覆盖全类型凭证的智能文本识别能力,如:转账支票、现金支票、进账单、收款凭证、电子转账凭证、信汇凭证、托收凭证、收费凭证、现金交款单、银行承兑汇票、商业承兑汇票及各类申请书、缴款书、通知书等,赋能银行后督系统对全业务凭证需审核字段进行自动识别提取,后督员依照审核要求,对字段相互间信息、字段与身份证件信息、联网信息等进行核对校验,建立全业务后督体系,充分发挥后督防弊纠错、规范行为、保证资金安全的作用。
金融
跨境贸易反洗钱审查
应国内与国际监管要求,外资银行需要对从事跨境贸易的企业客户在行内的每笔资金交易往来进行排查,确保交易有实际匹配的跨境贸易活动,严格识别与筛查洗钱风险。由于跨境贸易的凭证种类多样,且有大量的不固定版式凭证,如:海外invoice、订单合同、运输单,人工审核方式需要耗费大量人力,传统OCR模型对不固定版式的识别精度较低,需要高度定制。
基于TextIn Studio,银行可自主对固定、半固定、不固定版式凭证进行识别模型创建和迭代训练,持续提升识别准确率,实现AI全生命流程管理,通过对报关单、核注清单、进账单、信用证开立申请书、海外invoice、订单合同等贸易凭证的智能识别、匹配、审核,构建智能化的跨境贸易反洗钱审查体系。
集团
供应链管理
集团企业的供应链管理业务中,涉及到发票、合同、运输单、货物清单、出/入库单等多类型票据、单据,且由于集团企业供应商数量庞大,供应链票据种类繁多且数量巨大,票据录入审核、电子化归档需要花费大量人力与时间。
集团企业可通过TextIn Studio实现模型创建、数据标注、模型训练、模型测试、模型部署的一站式OCR开发,实现对多类型、多版式供应链票据的智能分类与识别,并支持对接ERP系统,赋能供应链管理智能化升级。
▶
某上市城商行
某上市城商行多部门有大量的标准证照、固定或不固定版式凭证、银行交易流水、财报等识别需求,文档包含印刷体与手写体,中、英等多种语言。行内还需要根据业务拓展需求与监管要求,快速响应,新增更多类型的证照识别能力,自主建模识别新类型的票据、报表等。
该城商行与合合信息合作,私有化部署了TextIn Studio文本识别训练平台,通过自主模型创建、训练、部署上线与持续迭代,满足了身份证、银行卡、驾驶证、行驶证、结婚证、户口本、房产证等证件识别,现金支票、转账支票、进账单、存单、结算业务申请书、代发工资流水等业务凭证识别,增值税专用发票、增值税普通发票、火车票、出租车票、定额发票、机动车销售统一发票等票据识别,以及财报识别分析、证照风险检测等多业务场景需求,赋能集中作业中心、运营管理部、风险管理部、小企业信贷中心、财务企划部等行内部门。并且,仅需要一位运维人员,即可实现对行业OCR服务的统一管理。
同时,合合信息助力该城商行搭建数据回流交换平台连接集中作业平台与TextIn Studio文本识别训练平台。数据回流交换平台对来自集中作业平台的识别错误数据进行拉取、整合、格式转换与统计后,将标注数据回流至文本识别训练平台,并用于对应模型的训练、测试,提升模型的识别准确率,赋能全业务条线高效智能审核。
▶
某全国性股份制银行
某全国性股份制银行希望搭建行内通用的OCR识别服务平台,更加高效智慧地满足各业务条线需求。该行与合合信息合作,私有化部署了TextIn Studio文本识别训练平台,输出了身份证、银行卡、营业执照、增值税发票、全文识别、表格识别等常规OCR模型,支付凭证、进账单、支票、税收缴款书等定制化、个性化OCR模型,以及60+(数量持续增加)类型凭证的自动分类模型。
该行运营管理部的集中运营业务中需要两录一校,数据录入团队超过100人,基于TextIn Studio输出的智能分类与智能文本识别能力,大幅度降低了人工录入工作量,节约业务时间,实现降本增效。
此前,该行通过第三方厂商驻场定制非标凭证的OCR模型,不仅定制成本高、周期长,每当凭证有版本变化,之前定制的模型就不再适配,需要二次优化训练。部署TextIn Studio后,在可视化界面框选和点击即可快速创建适配当前凭证类型的OCR模型,并一键训练与测试,样本量不足时还可自动生成海量标注好的训练数据用于模型训练,提高各类凭证批量定制化识别的精准度,快速高效地响应业务需求。当凭证版式发生变化时,行内可自主迭代识别模型,操作简单,开发周期短,工作效率高。