可以自定义的文字识别OCR

news2024/10/6 8:26:13

可以自定义的文字识别OCR

  • 什么是OCR文档自学习
  • 自定义模板
  • 单证票据信息抽取
  • 操作体验

这里提到的可以自定义的文字识别OCR ,其实就是OCR文档自学习。

什么是OCR文档自学习

什么是OCR文档自学习呢?OCR文档自学习,是面向“无算法基础”的企业与个人开发者用户,通过全流程可视化操作,支持用户完成模板配置、数据处理&标注、模型构建&训练、部署发布等操作的一站式工具平台。下面我们开始逐步体验OCR文档自学习创建自定义模板以及信息抽取模型。

自定义模板

打开OCR文档自学习控制台:https://document-automl.console.aliyun.com/automl/intro
点击【我的任务】打开任务列表页
在这里插入图片描述
点击【创建任务】,选择自定义KV模板
在这里插入图片描述
点击【创建】看到提示
在这里插入图片描述
我们还没有开通服务,点击【去开通】跳转到服务开通页面,开通服务之后再次点击创建即可看到任务创建成功页面
在这里插入图片描述
点击【开始创建模板】上传服务清晰度的图片,这里我上传一张电子发票的图片
在这里插入图片描述
上传完成之后点击【下一步】,然后框选四个角的字段
在这里插入图片描述
点击【下一步】配置电子发票识别字段,也就是业务需要的字段
在这里插入图片描述
点击【下一步】上传电子发票验证我们勾选的识别字段是否是对的可以看到字段值位置不太准确,回到上一步重新勾选一下
在这里插入图片描述
再次勾选之后的效果如图
在这里插入图片描述

基本上算是准确了,点击【发布模板并开始API调用】
在这里插入图片描述
自此模板发布成功,可以点击【在线使用】上传电子发票图片检验一下识别效果了。
在这里插入图片描述
同样的方法也可以创建自定义表格模板,大家可以自行尝试。
在自定义KV模板中,在第三步勾选识别字段的时候,位置不够准确,有一部分的偏差,希望后续可以优化一下,具体的情况可以通过截图看出来的。下面我们再来体验一下单证票据信息抽取

单证票据信息抽取

同样的办法需要先创建单证票据信息抽取的任务
在这里插入图片描述
点击【创建】如果提示没有开通服务的话点击【去开通】开通对应的单据票证信息抽取服务,阿里云的产品计费比较精细,企业在选择时完全可以细化公司的业务方向来开通需要的服务,而不需要一次开通全部的服务,这样的设计也可以为企业节约成本开支,还是挺人性化的。下面继续进行单据票证信息抽取
在这里插入图片描述
首先开始上传数据集,上传文件点击【创建】
在这里插入图片描述
点击【标注任务】
在这里插入图片描述
点击【创建标注任务】,这里创建标注任务可以选择【本地文件】【从数据集中选择】
在这里插入图片描述
我们已经创建了数据集,那么我们就直接从数据集中选择【确定】完成之后点击【下一步】
在这里插入图片描述

设置标注字段之后点击【创建】可以看到
在这里插入图片描述
点击【标注】打开标注页面开始表述字段信息
在这里插入图片描述

标注完成之后点击右上角【提交任务】返回到列表页面
在这里插入图片描述
点击【质检】根据实际信息确定标注的是否正确,最后点击【提交任务】
在这里插入图片描述

一段时间后可以看到列表页面显示已完成
在这里插入图片描述
至此单据票证信息抽取的上传数据集及标注数据已经操作完了,在操作过程中对于标注任务创建完成之后没有相关的引导去人工进行标注,导致个人等了挺久时间,以为是会按设定好的字段自动标注,结果最后发现是需要人工标注的,白白耽误了一部分时间,希望后续这块的引导可以丰富一下,方便新手上手使用方便。同样的操作完成电子发票标注02的标注操作
在这里插入图片描述
下面开始继续创建模型操作
在这里插入图片描述
点击【下一步】跳转到数据集绑定页面
在这里插入图片描述
这里训练集选择电子发票标注01数据集,测试集选择电子发票标注02数据集,点击【下一步】提示
在这里插入图片描述
下面我们再根据数据标注的操作添加9个训练集,在创建标注任务时可以选择右上角【使用题目库】
在这里插入图片描述

后续的标注、质检操作无变化,重复操作添加9个数据集,或者也可以在列表页面点击【复制】按钮复制已经标注完成的标注任务,但是这里有一点就是复制过来的标注任务还是会显示待标注状态,需要再次点击【标注】按钮进入标注页面点击【提交任务】之后回到列表页面才会显示质检中状态,希望后期可以丰富一下【复制】按钮的功能,复制完成之后标注状态和质检状态与被复制的标注任务状态一致。另外就是复制的标注任务名称无法修改,希望后期也可以开放修改复制的标注任务名称。还有就是列表页可以增加一个批量质检按钮效果更好哦,比如这样的
在这里插入图片描述
等到所有的标注任务全部质检完成,状态显示为已完成之后
在这里插入图片描述
就可以继续创建我们的模型了,选择训练集和测试集
在这里插入图片描述
点击【下一步】,点击【创建模型】
在这里插入图片描述

可以看到模型中心列表页面显示刚才创建的模型处于训练中
在这里插入图片描述
待模型训练完成之后最后点击【部署】按钮,完成部署之后就可以在线使用,体验模型抽取数据的效果。

操作体验

到此整个OCR文档自学习的主体功能便全部操作完成,大家如果在操作过程中有疑问的话也可以在文章下留言,这里是个人全套测试的体验内容,整体来看我操作过程中对于文档的需求不是很大,功能设计的也比较合理比较容易理解,只是在遇到一些操作中的疑问时回去文档查看,比如标注不是自动化标注,而是需要人工标注的,整体来说,本次体验操作还算流畅,文档内容也足够全面,具体业务场景中遇到的问题以及相应的希望改进的地方,我也在具体的业务中提过了。对于OCR文档自学习功能的用途,个人觉得像文档中提到的KV模板,单据票据,表格,长文档提取等都是有很大应用空间的,作为教育行业,对于固定格式的KV图片内容提取,以及日常报销中的单据票据信息抽取,报销表格内容提取,以及合同或者电子书长文档提取等,都是有应用场景的,整体上来说,对于单据票证信息抽取的体验比较满意,对于标注任务的定位线设计,坐标定位设计感觉很贴心,可以充分的保证所选取内容是自己需要选定的内容,感谢好产品的出现,每一款好产品都离不开无数技术人对产品的精益求精的追求,希望后续可以改进的越来越好,让每一个需要用到OCR文档自学习的开发者都可以不用文档便能轻松操作控制台功能以及API接口调用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1814281.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【外汇天眼】交易智慧:遵循趋势,稳中求胜

在交易中,新手往往因对未来走势的不确定性感到恐惧,从而不断要求对市场进行全面分析。这种需求反映了他们在投机心理幼稚期缺乏安全感的表现。有些勤奋的交易者甚至在做单前、持仓时和寻找出局理由时都在不断分析行情。然而,这种过度分析真的…

经典的带环链表问题(链表补充)

环形链表1 运用快慢指针的方法,fast ,slow从头节点出发,快指针走两步,慢指针走一步,若有环,快指针先进环,后续如果慢指针和快指针相遇,则链表带环。转换成了追击问题。 struct ListNode {int v…

第二证券股市资讯:半导体,突发!

半导体又现突发! 商场忽然传出,拜登政府正在考虑约束我国获取应用在人工智能(AI) 芯片上的全栅级晶体管技能(Gate-all-around, GAA) ,但不过现在还不清楚美国官员何时会做出最终决议。从趋势来看,这意味着…

高温预警,快收下这份机房运维攻略

高温预警 华东区即将迎来最强高温,根据历史经验,数据机房在夏季高温环境导致设备温度过高,宕机事件明显增加,为保障系统健康稳定运行,需要针对数据机房空调、设备的运行状态及环境进行检查,并同时期开展防尘…

八股文系列Spark

为什么Spark 比 MapReduce 更快 DAG相比hadoop的mapreduce在大多数情况下可以减少磁盘I/O次数 因为mapreduce计算模型只能包含一个map和一个reduce,所以reduce完后必须进行落盘,而DAG可以连续shuffle的,也就是说一个DAG可以完成好几个mapreduce&#xf…

vue 应用测试(一) --- 介绍

vue 应用测试(一) ---介绍 前端测试简介组件测试Jest 测试框架简介其他测试框架 第一个测试避免误报如何组织测试代码 组件挂载Vue2 组件挂载的方式Vue3 的挂载方式vue-test-utils挂载选项 如何调试测试用例参考小结 前端测试简介 软件测试:…

康谋分享 | 自动驾驶联合仿真——功能模型接口FMI(一)

功能模型接口FMI(Functional Mock-up Interface)是一个开放且与工具解耦的标准。FMI包含了一个C-API(接口),一个用于描述接口的XML文件以及可交换的功能模型单元FMU(Functional Mock-up Unit)&a…

通过nerdctl+buildctl编译发布go程序docker镜像

1 nerdctl安装 下载: wget -c https://github.com/containerd/nerdctl/releases/download/v1.7.6/nerdctl-full-1.7.6-linux-amd64.tar.gz 解压: tar -zxf nerdctl-full-1.7.6-linux-amd64.tar.gz -C /usr/local/nerdctl 配置: /usr/local/nerdctl/…

6月报名 | 海克斯康Actran风机类气动噪声分析培训

您好!感谢您长期以来对优飞迪科技与海克斯康的关注与支持。我们诚邀您参加海克斯康Actran风机类气动噪声分析培训,特邀海克斯康原厂讲师将以实操为基础,结合真实案例,手把手帮您解锁噪声仿真关键技术。 活动主题: 海…

【架构之路】微服务中常用的几种通信方式

2024年,计算机相关专业还值得选择吗? 强烈推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站:人工智能 引言 微服务架构由于其灵活性、高可扩展性和易维护性&am…

mysql打开远程访问

这里写目录标题 1.使用navicat进入命令控制板,进入use mysql;2.查询用户表3.更新user表中root用户域属性,%表示允许外部访问4.执行以上语句之后再执行,FLUSH PRIVILEGES;5. 执行授权语句 1.使用navicat进入命令控制板,进入use mysql; use mysql;2.查询用…

NOSQL -- MOGODB

Mogodb简介: 是一个开源的, 高性能, 无模式的文档型数据库. NoSql数据库产品当中的一种, 也是最像关系型数据库的非关系型数据库 使用场景: 针对不同的应用场景, 以及其对应的修改对应数据的频率, 我们可以以此选择需要哪一种类型的数据库 Mongo的使用: 启动: 在解压完成之后…

动手学操作系统(六、获取物理内存容量)

动手学操作系统(六、获取物理内存容量) 在上一节中,我们介绍了保护模式和实模式的区别,保护模式的最大特点是“大”,“大”是指寻址空间大,在进入保护模式之后,我们还将要接触虚拟内存、内存管…

基于pytorch实现的DenseUnet医学图像分割(腹部多脏器)

1、前言 本章将介绍将densenet的主干网络引入unet中 官方实现的代码:kits19-challenge/network at master nitsaick/kits19-challenge (github.com) 本章实现的项目目录如下: 主要代码有train、evaluate、predict脚本 2、代码介绍 数据预处理脚本 数据…

全能型施耐德可编程控制器M241介绍

施耐德M241是一款通信强大、定位控制、丰富扩展于一身的全能型可编程控制器,适用于具有速度控制和位置控制功能的高性能一体型设备。其内置以太网通信端口,可以提供FTP和网络服务器功能,能够更为便捷地整合到控制系统架构中,通过智…

【0基础学爬虫】爬虫基础之自动化工具 DrissionPage 的使用

概述 前三期文章中已经介绍到了 Selenium 与 Playwright 、Pyppeteer 的使用方法,它们的功能都非常强大。而本期要讲的 DrissionPage 更为独特,强大,而且使用更为方便,目前检测少,强烈推荐!!&a…

Spark Streaming 概述及入门案例

一、介绍 1. 不同的数据处理 从数据处理的方式: 流式数据处理(Streaming)批量数据处理(Batch) 从数据处理的延迟: 实时数据处理(毫秒级别)离线数据处理(小时或天级别) 2. 简介 SparkStreaming 是一个准实时(秒或分钟级别)、微批量的数据处理框架Spa…

了解侧信道攻击基础知识

人们通常认为特洛伊木马、恶意软件和其他形式的黑客攻击等漏洞是的威胁;然而,从 EE 的角度来看,安全性具有全新的含义。  事实上,许多的安全威胁都是基于硬件的,攻击者可以直接从运行我们的安全加密软件的硬件中窃取…

根据mooc 数据库旧代码 实现剥离数据库链接单独成类,并进行测试

数据源详情链接,SQLserver 2019 代码复制粘贴可产生数据 数据库JDBC 查询sqlserver 2019 利用模板实现输入查询-CSDN博客 效果如下 剥离的链接模块 Slinkv2.java package SQLadd;import java.sql.Connection; import java.sql.DriverManager; import java.sql.Re…

CentOS-内网搭建FTP-Server

一、镜像选择 1、 Centos-everting或者DVD 2、7.5 7.6 7.9 均可 二、安装步骤 1、其余步骤和普通安装一致。 2、最重要的一步为“软件选择” 1、勾选FTP、文件以及存储服务器、性能以及开发工具。 三、FTPServer搭建 1、关闭防火墙 systemctl stop firewalld or 通过21和20…