ocr票据证件信息抽取正则化

news2024/11/16 21:43:15

Python 正则表达式 | 菜鸟教程Python 正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。 re 模块使 Python 语言拥有全部的正则表达式功能。 compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。 re 模块也提供了与这些方法功能完全一致的函数,这..https://www.runoob.com/python/python-reg-expressions.html整体思路是检测识别的结果,通过缩小区域和正则匹配的方式进行查找。

1.re.findall

Python 正则表达re模块之findall()详解 - 知乎https://blog.csdn.net/qq_36556893/article/details/89182067目录 一、re.findall函数介绍 二、代码如下 三、re.findall中正则表达式(.*?) 四、re.findall中参数re.S的意义一、re.findall函数介绍它在 re.py中有…https://zhuanlan.zhihu.com/p/139596371example:

findall(pattern,string)
返回string中所有与pattern匹配的全部字符串,返回形式为数组

2.

^\d{1,5}$
^  字符串开头
$  字符串结尾
\d{1,5}  \d代表0-9,就是至少1个数字,最多5个数字

\S{1,5}
任意非空字符串,最少一个,最多5个
\S{0,}住址
匹配任意字符串后接住址

^[\u4e00-\u9fa5]+
匹配任意中文,是整体一个句子

^[A-Za-z]+$
匹配任意字母

\d{15,}X?
15位以上数字,最后一位X可有可无

(?=.*[0-9])(?=.*[a-zA-Z])(?=.*[^a-zA-Z0-9]).{6,30}
必须要有数字,字母和特殊符号,三个缺一不可

^(?![\d]+$)(?![a-zA-Z]+$)(?![^\da-zA-Z]+$).{6,20}$
数字、字母和特殊符号有就能匹配

3.re.sub

re.sub()用法的详细介绍_jackandsnow的博客-CSDN博客_re.sub目录一、前言二、函数原型三、使用案例1.匹配单个数字或字母2.匹配多个数字或字母3.匹配其他四、致谢一、前言在字符串数据处理的过程中,正则表达式是我们经常使用到的,python中使用的则是re模块。下面会通过实际案例介绍 re.sub() 的详细用法,该函数主要用于替换字符串中的匹配项。二、函数原型首先从源代码来看一下该函数原型,包括各个参数及其意义:def sub(pattern, ..._1671465600https://blog.csdn.net/jackandsnow/article/details/103885422example:

re.sub("\S{0,}住址", "", "云南省文山壮族苗族自治州砚山县维摩彝族乡阿伍村委会竹棚组6号")
将住址前的字段都给去除掉,地址在身份证上是住址后面的字段

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/150682.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华为数字化转型之道 实践篇 第九章 数字化运营:实现业务运营模式升级

第九章 数字化运营:实现业务运营模式升级 业务运营是为了帮助企业基于自身业务战略,更好地达成企业经营与运营目标,这中间包含业务沿着流程周而复始地运转,以及在作业过程中识别并推动问题解决等过程。 而数字化运营旨在利用数字技术获取、管理和分析数据,为企业的战略决…

[ 常用工具篇 ] burpsuite_pro 安装配置详解(附安装包)

🍬 博主介绍 👨‍🎓 博主介绍:大家好,我是 _PowerShell ,很高兴认识大家~ ✨主攻领域:【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 🎉点赞➕评论➕收藏 养成习…

【矩阵论】5. 线性空间与线性变换——线性空间

矩阵论 1. 准备知识——复数域上矩阵,Hermite变换) 1.准备知识——复数域上的内积域正交阵 1.准备知识——Hermite阵,二次型,矩阵合同,正定阵,幂0阵,幂等阵,矩阵的秩 2. 矩阵分解——SVD准备知识——奇异值…

JVM调优学习

JVM 介绍 1 什么是 JVM JVM 是 Java Virtual Machine(Java 虚拟机)的缩写。一台执行 Java 程序的机器。 2 JAVA 语言的执行原理 计算机语言: 计算机能够直接执行的指令。这种指令和系统及硬件有关。 计算机高级语言: 在遵循语…

主机加固对服务器防勒索病毒有哪些好处

​ 近年来,计算机以及互联网应用在中国得到普及和发展,已经深入到社会每个角落,政府,经济,军事,社会,文化和人们生活等各方面都越来越依赖于计算机和网络,电子政务,无纸办…

排列树和子集树

排列树 输出数组的全排列 排列问题: 设R {r1,r2,r3,…,rn}是要排列的n个元素,Ri R - {r1} 集合X中元素的全排列记为perm(X)。(ri)perm(x)便是在全排列perm(X)的每一个排列前加上前缀ri得到的排列。 R的全排列: n1时&…

通信电子、嵌入式类面试题刷题计划02

文章目录011——单片机上电后没有运转,首先要检查什么?【校招】012——请描述你对数字IC的认识【实习】013——电脑的组成,细化到显卡之类的【软件/硬件测试】014——黑盒测试和白盒测试的区别? 【软件/硬件测试】015——名词扩写&#xff1…

【C语言开源项目】tinyhttpd ——下载、安装、使用

前言 本系列将带领大家看一些C语言的优秀的开源项目,并逐步深入讲解源码,感兴趣的可以点击关注、收藏,有问题及时在评论区评论~ Tinyhttpd 介绍 Tinyhttpd 是一个非常轻量级的 web server,总共只有500多行代码,非常…

Studio One2023中文版支持视频配乐加歌词音轨功能

Studio One 6中文特别版,现在Studio One 6终于有了视频支持,可以方便做视频配乐了。视频可以作为一个独立的音轨使用,跟乐器和音频音轨一样。你可以像音频素材一样在时间条来回拖拽视频来进行音画同步对齐。如果视频也包括了音频,…

第十章 鲁棒性检查(下)

文章目录10.9 统计静态时序分析(Statistical Static Timing Analysis)10.9.1 工艺和互连走线变化(Process and Interconnect Variations)10.9.2 统计分析(Statistics Analysis)10.10 时序违例路径(Paths Failing Timing)路径找不到(No Path Found)跨时钟域(Clock Crossing Doma…

PMP证书的含金量怎么样?

是高的,在项目管理或者管理领域中,知名度和含金量都是在前列的。PMP证书是由美国PMI项目管理协会发起的,享誉国内外,含金量不高点都不会有超过百万的人获得这个证书了,而不管是对个人、组织甚至是整个项目管理行业&…

python采集往期股票数据进行分析预测

前言 嗨喽~大家好呀,这里是魔王呐 ❤ ~! 准备工作 既然要去赚马内,咱们首先要获取往期的数据来进行分析, 通过往期的规律来对当前进行预测,准不准我不知道,反正比人预测的准, 不准也不要喷我&#xff0…

使用markdown语法+Typora+MPic+七牛云对象存储写作教程

使用markdown语法TyporaMPic七牛云对象存储写作教程 一. markdown语法 Markdown是一种轻量级标记语言,排版语法简洁,让人们更多地关注内容本身而非排版。它使用易读易写的纯文本格式编写文档,可与HTML混编,可导出 HTML、PDF 以及…

UCOS简单介绍

什么是UCOS? UCOSII 的前身是 UCOS,最早出自于 1992 年美国嵌入式系统专家 Jean J.Labrosse 在《嵌入式系统编程》杂志的 5 月和 6 月刊上刊登的文章连载,并把 UCOS 的源码发布在该杂志的BBS 上。 UCOSII 是一个可以基于 ROM 运行的、可裁减…

支付系统设计

支付永远是一个公司的核心领域,因为这是一个有交易属性公司的命脉。那么,支付系统到底长什么样,又是怎么运行交互的呢?抛开带有支付牌照的金融公司的支付架构,下述链路和系统组成基本上符合绝大多数支付场景。其实整体可以看成是…

TCP/IP网络传输模型

先来个总结: TCP/IP的网络传输模型可以分为以下四层:应用层、传输层、IP网络层、网络接口层。 下面我们来简单介绍每一层的作用和工作原理 应用层(Application Layer) 从网络传输模型来说,应用层能说的东西不是太多&a…

Merkle trees vs Verkle trees

什么是默克尔树,它们是如何工作的?使用加密哈希算法的二叉树称为 Merkle 树。哈希树也称为 Merkle 树,用数据块的加密哈希标记叶节点。此外,它还使用其子节点标签的加密散列来标记非叶节点。每个节点都会生成一个摘要(Hash)&#…

SpringBoot笔记(持续更新)

要学习SpringCloud,但是SpringBoot是基础,所以需要开个篇补一下 突发奇想:学习编程,一定要自顶向下学习,刚刚入门了SC,对整个开发部署流程有了一个大概的认知,在听SB的课程发现理解起来很容易…

菲鹏生物冲刺创业板上市:毛利率稳中有降,崔鹏、曹菲夫妇控股

2023年1月6日,菲鹏生物股份有限公司(下称“菲鹏生物”)在深交所更新招股书(注册稿),准备在创业板上市,泰联合证券为其独家保荐人。本次冲刺上市,菲鹏生物计划募资25.056亿元。 其中…

SpringCloud(12)— 分布式事务(Seata)

SpringCloud(12)— 分布式事务(Seata) 一 事务基础 1.事务的ACID原则 2.分布式事务问题 在分布式系统下,一个业务跨越多个服务或数据源,每一个服务都是一个事务。 要保证所有分支事务的最终状态一致&am…