Python-如何使用正则表达式

news2024/10/5 8:12:41

如何利用Python使用正则表达式

目录

正则表达式常用匹配规则

​编辑re库的使用

match()方法:

search()方法:

findall()方法 :

sub()方法:

compile()方法;

通用匹配

贪婪与非贪婪匹配

贪婪匹配

非贪婪匹配

修饰符

转义匹配


 

正则表达式是处理字符的强大工具,他有自己特定的语法结构,有了它,实现字符串的检索,替换,匹配验证都不在话下,不止如此,正则表达式可以从HTML中非常方便地提取想要的信息

正则表达式常用匹配规则

对于URL来说,正则表达式可以用下面的正则表达式来匹配:

[a-zA-Z]+://[^\s]*

这个正则表达式看上去十分的糟糕,其实里面都包含了特定的语法规则。比如,a-z代表匹配任意的小写字母,\s表示匹配任意的空白字符,*就代表匹配前面的字符任意多个,这一长串的正则表达式就是这么多平匹配规则的组合。

所以当写完正则表达式后,就可以拿他去一个字符串里匹配查找,不论这个字符串里有什么,这要符合我们写的规范,就统统可以找出来

下面列出常用的匹配规则:

参考来源:开发过程最全的正则表达式匹配中英文、字母和数字


re库的使用

正则表达式不是Python独有的,但Python的re库提供了整个正则表达式的实现,利用re库,就可以在Python中使用正则表达式,下面开始介绍它的一些常用方法:

match()方法:

match方法会尝试从字符的起始位置匹配正则表达式,如果匹配,就返回匹配成功;如果不匹配,就会返回None。示例如下:

import re
content = "Hello world 123 1234 Hello_my world"
print(len(content))
result = re.match('^Hello\s\w\w\w\w\w\s\d{3}\s\d{4}\s\w{8}',content)
print(result)

结果显式:


 

在这里,首先声明了一段字符串content,里面包含了英文字母,空白字符,数字等等,接下来,我们写了一段正则表达式:

^Hello\s\w\w\w\w\w\s\d{3}\s\d{4}\s\w{8}

用来匹配这个长字符。^是匹配字符串的开头,也就是说以Hello为开头;然后\s来匹配空白字符;\w匹配字母,5个\w代表匹配5个字母;后面还有阿拉伯数字,如果单纯只用\d\d\d来匹配,非常麻烦,所以\d后面可以跟着{3}代表匹配3个阿拉伯数字,以此类推写出了我们得到正则表达式。其实,我们并没有将字符串完整的匹配下来,但我们仍然可以进行匹配,只不过只是截取字符的一部分来进行匹配而已。

而在match()方法中,第一个参数传入正则表达式,第二个参数传入要匹配的字符。

在打印输出的结果,可以看到结果是re.Match对象,说明匹配成功,但是如果单纯的打印result。则会显示:

<re.Match object; span=(0, 29), match=‘Hello world 123 1234 Hello_my’>

所以一下有两种方法可以更好的进行查看

group()方法:可以输出匹配到的内容,结果是Hello world 123 1234 Hello_my
span()方法: 可以输出匹配的范围,结果是(0,29)

当然match()方法还可以将想要提取的字符串中,提出一部分内容;只需用()将想要的字符串括起来,被括起来的每一个子表达式会一次对应分组,调用group()方法传入分组的索引即可获取提取的结果,示例如下:

import re
content = "Hello world 123 1234 Hello_my world"
print(len(content))
result = re.match('^Hello\s\w\w\w\w\w\s\d{3}\s(\d+)\s\w{8}',content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())

结果显示:


这里将group(1)打印,我们成功得到了1234,如果正则表达式中还有被()包裹的内容,那么可以依次使用group(2),group(3)来获取.

search()方法:

前面讲到match()方法是从字符串开头开始匹配的,一旦开头不匹配,那么整个匹配就是失败了,请看下面例子:

import re
content = "Hello world 123 1234 Hello_my world"
print(len(content))
result = re.match('ello\s\w\w\w\w\w\s\d{3}\s\d{4}\s\w{8}',content)
print(result)

对于上面代码,相对之前,我们只去掉了开头的H,则变成了以下的结果:

但是我们用search()来替换match(),可以看见:


因此,为了方便,我们可以尽量使用search()方法.

findall()方法 :

在介绍search()方法同时,我们发现,不管是match()方法,还是search()方法都只能返回匹配到的第一个内容,但是如果想要获取匹配正则表达式的所有内容,那该怎么办呢?这时就要借助findall()方法了.该方法会搜索整个字符,然后返回匹配正则表达式的所有内容.

因为用法类似,这里只介绍作用,就不用代码演示了

sub()方法:

除了使用正则表达式提取信息外,有时候还需要借助它来修改文本.比如,想把一串文本中的所有数字都去掉,如果只用字符串的replace()方法,那就太繁琐了,这时可以借助sub()方法.示例如下:

import re
content = "Hello world 123 1234 Hello_my world"
print(len(content))
result = re.sub('\d+','',content)
print(result)

结果显式:


这里只需要给第一个参数传入匹配的字符(这里是\d+,代表所有数字),第二个参数为替换的字符串(这里是’’,及空字符,我们需要将所有的数字删掉),第三个参数是原字符串.

可以看见所有的数字都被删除

compile()方法;

前面方法都是用来处理字符串的方法,最后介绍一下compile()方法,这个方法可以将正则字符串编译成正则表达式对象,以便在后面的匹配中复用,示例如下:

import re
content = "Hello world 123 1234 Hello_my world"
demo = re.compile('\d+')
result = re.sub(demo,'',content)
print(result)

结果显式:


这里我们和上题一样,是想要删除字符串里面的数字,和上题不同的是,我们利用compile()方法制作了正则表达式对象,在后面使用时,可以直接套用此对象,更加的方便,快捷

通用匹配

之前我们所写的正则表达式其实比较复杂,出现空白字符我们写\s,出现数字写\d,如果每次书写都这样繁琐,工作量会变得非常大.其实完全没有必要,因为还有一个万能匹配可以使用,那就是.* ,其中.可以匹配任意字符(除了换行符),*可以匹配前面的字符无数次,所以它们合在一起就可以匹配任意字符了,因此,我们可以改写:

import re
content = "Hello world 123 1234 Hello_my world"
print(len(content))
result = re.search('.*',content)
print(result)
print(result.group())
print(result.span())

结果如下:


.*非常简单的匹配到了我们所有的字符

贪婪与非贪婪匹配

贪婪匹配

在使用.*时,有时候并不能匹配到我们想要得到结果,请看下面例子:

import re
content = "Hello world 123 1234 Hello_my world"
print(len(content))
result = re.search('H.*(\d+)\s\d{4}\s\w{8}',content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())

结果如下:


在这里,我们只想匹配到1前面的内容,再利用group(1)输出123,可是结果只显示了3,这是因为在贪婪模式下,.*会进可能的匹配更多的字符,.*后面是\d+,也就是至少一个字符,并没有指定多少个数字,因此,.*就尽可能的匹配更多的字符,这里就将12匹配了,给\d+留下来一个可满足条件的3了.

非贪婪匹配

前面,因为贪婪匹配,我们没有得到想要的结果,那该怎么办我们才可以匹配出自己想要的字符’123’呢?,其实,只需要使用非贪婪匹配就好了,非贪婪匹配的写法是.?,多了一个?,这样非贪婪模式会竟可能匹配少的字符,与贪婪模式相反,这样当匹配到Hello后面的字符时,后面就是数字了,而\d+正好可以匹配,.?就不会取匹配,交给后面的\d+了.

示例如下:

import re
content = "Hello world 123 1234 Hello_my world"
print(len(content))
result = re.search('H.*?(\d+)\s\d{4}\s\w{8}',content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())

结果显式:


所以,做匹配的过程中因尽量使用非贪婪匹配,以免出现匹配结果缺失的情况.

修饰符

正则表达式可包含一些可选修饰符来控制匹配的模式,我们可以用实例来看看:

当我们使用修饰符时,结果如下:

import re
content = '''Hello world 123
1234 Hello_my world'''
print(len(content))
result = re.search('.*',content,re.S)
print(result)
print(result.group())
print(result.span())


可以看到,没有使用修饰符时,字符串没有匹配完全,而加了修饰符才可以正确显式

修饰符    描述
re.I    使匹配对大小写不敏感
re.L    做本地化识别(locale-aware)匹配
re.M    使能够多行匹配,影响 ^ 和 $
re.S    让点 . 匹配包括换行在内的所有字符
re.U    根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X    该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解

其中,较为常用的有re.S和re.I

转义匹配

正则表达式定义了许多匹配模式,如.用来匹配除了换行符之外的任意字符,但如果我们需要匹配的目标字符包含.该怎么办?这里就需要用到转义匹配了,当遇到用于正则匹配模式的特殊字符时,只需要在前面加反斜杠转义一下即可,例如可以用.来匹配.
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/796411.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高电压放大器ATA-2021B技术指标

随着ATA-2021H高压放大器的升级改版&#xff0c;新品ATA-2021B高电压放大器走进了更多工程师、研究人员的视野。相比于升级之前&#xff0c;ATA-2021B高压放大器拥有了更多更好地优势&#xff0c;可以更好地的帮助研究人员高效完成测试项目。今天Aigtek小编就带大家了解一下关于…

liunx时间慢几分钟,定时更新系统时间

#&#xff01;/bin/sh hwclock --hctosys echo "执行成功" 定时5分钟执行一次

minitab学习系列(2)--DOE逐步方法选择

系列文章目录 文章目录 系列文章目录前言一、DOE>因子>分析因子设计>逐步二、DOE>因子>分析因子设计>逐步>层次结构总结 前言 一、DOE>因子>分析因子设计>逐步 逐步删除和向模型中添加项以确定有用的项的子集。Minitab提供了三个常用过程&…

油画欣赏|《沧海的线条》在群山之间

《沧海的线条》80x65cm陈可之•2006年绘油画《沧海的线条》&#xff0c;通过绘画艺术的手法&#xff0c;描绘出三峡群山之间那一层层波浪般的纹理&#xff0c;展现出天地间岁月的古老沧桑变迁。此作品是陈可之先生百余幅三峡系列作品之一。夜&#xff0c;群山高大挺立。没有植被…

[SSM]Spring中的JdbcTemplate

目录 十三、JdbcTemplate 13.1环境准备 13.2新增 13.3修改 13.4删除 13.5查询 13.6查询一个值 13.7批量添加 13.8批量修改 13.9批量删除 13.10使用回调函数 13.11使用德鲁伊连接池 十三、JdbcTemplate JdbcTemplate是Spring提供的一个JDBC模板类&#xff0c;是对JDBC…

el-tree数据渲染超出省略

el-tree数据渲染超出省略 问题 <el-tree:data"deptOptions":props"defaultProps":expand-on-click-node"false":filter-node-method"filterNode"ref"tree"default-expand-allhighlight-currentnode-click"handleNo…

来自随身WIFI不限流量的暴击,今天你被割韭菜了吗?

大家好&#xff0c;前几天很多小伙伴私信葫芦妹&#xff0c;反馈买了个无限流量随身WIFI&#xff0c;一开始挺好用的&#xff0c;怎么用着用着不行了呢&#xff1f;必须让我给普及下。那么既然这些小伙伴需求这么强烈&#xff0c;那么今天葫芦妹得赶紧来教你如何辨别随身WIFI的…

【100天精通python】Day17:常见异常类型与解决,异常处理语句

目录 一 python 的常见异常类型与解决 二 常用的异常处理语句 1 try...except语句 2 try...except...else语句 3 try...except...finally语句 4 使用raise语句抛出异常 5 自定义异常类型 6 异常链处理 在 Python中&#xff0c;异常是在程序运行时发生的错误或意外情…

Spring Boot实践二 --Web开发

一、模板引擎简介 在之前的示例中&#xff0c;我们通过RestController来处理请求&#xff1a; package com.example.demospringboot.web;import org.springframework.web.bind.annotation.RestController; import org.springframework.web.bind.annotation.RequestMapping;Re…

1.Web API基本认知

变量声明 const优先&#xff0c;尽量使用const ●const声明的值不能更改&#xff0c;而且const声明变量的时候需要里面进行初始化 ●简单数据类型 用const声明后不能修改值 ●但是对于 引用数据类型&#xff0c;const声明的变量&#xff0c;里面存的不是值&#xff0c;是地址&a…

spring-authorization-server (1.1.1)自定义认证

前言 注意&#xff1a;我本地没有生成公钥和私钥&#xff0c;所以每次启动项目jwkSource都会重新生成&#xff0c;导致之前认证的token都会失效&#xff0c;具体如何生成私钥和公钥以及怎么配置到授权服务器中&#xff0c;网上有很多方法自行实现即可 之前有个项目用的0.0.3的…

ATA-2021B高压放大器经典应用合集(内附技术指标)

多年来Aigtek安泰电子一直潜心于电子测试仪器的研发&#xff0c;已拥有完善的功率放大器产品线&#xff0c;并针对超声声学、无损检测、电磁驱动、生物医疗、微流控、材料测试等主流各行业领域测试建立的了专属测试方案&#xff0c;在国内功率放大器行业及市场中获得认可&#…

【智能可视化---01】揭示Python AI中Matplotlib的魅力,提升数据洞察力!探索AI 中的Matplotlib,这一篇就够了!

Success keeps eluding me yet my passion abides. 🎯作者主页: 追光者♂🔥 🌸个人简介: 💖[1] 计算机专业硕士研究生💖 🌟[2] 2022年度博客之星人工智能领域TOP4🌟 🏅[3] 阿里云社区特邀专家博主🏅 🏆[4] CSDN-人工智能领域优质创作者…

团队运营能力不足?「企业学院」3大板块全面提升运营技能

『矩阵通』本期上线「企业学院」功能&#xff0c;内容包含新媒体培训课程、行业动态资讯及新媒体营销、矩阵运营的干货指南等&#xff0c;帮助企业提高团队运营能力&#xff0c;对此功能感兴趣的客户可前往矩阵通官网&#xff08;matrix.newrank.cn&#xff09;体验。 在当今数…

太绝了!医疗行业管理,原来可以这么简单!

在现代医疗领域&#xff0c;科技的不断进步和创新为医疗设备的发展带来了前所未有的突破和提升。然而&#xff0c;这些先进的医疗设备往往对其运行环境的要求非常严格&#xff0c;尤其是温度和湿度等参数的稳定性。 因此&#xff0c;为了确保医疗设备的高效、可靠运行&#xff…

【学会动态规划】删除并获得点数(13)

目录 动态规划怎么学&#xff1f; 1. 题目解析 2. 算法原理 1. 状态表示 2. 状态转移方程 3. 初始化 4. 填表顺序 5. 返回值 3. 代码编写 写在最后&#xff1a; 动态规划怎么学&#xff1f; 学习一个算法没有捷径&#xff0c;更何况是学习动态规划&#xff0c; 跟我…

百度智能云连拿四年第一,为什么要深耕AI公有云市场

AI是过去几年云计算市场中的最大变量&#xff0c;而大模型的成熟&#xff0c;毫无疑问将指数级增强这个变量。 记得在2022年年底&#xff0c;生成式AI与大模型开始爆火的时候&#xff0c;我们就曾讨论过一个问题&#xff1a;这轮AI浪潮中&#xff0c;最先受到深刻影响的将是云计…

利用spss进行多元逐步回归

1.首先用代码将变量归一化 我这第5列及后是我要归一化的数据&#xff0c;将归一化后的数据保存为nor_result.csv文件 import pandas as pd from sklearn.preprocessing import MinMaxScalerdf pd.read_csv(E:\\Sentinel12\\yangben\\result.csv) cols_to_normalize df.colu…

vue3 + TS + VueUse 快捷存取操作cookie,存储用户token流程

1.依赖安装 VueUse可以为Vue开发提供方便和高效的支持&#xff0c;提高开发效率和代码质量。 VueUse网址&#xff1a;https://vueuse.org/integrations/useCookies/#usecookies 依赖1(主)&#xff1a;npm i vueuse/integrations 依赖2(模块)&#xff1a;npm i universal-cooki…

PCB设计中常见的走线等长要求

1、在做 PCB 设计时&#xff0c;为了满足某一组所有信号线的总长度满足在一个公差范围内&#xff0c;通常要使用蛇形走线将总长度较短的信号线绕到与组内最长的信号线长度公差范围内&#xff0c;这个用蛇形走线绕长信号线的处理过程&#xff0c;就是我们俗称的 PCB 信号等长处理…