python正则表达式与re模块

news2024/10/6 10:30:01

在这里插入图片描述

欢迎关注博主 Mindtechnist 或加入【Linux C/C++/Python社区】一起探讨和分享Linux C/C++/Python/Shell编程、机器人技术、机器学习、机器视觉、嵌入式AI相关领域的知识和技术。


python正则表达式与re模块

  • 正则表达式
    • 元字符
      • ① `.` 通配符
      • ② `^`
      • ③ `$`
      • ④ `*`
      • ⑤ `+`
      • ⑥ `?`
      • ⑦ `{}`
      • ⑧ `[]`
      • ⑨ `\` 转义符
      • ⑩ `()` 分组
      • ⑾ `|` 或
  • re模块常用方法


专栏:《python从入门到实战》


正则表达式

正则表达式即字符串模糊匹配,用于处理字符串。就其本质而言,正则表达式(或 RE)是一种小型的、高度专业化的编程语言,在Python中它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行。

字符匹配(普通字符,元字符):

  • 普通字符:大多数字符和字母都会和自身匹配,即完全匹配(每个字符一对一匹配),比如find/findall等方法。
  • 元字符:. ^ $ * + ? { } [ ] | ( ) \ ,前面的*,+,?等都是贪婪匹配,也就是尽可能匹配,后面加?号使其变成惰性匹配。

元字符

. 通配符

通配符可以匹配除了换行符\n之外的任何字符,一个点只能代表一个字符。
在这里插入图片描述

^

表示必须在开头才能匹配成功,要匹配的字符串必须在目标字符串开头 。
在这里插入图片描述

$

只有在结尾才能匹配成功,要匹配的字符串必须在目标字符串尾部。
在这里插入图片描述

*

匹配重复的字符(任意个重复字符:0-无穷个),没有该字符表示匹配到0个,贪婪匹配 ,尽可能匹配多的,按最多的重复次数去匹配比如*虽然可以匹配0个,但是如果有3个重复的字符会按照3个去匹配,而不是0个(尽可能匹配多),仅匹配*前面的一个字符。
在这里插入图片描述

+

匹配重复字符(1-无穷个),至少要匹配到一个,也是贪婪匹配,仅匹配+前面的一个字符。
在这里插入图片描述

?

匹配0或1次,贪婪匹配,仅匹配?前面的一个字符。
在这里插入图片描述

{}

自定义匹配次数 {0, }相当于*{1, }相当于+{0, 1}相当于?{6}表示匹配6次重复字符。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

[]

字符集,在字符集内都是普通字符,包括*?等都是普通字符,但是有3个字符是有特殊意义的 ^ - \-表示范围,按ascii码的顺序排列的范围,[a-z]表示a到z所有的字符;^表示非,[^a-z]表示匹配不是a-z的字符;\是转义符,去除元字符的特殊功能或者给普通字符加上特殊功能。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

示例:

ret=re.findall('a[bc]d','acd')
print(ret)#['acd']
 
ret=re.findall('[a-z]','acd')
print(ret)#['a', 'c', 'd']
 
ret=re.findall('[.*+]','a.cd+')
print(ret)#['.', '+']
 
#在字符集里有功能的符号: - ^ \
 
ret=re.findall('[1-9]','45dha3')
print(ret)#['4', '5', '3']
 
ret=re.findall('[^ab]','45bdha3')
print(ret)#['4', '5', 'd', 'h', '3']

ret=re.findall('[\d]','45bdha3')
print(ret)#['4', '5', '3'] 

\ 转义符

反斜杠后边跟元字符去除特殊功能,比如\.,反斜杠后边跟普通字符实现特殊功能,比如\d。具体如下:

  • \d 匹配任何十进制数,它相当于 [0-9]
  • \D 匹配任何非数字字符,它相当于 [^0-9]
  • \s 匹配任何空白字符,它相当于 [ \t\n\r\f\v]
  • \S 匹配任何非空白字符,它相当于 [^ \t\n\r\f\v]
  • \w 匹配任何字母数字字符,它相当于 [a-z A-Z 0-9 _]
  • \W 匹配任何非字母数字字符,它相当于 [^a-zA-Z0-9_]
  • \b 匹配一个特殊字符边界,比如空格 &等。

在这里插入图片描述

示例

import re
ret=re.findall('c\l','abc\le')
print(ret)#[]
ret=re.findall('c\\l','abc\le')
print(ret)#[]
ret=re.findall('c\\\\l','abc\le')
print(ret)#['c\\l']
ret=re.findall(r'c\\l','abc\le')
print(ret)#['c\\l']

特殊情况:python解释器遇上re转义符

m = re.findall('\bblow', 'blow')
print(m)
m = re.findall(r'\bblow', 'blow')
print(m)

在这里插入图片描述

我们在终端或者PyCharm中写的程序都是由python解释器来执行的,在re语言中\b是可以代表空格的,这没问题,但是我们在re.findall(“I\b”, “h I am”)中使用\b的时候,这条语句是被python解释器执行的,而\b在python中本身就是有特殊含义的(python中\也是转义符),当python拿到这句话re.findall(“I\b”, “h I am”)的时候,它会把\b翻译成python中所代表的含义,然后把翻译后的内容扔到re模块中,所以,到了re模块后\b已经不是\b了,而是其它内容(python解释器翻译后的内容)。解决方法有:

  • re.findall(r“I\b”, “h I am”) r表示原生字符串,告诉python解释器不做任何转义,这样python解释器传给re模块的\b就是\b,python解释器这一层不会做任何操作;
  • re.findall(“I\\b”, “h I am”) python解释器遇到\开始转义\\就是把\的转义功能去掉,变成一个普通字符\,这样python解释器传给re模块的也是\b本身。

在这里插入图片描述

re.findall(“a\\\\k”, “a\k”) 相当于 re.findall(r“a\k”, “a\k”) ,传给re的只有\\两个反斜杠,表示去除\的特殊含义,也就是匹配\k。

() 分组

m = re.findall(r'(ad)+', 'add')
print(m)
 
ret=re.search('(?P<id>\d{2})/(?P<name>\w{3})','23/com')
print(ret.group())#23/com
print(ret.group('id'))#23

在这里插入图片描述

?P<name>表示把匹配的内容做一个分组叫name,我们可以通过name取值。
在这里插入图片描述

()是有优先级的,会优先返回分组内的字符串,可以通过?:去掉括号优先级。
在这里插入图片描述

|

re模块常用方法

导入模块

import re

1、 findall 匹配所有并返回为列表
返回所有满足匹配条件的结果,放在列表里。匹配所有,返回列表。

re.findall('a','alvin yuan')    

2、 search 匹配第一个并返回对象
函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以通过调用group()方法得到匹配的字符串,如果字符串没有匹配,则返回None。匹配第一个,匹配成功返回对象,匹配失败返回None。

re.search('a','alvin yuan').group()

在这里插入图片描述

3、 match 仅匹配头部,并返回对象

re.match('a','abc').group()     #同search,不过仅在字符串开始处进行匹配

4、 split 分割字符串

ret=re.split('[ab]','abcd')     #先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
print(ret) #['', '', 'cd']

在这里插入图片描述

5、 sub 替换

ret=re.sub('\d','abc','alvin5yuan6',1) #仅匹配前1次
print(ret)#alvinabcyuan6

在这里插入图片描述

ret=re.subn('\d','abc','alvin5yuan6') #返回元组(匹配后字符串,匹配次数)
print(ret)#('alvinabcyuanabc', 2)

在这里插入图片描述

6、 compile 编译

obj=re.compile('\d{3}') #把规则提前编译好
ret=obj.search('abc123eeee')
print(ret.group())#123

在这里插入图片描述

7、 finditer编译

import re
ret=re.finditer('\d','ds3sy4784a')
print(ret)        #<callable_iterator object at 0x10195f940>
 
print(next(ret).group())
print(next(ret).group())

findall把所有结果放到一个列表中,finditer把结果放到一个迭代器中并返回一个迭代器对象,在大数据场景中,使用迭代器可以需要一条就处理一条,高效省内存。
在这里插入图片描述

注意事项

ret=re.findall('www.(baidu|oldboy).com','www.oldboy.com')
print(ret)#['oldboy']    

这是因为findall会优先把匹配结果分组里的内容返回,如果想要匹配结果,取消权限即可,在匹配规则中如果使用了分组,findall会优先把分组内的匹配内容返回出来,可通过?:去优先级来返回全部匹配结果。分组的符号()是有优先级的,括号内优先级高,通过?:就可以去掉()的优先级。

ret=re.findall('www.(?:baidu|oldboy).com','www.oldboy.com')
print(ret)#['www.oldboy.com']

在这里插入图片描述
在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/442272.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python 怎么使用pip进行包管理

包管理工具是用来对一些应用程序的包进行管理的工具&#xff0c;比如nodejs使用npm&#xff0c;yarn来进行包管理&#xff0c;linux使用apt来进行包管理。python包管理工具或许不如他们有名&#xff08;实际上pip的大名比前几位更响亮&#xff09;&#xff0c;但绝对比他们好用…

java超市会员积分管理系统

本课题要求采用B/S结构和主流的jsp技术&#xff0c;以java为开发语言&#xff0c;结合后台数据库mysql&#xff0c;并配合使用了MyEclipse等工具软件&#xff0c;完成超市会员管理系统的设计与后台管理功能开发。 该系统主要功能如下&#xff1a; 会员信息的管理&#xff1a;包…

MySQL数据库:数据库表的设计

一、ER实体关系图 1.概念 百度百科&#xff1a; ER图是用来描述某一组织(单位)的概念模型&#xff0c;提供了表示实体、属性和联系的方法。构成ER图的基本要素是实体、属性和关系。 ER图是用来描述某一组织(单位)的概念模型&#xff0c;提供了表示实体、属性和联系的方法。构…

asp.net房屋租赁管理系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio

一、源码特点 asp.net房屋租赁管理系统 是一套完善的web设计管理系统&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为vs2010&#xff0c;数据库为sqlserver2008&#xff0c;使用c#语言 开发 asp.net房屋租赁管理系统VS开发s…

如何搭建用户生命周期模型

如何搭建用户生命周期模型 摘要一、问题背景二、用户生命周期模型1、用户生命周期模型简介2、对用户生命周期认知的几点误区 三、如何搭建并应用用户生命周期模型1、使用场景2、搭建步骤&#xff08;1&#xff09;梳理用户成长路径&#xff08;2&#xff09;寻找驱动用户进入下…

【动力节点】springsecurity课程笔记6-13章

** 6 密码处理 6.1 为什么要加密&#xff1f; csdn 密码泄露事件 泄露事件经过&#xff1a;https://www.williamlong.info/archives/2933.html 泄露数据分析&#xff1a;https://blog.csdn.net/crazyhacking/article/details/10443849 6.2加密方案 密码加密一般使用散列函…

ATTCK v12版本战术实战研究——提权(二)

一、前言 前几期文章中&#xff0c;我们介绍ATT&CK 14项战术中提权战术&#xff08;二&#xff09;&#xff0c;包括提权前7项子技术。那么从前文中介绍的相关提权技术来开展测试&#xff0c;进行更深一步的分析。本文主要内容是介绍攻击者在运用提权技术时&#xff0c;在…

ZLMediaKit实现按需拉流时rtsp流地址不对addStreamProxy返回0,接口流id参数踩坑记录

场景 开源流媒体服务器ZLMediaKit在Windows上运行、配置、按需拉流拉取摄像头rtsp视频流)并使用http-flv网页播放: 开源流媒体服务器ZLMediaKit在Windows上运行、配置、按需拉流拉取摄像头rtsp视频流)并使用http-flv网页播放_霸道流氓气质的博客-CSDN博客 基于上面实现拉取视…

vue_02

文章目录 安装axios配置响应拦截器&#xff08;对响应做统一处理&#xff09;解决跨域问题登录token问题首先在Login.vue中添加下列代码然后在api.js中添加请求拦截器 页面加载动画的添加请求方式的全局配置在api.js中添加四种请求在main.js中配置全局 Login.vue完成代码 安装a…

前端实战(三):element-ui的二次封装

目录 二次封装 Switch 开关 原始效果 设计效果 实现步骤 在日常开发过程中&#xff0c;大多数项目主要以 vue 为主&#xff0c;并且现在很多公司仍在使用着 vue。但在使用element-ui组件时通常会遇到一些问题&#xff1a;如组件样式与设计不符合、组件不存在某个功能等等&a…

都已经那么卷了,用户还需要开源的 API 管理工具么

关于 API 管理工具&#xff0c;如今的市场已经把用户教育的差不多了&#xff0c;毫不夸张地说&#xff0c;如果我随机抽取一位幸运读者&#xff0c;他都能给我罗列出一二三四款大家耳熟能详的工具。可说到开源的 API 管理工具&#xff0c;大家又能知道多少呢&#xff1f; 我们是…

计算机网络复习题+答案

文章目录 导文题目一、单项选择题二、填空题三、判断改错题,判断下列命题正误,正确的在其题干后的括号内打“√”,错误的打“”,并改正。四、名词解释五、简答题六、应用题导文 计算机网络复习题 题目 一、单项选择题 在应用层协议中,主要用于IP地址自动配置的协议是: (…

一文讲清莱迪斯 LCMXO2-4000HC-4BG256I 可编程逻辑FPGA 特性及运用领域

一文讲清lattice莱迪斯深力科 LCMXO2-4000HC-4BG256I 可编程逻辑FPGA 特性及运用领域 适用于低成本的复杂系统控制和视频接口设计开发&#xff0c;满足了通信、计算、工业、消费电子和医疗市场所需的系统控制和接口应用。 瞬时启动&#xff0c;迅速实现控制——启动时间小于1m…

605. 种花问题

假设有一个很长的花坛&#xff0c;一部分地块种植了花&#xff0c;另一部分却没有。可是&#xff0c;花不能种植在相邻的地块上&#xff0c;它们会争夺水源&#xff0c;两者都会死去。 给你一个整数数组 flowerbed 表示花坛&#xff0c;由若干 0 和 1 组成&#xff0c;其中 0…

Mybatis核心组件简介

文章目录 前言一、Configuration二、MappedStatement三、SqlSession四、Executor五、StatementHandler六、ParameterHandler七、ResultSetHandler八、TypeHandler总结 前言 SqlSession是MyBatis提供的面向用户的操作数据库API。那么MyBatis底层是如何工作的呢&#xff1f;为了…

2. VBA Excel宏

在本章中&#xff0c;我们来学习如何逐步编写一个简单的宏。 第1步 - 首先&#xff0c;在Excel 2016中启用“开发者”菜单。要完成这个设置&#xff0c;请点击左上角菜单&#xff1a;文件 -> 选项。如下图所示 - 第2步 - 点击“自定义功能区”选项卡并选中“开发工具”。然…

Pulumi实战 | 一款架构即代码的开源产品

新钛云服已累计为您分享741篇技术干货 本篇文章&#xff0c;主要介绍 Pulumi 是什么以及它的相关原理&#xff0c;并且使用它搭建一个 Nacos 和 SpringBoot 的环境&#xff01; 一、Pulumi 诞生 &#xff08;一&#xff09;诞生原因 Pulumi 是一个架构即代码的开源产品&#xf…

学系统集成项目管理工程师(中项)系列09_收尾管理

1. 广义 1.1. 项目验收工作 1.2. 项目总结工作 1.3. 系统维护工作 1.4. 项目后评价工作 1.5. 项目团队成员的后续工作 2. 狭义 2.1. 项目验收工作 3. 项目验收 3.1. 首要环节 3.2. 包括验收项目产品、文档及已经完成的交付成果 3.3. 需要完成正式的验收报告 3.3.1.…

STM32使用PWM(脉冲宽度调制)

STM32使用PWM&#xff08;脉冲宽度调制&#xff09; 一、PWM概述二、STM32的PWM分析三、PWM产生的流程示例代码 一、PWM概述 脉冲宽度调制(PWM)&#xff0c;是英文“Pulse Width Modulation”的缩写&#xff0c;简称脉宽调制&#xff0c;是利用微处理器的数字输出&#xff08;…

记录关于GPT的应用

一.AutoGPT chatgpt是一问一答的形式&#xff0c;autogpt则是输入需要做的东西以及几个目标&#xff0c;例如&#xff1a; Enter y to authorise command, y -N to run N continuous commands, n to exit program, or enter feedback for .. 注意&#xff1a;openai账户里应该…