Python实战基础10-正则表达式

news2024/11/24 12:42:57

1、正则表达式

       在处理字符串时,经常会有查找符合某些复杂规则的字符串需求。正则表达式就算用于描述这些规则的工具。换句话说,正则表达式就是记录文本规则的代码。

1.1 行定位符

行定位符就是用来描述字符串的边界,“A”表示行的开始,“$”表示行的结尾。如

^tm

该表达式表示要匹配字符串tm的开始位置是行头,如:“tm equal Tomorrow Moon”可以匹配,而“Tomorrow Moon equal tm”则不匹配。但如果使用:

tm$

后者可以匹配而前者不能匹配。如果要匹配的字符串可以出现在字符串的任意部分,那么可以直接写成以下格式,这样两个字符串就都可以匹配了。

tm

1.2 元字符

除了元字符"A"和"$"外,正则表达式里还有更多的元字符。例如:下面的正则表达式中就应用了元字符“\b”和“\w”:

\bmr\w*\b

如上正则表达式用于匹配以字母mr开头的单词,先从某个单词开始处(\b),然后匹配字母mr,接着是任意数量的字母或数字(\w*),最后单词结束处(\b)。该表达式可以匹配“mrsoft”、“\nmr”和“mrl12345”等,但不能与“amr”匹配。

常用元字符
代码说明举例
.匹配除换行符以外的任意字符.可以匹配mr\nM\tR中的m、r、M、\t、R
\w匹配字母、数字、下划线或汉字以外的字符\w可以匹配“m中7r\n”中的“m、中、7、r”,但不能匹配\n
\W匹配除字母、数字、下划线或汉字以外的字符\W可以匹配“m中7r\n”中的\n,但不能匹配“m、中、7、r“
\s匹配单个的空白符(包括Tab键和换行符)\s可以匹配mr\tMR中的\t
\S除单个空白符(包括Tab键和换行符)以外的所有字符\S或以匹配mr\tMR中的m、r、M、R
\b匹配单词的开始或结束,单词的分界符通常是空格,标点符号或者换行在”I like mr or am”字符串中,\bm与mr中的m相匹配,但与am中的m不匹配
\d匹配数字\d可以与m7ri中的字符7匹配

1.3 限定符

使用(\w*)可以匹配任意数量的字母或数字。如果要匹配特定数量的数字,可以使用正则表示提供的限定符(指定数量的字符)来实现。如匹配8位QQ号可用如下表达式:

^\b{8}$

常用限定符
限定符说明举例
匹配前面的字符零次或一次colou?r,该表达式可以匹配colour和color
+匹配前面的字符一次或多次go+gle,该表达式可以匹配的范围从gogle到goo...gle
*匹配前面的字符零次或多次go*gle,该表达式可以匹配的范围从ggle到goo...gle
{n}匹配前面的字符n次go{2}gle,该表达式只匹配google
{n,}匹配前面的字符最少n次go{2,}gle,该表达式可以匹配的范围从google到goo...gle
{n,m}匹配前面的字符最少n次,最多m次employe{0,2},该表达式可以匹配employ、employe和employee 3种情况

1.4 字符类

匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u)

只需要在方括号里列出它们就行了,

例如:[aeiou]可以匹配任何一个英文元音字母,

           [.?!]匹配标点符号(“.” “?” 或 “!”)。

也可以指定也给字符范围,如:[0-9]代表的含义与“\d”就是完全一致:一位数字;同理。

[a-zO-9A-Z]完全等同于“\w”(如果只考虑英文的话)。

说明:要想匹配给定字符串中任意一个汉字,可以使用“[\u4e00-\u9fa5]”;如果要匹配连续多个汉字,可以使用“[\u4e00-\u9fa5]+”

1.5 排除字符

匹配不符合指定字符集合的字符串。

正则表达式提供了“A”字符。这个在元字符中出现过,表示行的开始。而这里放到方括号中,表示排除的意思。如:

[^a-zA-Z]

该表达式用于匹配一个不是字母的字符。

1.6 选择字符

如何匹配身份证号码?

首先需要了解身份证号码的规则。

身份证号码长度为15或者18位。

如果位15位时,则全为数字;如果为18为时,前17位为数字,最后一位是校验位,可能为数字或字符X。

在上面的描述中,包含着条件选择的逻辑,这就需要使用选择字符(|)来实现。该字符可以理解为“或”,匹配身份证的表示式可以写成如下方式:

(^\d{15}$)|(^\d{18}$)|(^\d{17})(\d|X|x)$

该表达式的意思是以匹配15位数字,或者18位数字,或者17位数字和最后一位。最后一位可以是数字,也可以是X或x。

1.7 转义字符

正则表达式中的转义字符(\)和python中的大同小异,都是特殊字符(如:“.” 、”?“、”\“等)变为普通的字符。例如:一个IP地址,用正则表达式匹配”127.0.0.1“格式的IP地址。如果直接使用点字符,格式为:

[1-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}

这显然是不对的,因为可以匹配一个任意字符。这时,不仅是127.0.0.1这样的IP,连127101011这样的字符串也会被匹配出来。所以在使用时,需要使用转义字符(\)。修改上面的正则表达式格式为:

[1-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}

1.8 分组

小括号字符的第一个作用就是可以改变限定符的作用范围,如”|“、”*“、”A“等。例如下面的表达式中包含小括号:

(six|four)th

这个表达式的意思就是匹配单词sixth或fourth,如果不使用小括号,那么就变成了匹配单词six和fourth了。

小括号的第二个作用就是分组,也就是子表达式。如(\.[0-9]{1,3}),就是对分组(\.[0-9]{1,3})进行重复操作。

1.9 在Python中使用正则表达式语法

在python中使用正则表达式时,是将其作为模式字符串使用。例如:将匹配不是字母的一个字符的正则表达式表示为模式字符串,可以使用下面的代码:

'[^a-zA-Z]'

而如果将匹配以字母m开头的单词的正则表达式转换为模式字符串,则不能直接在其两侧添加引号定界符,例如,下面的代码是不正确的:

'\bm\w*\b'

而是需要将其中的”\"进行转义,转换后的结果为:

'\\bm\\w*\\b'

由于模式字符串中可能包括大量的特殊字符和反斜杠,所以需要写为原生字符串,即在模式字符串前加r或R。例如,上面的模式字符串采用原生字符串表示为:

r'\bm\w*\b'

2、使用re模块实现正则表达式操作

Python提供了re模块,用于实现正则表达式的操作。在实现时,可以使用re模块提供的方法(如search()、match()、findall()等)进行字符串处理,也可以先使用re模块的compile()方法将模式字符串转换为正则表达式对象,然后再使用该正则表达式对象的相关方法来操作字re模块在使用时,需要先应用import语句引入,具体代码如下:

import re

如果在使用模块时,没有将其引入,将会下图的报错:

2.1 匹配字符串

匹配字符串可以使用re模块提供的match()、search()和findall()等方法。

2.1.1 使用match()方法进行匹配

match()方法用于从字符串的开始处进行匹配,如果在起始位置匹配成功,则返回match对象,否则返回None。其语法格式如下:

re.match(pattern,string,[flags])

参数说明:

pattern:表示模式字符串,又要匹配的正则表达式转换而来

string:表示要匹配的字符串

flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。常用的标志如下。

常用标志
标志说明
A或ASCII对于\w、\W、\b、\B、\d、\D、\s和\S"只进行ASCII匹配(仅适用于Python3.x)
I或IGNORECASE执行不区分字母大小写的匹配
M或MULTILINE将^和$用于包括整个字符串的开始和结尾的每一行(默认情况下,仅适用于整个字符串的开始和结尾处)
S或DOTALL适用(.)字符匹配所有字符,包括换行符
X或VERBOSE

忽略模式字符串中未转义的空格和注释

练习一:匹配字符串是否以“mr”开头,不区分字母大小写 

import re
pattern = r'mr_\w+' # 模式字符串
string = 'MR_SHOP mr_shop' # 要匹配的字符串
match = re.match(pattern,string,re.I)# 匹配字符串,不区分大小写
print(match)
string = '项目名称MR_SHOP mr_shop'
match = re.match(pattern,string,re.I) # 匹配字符串,不区分大小写
print(match) # 输出匹配结果

运行结果:

从运行结果中可以看出,字符串“MR_SHOP”以“mr_”开头,将返回一个match对象,而字符串“项目名称MR_SHOP”没有以“mr_”开头,将返回“None”。这是因为match()方法从字符串的开始位置开始匹配,当第一个字母不符号条件时,则不再进行匹配,直接返回None。 

match对象中包含了匹配值的位置和匹配数据。其中,要获取匹配值的起始位置可以使用match对象的start()方法;要获取匹配值的结束位置可以使用end()方法;通过span()方法可以返回匹配位置的元组;通过string属性可以获取要匹配的字符串。

import re
pattern = r'mr_\w+' # 模式字符串
string = 'MR_SHOP mr_shop' # 要匹配的字符串
match = re.match(pattern,string,re.I)# 匹配字符串,不区分大小写
print('匹配值的起始位置:',match.start())   # 匹配值的起始位置: 0
print('匹配值的结束位置:',match.end())     # 匹配值的结束位置: 7
print('匹配位置的元组:',match.span())     # 匹配位置的元组: (0, 7)
print('要匹配的字符串:',match.string)      # 要匹配的字符串: MR_SHOP mr_shop

练习二:验证输入的手机号码是否为中国移动的号码 

import re # 导入Python的re模块
pattern = r'(13[4-9]\d{8})|(15[01289]\d{8})$'
mobile = '15874997369'
match = re.match(pattern,mobile) # 进行模式匹配
if match == None: # 判断是否为None,为真表示匹配失败
    print(mobile,'不是有效的中国移动手机号码。')
else:
    print(mobile,'是有效的中国移动手机号码。')
mobile = '13334859875'
match = re.match(pattern,mobile) # 进行模式匹配
if match == None: # 判断是否为None,为真表示失败
    print(mobile,'不是有效的中国移动手机号码。')
else:
    print(mobile,'是有效的中国移动手机号码。')

运行结果:

 

2.1.2 使用search()方法进行匹配 

search()方法用于再整个字符串中搜索第一个匹配的值,如果在起始位置匹配成功,则返回match对象,否则返回None。search()方法的语法格式如下:

re.search(pattern,string,[flags])

参数说明:

pattern:表示模式字符串,由要匹配的正则表达式转换而来

string:表示要匹配的字符串

flags:可以选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。

 练习一:搜索第一个以“mr”开头的字符串,不区分字母大小写。

import re
pattern = r'mr_\w+' # 模式字符串
string = "MR_SHOP mr_shop" # 要匹配的字符串
match = re.search(pattern,string,re.I) # 搜索字符串,不区分大小写
print(match)

运行结果:

练习二:验证是否出现危险字符 

import re # 导入Python的re模块
pattern = r'(黑客)|(网络攻击)|(监听)|(木马)|(病毒)|(僵尸)'  # 模式字符串
about = '闰土是名技术人,空闲时间喜欢研究黑客技术,也会偶尔编写木马程序。'
match = re.search(pattern,about)  # 进行模式匹配
if match == None: # 判断是否为None,为真表示匹配失败
    print(about,'@ 安全')
else:
    print(about,'@ 出现了危险词汇!')

about = '我要好好学习,我要成为人上人,我要赚大钱。'
match = re.search(pattern,about)  # 进行模式匹配
if match == None: # 判断是否为None,为真表示匹配失败
    print(about,'@ 安全')
else:
    print(about,'@ 出现了危险词汇!')

运行结果:

2.1.3 使用findall()方法进行匹配 

findall()方法用于在整个字符串中搜索所有符合正则表达式的字符串,并以列表的形式返回。如果匹配成功,那么返回包含匹配结构的列表;否则返回空列表。findall()方法的语法格式如下:

re.findall(patern,string,[flags])

参数说明:

pattern:表示模式字符串,由要匹配的正则表达式转换而来。

string:表示要匹配的字符串。

flags:可选参数,表示标志位,用于控制匹配方式,如是区分字母大小写。

练习一:搜索以“mr_”开头的字符串

import re
pattern = r'mr_\w+' #模式字符串
string = "MR_SHOP mr_shop" # 要匹配的字符串
match = re.findall(pattern,string,re.I) # 搜索字符串,不区分大小写
print(match) # 输出匹配结果
string = '项目名称MR_SHOP mr_shop'
match = re.findall(pattern,string) # 搜索字符串,区分大小写
print(match)

运行结果:

 

练习二:如果在指定的模式字符串中,包含分组,则返回与分组匹配的文本列表。 

import re
pattern = r'[1-9]{1,3}(\.[0-9]{1,3}){3}'  # 模式字符串
str1 = '127.0.0.1 192.168.2.66'  # 要配置的字符串
match = re.findall(pattern,str1) # 进行模式匹配
print(match)

运行结果:

 

从上面运行结果中可以看出,并没有得到匹配的IP地址,这是因为在模式字符串中出现了分组,所以得到的结果是根据分组进行匹配的结果,即“(\[0-9:|{1,3})”匹配的结果 。如果想获取整个模式字符串的匹配,可以将整个模式字符串使用一对小括号进行分组,然后在获取结果时,只取返回值列表的每个元素(是一个元组)的第一个元素,代码如下:

import re
pattern = r'([1-9]{1,3}(\.[0-9]{1,3}){3})'  # 模式字符串
str1 = '127.0.0.1 192.168.2.66'  # 要配置的字符串
match = re.findall(pattern,str1) # 进行模式匹配
for item in match:
    print(item[0])

 运行结果:

 

2.2 替换字符串

sub()方法用于实现字符串的替换,语法格式如下:

re.sub(pattern,repl,string,count,flags)

参数说明:

pattern:表示模式字符串,由要匹配的正则表达式转换而来。

relp:表示替换的字符串。

string:表示要被查找替换的原始字符串。

count:可选参数,表示模式匹配后替换的最大次数,默认值为0,表示替换所有的匹配。

flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。

练习:替换出现的危险字符

import re
pattern = r'(黑客)|(网络攻击)|(监听)|(木马)|(病毒)|(僵尸)'  # 模式字符串
about = '闰土是名技术人,空闲时间喜欢研究黑客技术,也会偶尔编写木马程序。'
sub = re.sub(pattern,'@_@',about) # 进行模式替换
print(sub)
about = '我要赚钱,我要赚大钱,我要暴富'
sub = re.sub(pattern,"@_@",about) # 进行模式替换
print(sub)

运行结果:

 

2.3 使用正则表达式分割字符串

split()方法用于实现根据正则表达式分割字符串,并以列表的形式返回。其作用同字符串对象的split()方法类似,所不同的是分割字符由模式字符串指定。split()方法的语法格式如下:

re.split(pattern,string,[maxsplit],[flags])

参数说明:

pattern:表示模式字符串,由要匹配的正则表达式转换而来。

string:表示要匹配的字符串。

maxsplit:可选参数,表7K最大的拆分次数。

flags:可选参数,变送标志位,用于控制匹配方式,如是否区分字母大小写。

练习一:从给定的URL地址中提取出请求地址和各个参数

import re
pattern = r'[?|&]' # 定义分割符
url = 'https://www.lzlj.com/login.jsp?username="xm" &pwd="123567"'
result = re.split(pattern,url) # 分割字符串
print(result)

运行结果:

 练习二:输出被@的好友名称(应用正则表达式)

import re
str1 = '@小明你好 @小陈再见 @小黄好漂亮 @小李子来了 @小文子'
pattern = r'\s*@'
list1 = re.split(pattern,str1) # 用空格和@或单独的@分割字符串
print('\n你@的好友有:')
for item in list1:
    if item !="":  # 输出不为空的元素
        print("\n",item) # 输出每个好友名

运行结果:

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/560001.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023新星导师活动【electron+vue3】方向,开营知识点提纲(2)

文章目录 前言一、vue是什么?二、vue的优势1.依托数据渲染2.新人的边界2.选项式和组合式 总结 前言 上篇文章主要讲解了electron、nodejs的相关概念。本篇文章将主要介绍vue3,以及vue3如何与electron协作完成桌面端功能。 同上篇文章一样,这…

系统集成项目管理工程师 下午 真题 及考点(2019年上半年)

文章目录 一:第10章 项目质量管理,规划质量管理输出,质量成本法(一致性成本【预防、评价】 和 非一致性成本【内部失败、外部失败】),七种工具二:第8章 项目进度管理,总浮动时间&…

2023高频前端面试题合集之网络篇

近期整理了一下高频的前端面试题,分享给大家一起来学习。如有问题,欢迎指正! 欢迎大家关注该专栏:点赞👍 收藏🤞 大厂面试题分享 面试题库 前后端面试题库 (面试必备) 推荐&…

数据结构学习分享之链式二叉树(二)

💓博主CSDN主页:杭电码农-NEO💓   ⏩专栏分类:数据结构学习分享⏪   🚚代码仓库:NEO的学习日记🚚   🌹关注我🫵带你了解更多数据结构的知识   🔝🔝 数据结构第八课 1. 前言&a…

ClickHouse:(二)数据类型

1.整型 固定长度的整型分为:有符号和无符合整型 有符号整型无符号整型类型范围类型范围Int8 -128 : 127 UInt8 0 : 255 Int16 -32768 : 32767 UInt16 0 : 65535 Int32 -2147483648 : 2147483647 UInt32 0 : 4294967295 Int64 -9223372036854775808 : 9223372036854…

SpringSecurity框架|荣耀磨练

🙈作者简介:练习时长两年半的Java up主 🙉个人主页:程序员老茶 🙊 ps:点赞👍是免费的,却可以让写博客的作者开兴好久好久😎 📚系列专栏:Java全栈,…

Unity之使用Photon Server + PUN2 开发局域网多人游戏

一.前言 Photon Engine是一款跨平台的实时多人游戏引擎,它提供了可靠的基础设施和工具,使开发者能够轻松地构建和部署多人游戏。Photon Engine支持多种平台,包括PC、移动设备和Web,同时还提供了多种语言的SDK,如C++、C#、Java、JavaScript等,使得开发者可以使用自己熟悉…

多元回归预测

多元回归就像线性回归(一个变量预测一个值)一样,但是具有多个独立值,这意味着我们试图基于两个或多个变量来预测一个值。 比如在线性回归中我们可以根据发动机排量的大小预测汽车的二氧化碳排放量,但是通过多元回归&a…

Kotlin泛型<in, out, where>概念及示例

Kotlin泛型<in, out, where>概念及示例 在 Kotlin 中&#xff0c;泛型用于指定类、接口或方法可以操作的对象类型。 in in关键字用于指定泛型类型是“输入”类型&#xff0c;这意味着它将仅用作函数或类的参数。 interface ReadOnly {fun read(): Any }class ReadW…

设计模式期末复习随笔

1.以下是23种GOF设计模式对应的设计原则&#xff1a; 工厂方法模式&#xff08;Factory Method Pattern&#xff09;&#xff1a;遵循开闭原则&#xff0c;客户端不需要修改就能够新增产品类型。 抽象工厂模式&#xff08;Abstract Factory Pattern&#xff09;&#xff1a;遵…

【严重】Kibana 8.7.0 任意代码执行漏洞

漏洞描述 Kibana是用于Elasticsearch的数据可视化仪表板。Kibana在8.7.0版本引入了Synthetic监控功能&#xff0c;用户可配置编写playwright中的javascript代码实现web应用监控。 具备Kibana登录权限的攻击者可利用此功能编写恶意playwright脚本&#xff0c; 从而在Kibana主机…

5.28 深圳活动|Jina AI 生态助力云原生场景下的 AIGC 应用开发

亚马逊云科技 Community Day 将于 5 月 28 日 在深圳南山区海德酒店 11 楼举办&#xff0c;Jina AI 软件工程师付杰将带来 《Jina AI 生态助力云原生场景下的 AIGC 应用开发》 的主题演讲。 Community Day 是亚马逊云科技全球品牌和社区旗舰活动&#xff0c;由社区领导者发起&a…

5个替代Zendesk的全面指南!

Zendesk是一种广受欢迎的客户支持软件解决方案&#xff0c;适用于各种规模的企业。然而&#xff0c;还有其他几种产品可以取代Zendesk&#xff0c;提供类似甚至更好的功能。在本文中&#xff0c;我们将探索市场上一些最好的Zendesk替代方案。 1、Zoho Desk Zoho Desk是一款基…

SpringBoot拦截器-解决java.io.IOException: Stream closed问题

1.SpringBoot拦截器是什么 SpringBoot拦截器和过滤器是Spring Boot的一种机制&#xff0c;用于对请求和响应进行操作的拦截&#xff0c;是AOP编程的一种体现。该方法可以在不改变代码基本业务和逻辑的前提下对SpringBoot的一些操作进行拦截、过滤和更改。 SpirngBoot拦截器&a…

检错纠错理论——海明码与海明距离

概念解释 先说明几个概念&#xff08;非严谨定义&#xff09; 码字&#xff1a;一个包含了数据位和校验位的n位单元&#xff0c;也就是“一种”编码 编码&#xff1a;由码字组成的可以表达传递信息的集合&#xff0c;这里不是指编码的过程&#xff0c;而是一个名词。一个编码…

Unity 环境雾与其它设置

开启雾 window->Rendering->Lighting->Environment Fog Color&#xff1a;雾的颜色。Fog Mode&#xff1a;雾效的模式Fog Density&#xff1a;雾效的浓度&#xff0c;取值范围0~1&#xff0c;数值越大雾效浓度越高。。Linear Fog Start&#xff1a;线性雾效开始距离&…

谈谈 Dapr 的优缺点,应用场景,以及未来的发展趋势,生态成熟度

谈谈 Dapr 的优缺点&#xff0c;应用场景&#xff0c;以及未来的发展趋势&#xff0c;生态成熟度 优点缺点应用场景未来发展趋势生态成熟度 本文采用 GPT4 生成&#xff0c;仅供参考。 Dapr 是一个分布式应用程序运行时&#xff0c;其目标是提供一组通用的功能&#xff0c;可以…

我找到了一个生信分析专用服务器!

写在前面 生信分析离不开计算资源&#xff0c;从事生信工作开始&#xff0c;我都在寻找可以满足我开展分析的服务器&#xff0c;不过在寻找过程中发现了以下问题&#xff1a; 如何获得计算资源、部署分析环境、安装生物信息学软件以及保障计算资源的安全和稳定。 当前面临的主要…

SSM框架学习-请求映射路径、请求参数、json数据传送参数以及日期型参数传递

1. 请求映射路径 在进行多人开发&#xff0c;每个人设置不同的请求路径&#xff0c;要解决冲突问题 设置模块名作为请求路径前缀 两种方式 方式一&#xff1a; public class BookController {//请求路径映射RequestMapping("/book/save")ResponseBodypublic String …

新一代企业数字化联盟成立,甄知科技与众多企业“强强联手”搭建品牌服务生态

5月18日&#xff0c;新一代企业数字化联盟&#xff08;以下简称“新一代联盟”&#xff09;成立大会在上海举行。该联盟由包括甄云科技、得帆信息、甄知科技、盖雅工场、甄零科技、易立德信息、鼎医、数划云在内的8家创新型数字化软件科技企业发起&#xff0c;旨在希望通过强强…