1、正则表达式

在处理字符串时，经常会有查找符合某些复杂规则的字符串需求。正则表达式就算用于描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码。

1.1 行定位符

行定位符就是用来描述字符串的边界，“A”表示行的开始，“$”表示行的结尾。如

^tm

该表达式表示要匹配字符串tm的开始位置是行头，如：“tm equal Tomorrow Moon”可以匹配，而“Tomorrow Moon equal tm”则不匹配。但如果使用：

tm$

后者可以匹配而前者不能匹配。如果要匹配的字符串可以出现在字符串的任意部分，那么可以直接写成以下格式，这样两个字符串就都可以匹配了。

tm

1.2 元字符

除了元字符"A"和"$"外，正则表达式里还有更多的元字符。例如：下面的正则表达式中就应用了元字符“\b”和“\w”：

\bmr\w*\b

如上正则表达式用于匹配以字母mr开头的单词，先从某个单词开始处（\b），然后匹配字母mr，接着是任意数量的字母或数字（\w*），最后单词结束处（\b）。该表达式可以匹配“mrsoft”、“\nmr”和“mrl12345”等，但不能与“amr”匹配。

常用元字符
代码	说明	举例
.	匹配除换行符以外的任意字符	.可以匹配mr\nM\tR中的m、r、M、\t、R
\w	匹配字母、数字、下划线或汉字以外的字符	\w可以匹配“m中7r\n”中的“m、中、7、r”，但不能匹配\n
\W	匹配除字母、数字、下划线或汉字以外的字符	\W可以匹配“m中7r\n”中的\n，但不能匹配“m、中、7、r“
\s	匹配单个的空白符（包括Tab键和换行符）	\s可以匹配mr\tMR中的\t
\S	除单个空白符（包括Tab键和换行符）以外的所有字符	\S或以匹配mr\tMR中的m、r、M、R
\b	匹配单词的开始或结束，单词的分界符通常是空格，标点符号或者换行	在”I like mr or am”字符串中，\bm与mr中的m相匹配，但与am中的m不匹配
\d	匹配数字	\d可以与m7ri中的字符7匹配

1.3 限定符

使用（\w*）可以匹配任意数量的字母或数字。如果要匹配特定数量的数字，可以使用正则表示提供的限定符（指定数量的字符）来实现。如匹配8位QQ号可用如下表达式：

^\b{8}$

常用限定符
限定符	说明	举例
？	匹配前面的字符零次或一次	colou?r，该表达式可以匹配colour和color
+	匹配前面的字符一次或多次	go+gle，该表达式可以匹配的范围从gogle到goo...gle
*	匹配前面的字符零次或多次	go*gle，该表达式可以匹配的范围从ggle到goo...gle
{n}	匹配前面的字符n次	go{2}gle，该表达式只匹配google
{n,}	匹配前面的字符最少n次	go{2,}gle，该表达式可以匹配的范围从google到goo...gle
{n,m}	匹配前面的字符最少n次，最多m次	employe{0,2}，该表达式可以匹配employ、employe和employee 3种情况

1.4 字符类

匹配没有预定义元字符的字符集合（比如元音字母a，e，i，o，u）

只需要在方括号里列出它们就行了，

例如：[aeiou]可以匹配任何一个英文元音字母，

[.?!]匹配标点符号（“.” “?” 或 “!”）。

也可以指定也给字符范围，如：[0-9]代表的含义与“\d”就是完全一致：一位数字；同理。

[a-zO-9A-Z]完全等同于“\w”（如果只考虑英文的话）。

说明：要想匹配给定字符串中任意一个汉字，可以使用“[\u4e00-\u9fa5]”；如果要匹配连续多个汉字，可以使用“[\u4e00-\u9fa5]+”

1.5 排除字符

匹配不符合指定字符集合的字符串。

正则表达式提供了“A”字符。这个在元字符中出现过，表示行的开始。而这里放到方括号中，表示排除的意思。如：

[^a-zA-Z]

该表达式用于匹配一个不是字母的字符。

1.6 选择字符

如何匹配身份证号码？

首先需要了解身份证号码的规则。

身份证号码长度为15或者18位。

如果位15位时，则全为数字；如果为18为时，前17位为数字，最后一位是校验位，可能为数字或字符X。

在上面的描述中，包含着条件选择的逻辑，这就需要使用选择字符（|）来实现。该字符可以理解为“或”，匹配身份证的表示式可以写成如下方式：

(^\d{15}$)|(^\d{18}$)|(^\d{17})(\d|X|x)$

该表达式的意思是以匹配15位数字，或者18位数字，或者17位数字和最后一位。最后一位可以是数字，也可以是X或x。

1.7 转义字符

正则表达式中的转义字符（\）和python中的大同小异，都是特殊字符（如：“.” 、”?“、”\“等）变为普通的字符。例如：一个IP地址，用正则表达式匹配”127.0.0.1“格式的IP地址。如果直接使用点字符，格式为：

[1-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}

这显然是不对的，因为可以匹配一个任意字符。这时，不仅是127.0.0.1这样的IP，连127101011这样的字符串也会被匹配出来。所以在使用时，需要使用转义字符（\）。修改上面的正则表达式格式为：

[1-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}

1.8 分组

小括号字符的第一个作用就是可以改变限定符的作用范围，如”|“、”*“、”A“等。例如下面的表达式中包含小括号：

（six|four)th

这个表达式的意思就是匹配单词sixth或fourth，如果不使用小括号，那么就变成了匹配单词six和fourth了。

小括号的第二个作用就是分组，也就是子表达式。如(\.[0-9]{1,3})，就是对分组(\.[0-9]{1,3})进行重复操作。

1.9 在Python中使用正则表达式语法

在python中使用正则表达式时，是将其作为模式字符串使用。例如：将匹配不是字母的一个字符的正则表达式表示为模式字符串，可以使用下面的代码：

'[^a-zA-Z]'

而如果将匹配以字母m开头的单词的正则表达式转换为模式字符串，则不能直接在其两侧添加引号定界符，例如，下面的代码是不正确的：

'\bm\w*\b'

而是需要将其中的”\"进行转义，转换后的结果为：

'\\bm\\w*\\b'

由于模式字符串中可能包括大量的特殊字符和反斜杠，所以需要写为原生字符串，即在模式字符串前加r或R。例如，上面的模式字符串采用原生字符串表示为：

r'\bm\w*\b'

2、使用re模块实现正则表达式操作

Python提供了re模块，用于实现正则表达式的操作。在实现时，可以使用re模块提供的方法（如search()、match()、findall()等）进行字符串处理，也可以先使用re模块的compile()方法将模式字符串转换为正则表达式对象，然后再使用该正则表达式对象的相关方法来操作字re模块在使用时，需要先应用import语句引入，具体代码如下：

import re

如果在使用模块时，没有将其引入，将会下图的报错：

2.1 匹配字符串

匹配字符串可以使用re模块提供的match()、search()和findall()等方法。

2.1.1 使用match()方法进行匹配

match()方法用于从字符串的开始处进行匹配，如果在起始位置匹配成功，则返回match对象，否则返回None。其语法格式如下：

re.match(pattern,string,[flags])

参数说明：

pattern：表示模式字符串，又要匹配的正则表达式转换而来

string：表示要匹配的字符串

flags：可选参数，表示标志位，用于控制匹配方式，如是否区分字母大小写。常用的标志如下。

常用标志
标志	说明
A或ASCII	对于\w、\W、\b、\B、\d、\D、\s和\S"只进行ASCII匹配（仅适用于Python3.x）
I或IGNORECASE	执行不区分字母大小写的匹配
M或MULTILINE	将^和$用于包括整个字符串的开始和结尾的每一行（默认情况下，仅适用于整个字符串的开始和结尾处）
S或DOTALL	适用（.）字符匹配所有字符，包括换行符
X或VERBOSE	忽略模式字符串中未转义的空格和注释

练习一：匹配字符串是否以“mr”开头，不区分字母大小写

import re
pattern = r'mr_\w+' # 模式字符串
string = 'MR_SHOP mr_shop' # 要匹配的字符串
match = re.match(pattern,string,re.I)# 匹配字符串，不区分大小写
print(match)
string = '项目名称MR_SHOP mr_shop'
match = re.match(pattern,string,re.I) # 匹配字符串，不区分大小写
print(match) # 输出匹配结果

运行结果：

从运行结果中可以看出，字符串“MR_SHOP”以“mr_”开头，将返回一个match对象，而字符串“项目名称MR_SHOP”没有以“mr_”开头，将返回“None”。这是因为match()方法从字符串的开始位置开始匹配，当第一个字母不符号条件时，则不再进行匹配，直接返回None。

match对象中包含了匹配值的位置和匹配数据。其中，要获取匹配值的起始位置可以使用match对象的start()方法；要获取匹配值的结束位置可以使用end()方法；通过span()方法可以返回匹配位置的元组；通过string属性可以获取要匹配的字符串。

import re
pattern = r'mr_\w+' # 模式字符串
string = 'MR_SHOP mr_shop' # 要匹配的字符串
match = re.match(pattern,string,re.I)# 匹配字符串，不区分大小写
print('匹配值的起始位置：',match.start())   # 匹配值的起始位置： 0
print('匹配值的结束位置：',match.end())     # 匹配值的结束位置： 7
print('匹配位置的元组：',match.span())     # 匹配位置的元组： (0, 7)
print('要匹配的字符串:',match.string)      # 要匹配的字符串: MR_SHOP mr_shop

练习二：验证输入的手机号码是否为中国移动的号码

import re # 导入Python的re模块
pattern = r'(13[4-9]\d{8})|(15[01289]\d{8})$'
mobile = '15874997369'
match = re.match(pattern,mobile) # 进行模式匹配
if match == None: # 判断是否为None，为真表示匹配失败
    print(mobile,'不是有效的中国移动手机号码。')
else:
    print(mobile,'是有效的中国移动手机号码。')
mobile = '13334859875'
match = re.match(pattern,mobile) # 进行模式匹配
if match == None: # 判断是否为None，为真表示失败
    print(mobile,'不是有效的中国移动手机号码。')
else:
    print(mobile,'是有效的中国移动手机号码。')

运行结果：

2.1.2 使用search()方法进行匹配

search()方法用于再整个字符串中搜索第一个匹配的值，如果在起始位置匹配成功，则返回match对象，否则返回None。search()方法的语法格式如下：

re.search(pattern,string,[flags])

参数说明：

pattern：表示模式字符串，由要匹配的正则表达式转换而来

string：表示要匹配的字符串

flags：可以选参数，表示标志位，用于控制匹配方式，如是否区分字母大小写。

练习一：搜索第一个以“mr”开头的字符串，不区分字母大小写。

import re
pattern = r'mr_\w+' # 模式字符串
string = "MR_SHOP mr_shop" # 要匹配的字符串
match = re.search(pattern,string,re.I) # 搜索字符串，不区分大小写
print(match)

运行结果：

练习二：验证是否出现危险字符

import re # 导入Python的re模块
pattern = r'(黑客)|(网络攻击)|(监听)|(木马)|(病毒)|(僵尸)'  # 模式字符串
about = '闰土是名技术人，空闲时间喜欢研究黑客技术，也会偶尔编写木马程序。'
match = re.search(pattern,about)  # 进行模式匹配
if match == None: # 判断是否为None,为真表示匹配失败
    print(about,'@ 安全')
else:
    print(about,'@ 出现了危险词汇！')

about = '我要好好学习，我要成为人上人，我要赚大钱。'
match = re.search(pattern,about)  # 进行模式匹配
if match == None: # 判断是否为None,为真表示匹配失败
    print(about,'@ 安全')
else:
    print(about,'@ 出现了危险词汇！')

运行结果：

2.1.3 使用findall()方法进行匹配

findall()方法用于在整个字符串中搜索所有符合正则表达式的字符串，并以列表的形式返回。如果匹配成功，那么返回包含匹配结构的列表；否则返回空列表。findall()方法的语法格式如下：

re.findall(patern,string,[flags])

参数说明：

pattern：表示模式字符串，由要匹配的正则表达式转换而来。

string：表示要匹配的字符串。

flags：可选参数，表示标志位，用于控制匹配方式，如是区分字母大小写。

练习一：搜索以“mr_”开头的字符串

import re
pattern = r'mr_\w+' #模式字符串
string = "MR_SHOP mr_shop" # 要匹配的字符串
match = re.findall(pattern,string,re.I) # 搜索字符串，不区分大小写
print(match) # 输出匹配结果
string = '项目名称MR_SHOP mr_shop'
match = re.findall(pattern,string) # 搜索字符串，区分大小写
print(match)

运行结果：

练习二：如果在指定的模式字符串中，包含分组，则返回与分组匹配的文本列表。

import re
pattern = r'[1-9]{1,3}(\.[0-9]{1,3}){3}'  # 模式字符串
str1 = '127.0.0.1 192.168.2.66'  # 要配置的字符串
match = re.findall(pattern,str1) # 进行模式匹配
print(match)

运行结果：

从上面运行结果中可以看出，并没有得到匹配的IP地址，这是因为在模式字符串中出现了分组，所以得到的结果是根据分组进行匹配的结果，即“（\[0-9:|{1,3}）”匹配的结果。如果想获取整个模式字符串的匹配，可以将整个模式字符串使用一对小括号进行分组，然后在获取结果时，只取返回值列表的每个元素（是一个元组）的第一个元素，代码如下：

import re
pattern = r'([1-9]{1,3}(\.[0-9]{1,3}){3})'  # 模式字符串
str1 = '127.0.0.1 192.168.2.66'  # 要配置的字符串
match = re.findall(pattern,str1) # 进行模式匹配
for item in match:
    print(item[0])

运行结果：

2.2 替换字符串

sub()方法用于实现字符串的替换，语法格式如下：

re.sub(pattern,repl,string,count,flags)

参数说明：

pattern：表示模式字符串，由要匹配的正则表达式转换而来。

relp：表示替换的字符串。

string：表示要被查找替换的原始字符串。

count：可选参数，表示模式匹配后替换的最大次数，默认值为0，表示替换所有的匹配。

flags：可选参数，表示标志位，用于控制匹配方式，如是否区分字母大小写。

练习：替换出现的危险字符

import re
pattern = r'(黑客)|(网络攻击)|(监听)|(木马)|(病毒)|(僵尸)'  # 模式字符串
about = '闰土是名技术人，空闲时间喜欢研究黑客技术，也会偶尔编写木马程序。'
sub = re.sub(pattern,'@_@',about) # 进行模式替换
print(sub)
about = '我要赚钱，我要赚大钱，我要暴富'
sub = re.sub(pattern,"@_@",about) # 进行模式替换
print(sub)

运行结果：

2.3 使用正则表达式分割字符串

split()方法用于实现根据正则表达式分割字符串，并以列表的形式返回。其作用同字符串对象的split()方法类似，所不同的是分割字符由模式字符串指定。split()方法的语法格式如下：

re.split(pattern,string,[maxsplit],[flags])

参数说明：

pattern：表示模式字符串，由要匹配的正则表达式转换而来。

string：表示要匹配的字符串。

maxsplit：可选参数，表7K最大的拆分次数。

flags：可选参数，变送标志位，用于控制匹配方式，如是否区分字母大小写。

练习一：从给定的URL地址中提取出请求地址和各个参数

import re
pattern = r'[?|&]' # 定义分割符
url = 'https://www.lzlj.com/login.jsp?username="xm" &pwd="123567"'
result = re.split(pattern,url) # 分割字符串
print(result)

运行结果：

练习二：输出被@的好友名称（应用正则表达式）

import re
str1 = '@小明你好 @小陈再见 @小黄好漂亮 @小李子来了 @小文子'
pattern = r'\s*@'
list1 = re.split(pattern,str1) # 用空格和@或单独的@分割字符串
print('\n你@的好友有：')
for item in list1:
    if item !="":  # 输出不为空的元素
        print("\n",item) # 输出每个好友名

运行结果：