Python(爬虫)正则表达式

news2024/9/24 21:22:17

正则表达式是文本匹配模式,也就是按照固定模式匹配文本

一、导入

re模块是Python环境的内置模块,所以无需手动安装。直接在文件中导入即可:

import re

二、正则表达式基础知识

. 匹配除换行符以外的任意字符

^ 匹配字符串的开始

$ 匹配字符串的结尾

* 匹配前面的子表达式零次或多次

+ 匹配前面的子表达式一次或多次

? 匹配前面的子表达式零次或一次

{n} n 是一个非负整数。匹配确定的 n 次

{n,} n 是一个非负整数。至少匹配n 次

{n,m} m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次

[xyz] 字符集合。匹配所包含的任意一个字符 [^xyz] 负值字符集合。匹配未包含的任意字符

\d 匹配一个数字字符。等价于 [0-9]

\D 匹配一个非数字字符。等价于 [^0-9]

\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [\f\n\r\t\v]

\S 匹配任何非空白字符。等价于 [^\f\n\r\t\v]

\w 匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'

\W 匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'


例如:

有一个字符串:python pytttthon

正则表达式格式为:pyt{4}hon

那么只有"pytttthon"匹配到

如果正则表达式为:pyt{1,4}hon

那么匹配到的字符串就是python和pytttthon

三、compile

compile()函数用于编译一个字符串形式的正则表达式,将其转换为一个模式对象(Pattern object)。这个模式对象具有匹配(match())、搜索(search())、查找所有(findall())、查找迭代(finditer())以及分割(split())等方法,用于对字符串进行各种基于正则表达式的操作。

案例:

import re
pattern=re.compile(r'\d+')
print(pattern)

上述代码编译了一个字符串:‘\d+’为正则表达式,字符串前的r:代表是原始字符,通常与转义字符联用,当不加r时使用转义字符需要使用两个\,并返回一个对象给pattern。这个正则表达式的意义为:找到一个数字或多个数字的字符串。输出pattern:

re.compile('\\d+')

四、compile中的方法使用

1、match方法

match方法是用来按顺序从头匹配字符串的。不会全部匹配,而是找到第一个符合正则格式的字符串就返回。

案例1:

import re
pattern=re.compile(r'\d+')
m1=pattern.match('one123two457three89')
#因为o不是数字,所以无匹配数据
print(m1)

.match中是要匹配格式的字符串,通过上文,我们可知,这个代码是要找一个带有数字的字符串,且match是从头开始匹配,所以在匹配第一个字符时发现不是数字,所以直接返回。

导致输出结果为:None

案例2,按索引查询:

import re
pattern=re.compile(r'\d+')
m1=pattern.match('one123two457three89',3,6)
print(m1.group())#通过group查看匹配的数据

match函数的参数:(要匹配的字符串,开始索引,结束索引),开始和结束索引是前闭后开集合,也就是包括开始索引字符,不包括结束索引字符。上述代码实现了从索引值为3的字符开始,到6结束,不包括6。.group是查看匹配的数据

输出:123

如果不写.group输出:<re.Match object; span=(3, 6), match='123'>

2、search方法

search方法也是搜索匹配字符串,但是与match不同,他是整体的字符串匹配,但只返回第一个匹配的字符串。

import re
pattern=re.compile(r'\d+')
s1=pattern.search('one123two457three89')
print(s1)

输出:123。因为search不是从头开始严格匹配,所以就会匹配到123。

3、findall方法

findall也是用来检索匹配字符串的,而且他会返回所有符合条件的字符串。并且返回一个列表。

案例:

import re
pattern=re.compile(r'\d+')
f1=pattern.findall('one123two457three89')
print(f1)

上述代码是要匹配所有是数字的字符串,但返回的是一个列表,所以输出形式为:

['123', '457', '89']

4、split方法

split方法是分隔字符串的,并且返回一个列表。这个方法不归属于正则表达式。

比如我们要按逗号分隔一个字符串:

import re
str='a,b,c'
print(str.split(','))

那么我们就可以得到一个列表:['a', 'b', 'c']

但是如果分隔符是多种的,我们就需要用到正则表达式了

案例:

import re
str='a,b;;c d'
pattern=re.compile(r'[\s\,\;]+')
print(pattern.split(str))

如果我们要将str中的abcd作为单独元素分隔,但他们之间的分隔符不一样,那么我们就可以将分隔符写到正则表达式中。上述代码将空格逗号分号作为分隔符写入正则表达式。那么我们将返回的pattern对象打点调用split就可以按照pattern格式分隔,split()括号中填入要分割的字符串。因为字符串中可能两个或多个分隔符连着使用,所以后边加上一个加号用来匹配一次或多次。

输出:['a', 'b', 'c', 'd']

5、sub方法

sub方法是用来替换字符串的,sub方法中有三个参数:参数一:替换后的值,参数二:原值,参数三:替换几个。参数一既可以传值也可以穿函数

案例1:

string='<h1 class="test">1 helloworld</h1>'
pattern=re.compile(r'\d')
print(pattern.sub('2',string))
print(pattern.sub('2',string,1))

上述代码的第一个sub方法是要将string字符串中的所有数字都换成2,第二个sub方法是将string字符串中的第一个数字替换成2。

输出:<h2 class="test">2 helloworld</h2>
           <h2 class="test">1 helloworld</h1>

五、分组

.group方法是将检索出来的字符串按组取出

在写正则表达式时我们可以将字符串进行分组

案例:

string='<h1 class="test">1 helloworld</h1>'
pattern=re.compile(r'<(.\d)\sclass="(.*?)">.*?</(.1)>')#p给组起名字:classname,可以通过名字调用该组
print(pattern.search(string).group(1))

上述代码的结果:test。在写正则表达式时我们可以用括号对字符串进行分组,数字代表第几组,上述代码是要第一组,也就是class后面括号内的内容,在匹配时,匹配到class后边的组括号。

我们也可以给组起名,用分组名

pattern=re.compile(r'<(.\d)\sclass="(?P<classname>.*?)">.*?</(.1)>')
print(pattern.search(string).group('classname'))

上述代码跟上一个案例的结果一样

sub方法补充(参数一传函数时):

sub方法中 参数1函数名,是对字符串的替换规则。参数2是要操作的字符串,将sub(str)的结果传入到第一个参数中,返回第一个参数的结果。将匹配的结果传入func方法中,对传入的数据操作,这个方法的内容就是替换规则。替换后的语句就是func的返回值。

import re
string='<h1 class="test">1 helloworld</h1>'
pattern=re.compile(r'<(.\d)\sclass="(?P<classname>.*?)">.*?</(.1)>')
def func(m):#m是要匹配的格式
    return "after sub:"+m.group('classname')
#sub方法中传入函数
#参数一:函数名,参数二:原字符串
print(pattern.sub(func,string))

上述代码输出:after sub:test

六、防止贪婪模式:?

import re
string='<h1 class="test">1 helloworld</h1>'
pattern=re.compile(r'<.\d\sclass=.*>')
print(pattern.search(string).group())
#'?'防止贪婪匹配
pattern=re.compile(r'<.\d\sclass=.*?>')
print(pattern.search(string).group())

上述代码第一个输出语句为string完整字符串,而第二个输出语句为:<h1 class="test">。因为第一个是贪婪模式,当出现重复的结尾字符时,他会匹配到最后一个>符号,而加上问号,他会匹配到离他最近的那个。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2161464.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HDMI20协议解析_Audio_Sample

HDMI20协议解析_Audio_Sample 1.版本说明 日期作者版本说明202409XX风释雪初始版本 2.概述 当通过HDMI传输音频信号时&#xff0c;Audio_Sample是必须要传输的数据包之一&#xff1b; 通过前端硬件或软件收到PCM原始音频数据后&#xff0c;需要通过Audio_Sample packet发送给…

跟着B战学习JAVA面试八股文

学习链接&#xff1a;https://www.bilibili.com/video/BV1gm411S7EX/?spm_id_from333.337.search-card.all.click&vd_sourceefbaa07876b231ae3225ba8999116807 创建线程的几种方式&#xff1f; 继承Thread类实现Runnable接口实现Callable接口通过线程池来创建线程 为什么…

fiddler抓包09_过滤站点请求

课程大纲 1、 界面 Fiddler列表默认显示所有请求&#xff0c;可以设置过滤&#xff0c;按照规则只显示指定的请求。 界面介绍&#xff1a; “Use Filters”&#xff1a;过滤功能开关。勾选&#xff0c;开启过滤&#xff1b;反之不开启。 “Hosts”&#xff1a;根据站点&#xf…

免费ppt模板哪里找?职场必备这些利器

一眨眼&#xff0c;9月份的尾声渐近&#xff0c;无论是学生还是职场人士&#xff0c;都开始准备着新一轮的演讲和报告。在这个忙碌的时期&#xff0c;一份精美的PPT模板能够大幅提升你的工作效率&#xff0c;让你的演示更加引人入胜。 不用担心高昂的版权费用&#xff0c;市场…

LPDDR4芯片学习(一)——基础知识与引脚定义

一、基础知识 01 dram基本存储单元 当需要将一位数据存储到DRAM中时&#xff0c;晶体管会充电或放电电容。充电的电容表示逻辑高&#xff08;1&#xff09;&#xff0c;放电的电容表示逻辑低&#xff08;0&#xff09;。由于电容会随着时间泄漏电荷&#xff0c;因此需要定期刷…

接口测试Postman关联,断言,前置,参数化用法

一、Postman下载 我们直接搜索Postman官网下载即可 Postman API Platformhttps://www.postman.com/ 二、使用 下载安装完成后我们需要登录注册&#xff0c;按照Postman的指示进行注册登录&#xff0c;不登陆可能有些功能无法使用 登陆完成我们就可以开始对接口进行测试了 …

用于体积医学图像分割的跨视角差异依赖网络|文献速递--基于多模态-半监督深度学习的病理学诊断与病灶分割

Title 题目 Cross-view discrepancy-dependency network for volumetric medical image segmentation 用于体积医学图像分割的跨视角差异依赖网络 01 文献速递介绍 医学图像分割的目标是通过为每个像素分配语义类别&#xff0c;从原始图像中描绘出受试者的解剖结构&#x…

Python项目的质量保证

首先来打个不恰当比喻&#xff0c;你在市场上购买苹果时&#xff0c;挑选最好的苹果相当简单。你可以通过触摸它们来挑选&#xff0c;选择最好的颜色、成熟度和没有可见的伤疤。这个过程称为质量控制——你只选择满足你要求的优质产品。当分拣站里有大量苹果时&#xff0c;事情…

利用F.interpolate()函数进行插值操作

函数简介 功能&#xff1a; 利用插值方法&#xff0c;对输入的张量数组进行上\下采样操作&#xff0c;换句话说就是科学合理地改变数组的尺寸大小&#xff0c;尽量保持数据完整。 torch.nn.functional.interpolate(input, sizeNone, scale_factorNone, modenearest, align_c…

Node.JS有什么用?给谁用?怎么学?通俗易懂,超级详细!

现在&#xff0c;nodejs主要是前端的小伙伴来用的。前端小伙伴也不用说去怎么学node&#xff0c;而是把node当做是一个环境。我们利用这个环境去搭建上层的一些应用&#xff0c;去使用一些工具。就像学习Windows一样&#xff0c;我们没有必要深入了解Windows的每一个细节&#…

【解密!】终端安全管理软件究竟是什么?一文给您揭晓答案!

在数字化时代&#xff0c;随着企业信息化程度的不断提升&#xff0c;网络安全问题日益凸显。 终端作为网络连接的最后一环&#xff0c;其安全性直接关系到整个网络体系的安全与稳定。 那么&#xff0c;终端安全管理软件究竟是什么呢&#xff1f;本文将为您深入解析这一重要话…

Image matting入门

概念 matting就是扣图&#xff0c;本质是预测前景与背景&#xff0c;将前景扣出来。主要应用于影视行业&#xff0c;如拍电影绿幕扣图。和图像分割的区别在于多一个模糊地带&#xff0c;非01分类&#xff0c;变成了预测alpha通道。前景F&#xff0c;背景B&#xff0c;图像I可以…

数据结构与算法——Java实现 11.习题——有序链表去重

目录 82. 删除排序链表中的重复元素 II 方法1 方法2 要知道&#xff0c;每一颗钻石在被发现前&#xff0c;都要经受埋藏尘埃的寂寞时光 —— 24.9.23 82. 删除排序链表中的重复元素 II 给定一个已排序的链表的头 head &#xff0c; 删除原始链表中所有重复数字的节点&#xff0…

ActiveMQ 的传输协议机制

ActiveMQ 通过网络连接器这种连接机制来实现客户端与服务端之间的通信&#xff0c;ActiveMQ支持的传输协议在activeMQ 安装目录的 conf/activemq.xml中的<transportConnectors>标签之内。 ActiveMQ 支持的 client 端和 broker 端的通讯协议有&#xff1a;TCP、NIO、UDP、…

SpringBoot框架下的客户管理策略

1 绪论 1.1研究背景 随着网络不断的普及发展&#xff0c;企业客户管理系统依靠网络技术的支持得到了快速的发展&#xff0c;首先要从员工的实际需求出发&#xff0c;通过了解员工的需求开发出具有针对性的首页、个人中心、员工管理、客户信息管理、行业类型管理、项目信息管理、…

Vue(16)——Vue3.3新特性

defineOptions 在 Vue 3.3 之前&#xff0c;如果需要在 <script setup> 中设置组件名&#xff0c;通常需要在额外的 <script> 标签中使用 Options API 进行配置。defineOptions 是 Vue 3.3 版本中引入的一个宏&#xff08;macro&#xff09;&#xff0c;它主要用于…

Oracle数据库中设置账户密码、创建新用户以及授权操作详解

目录 背景: 1.使用命令行方式进入控制台&#xff1a; 2. 连接Oracle数据库 3.修改Oracle数据库管理员的密码 4. 测试密码修改是否成功 5.创建Oracle数据库中的新用户、设置密码并授权 背景: 最近我安装了Oracle数据库&#xff0c;记录一下使用SQL命令来完成迹象关键操作…

Rust格式化输出宏

【图书介绍】《Rust编程与项目实战》-CSDN博客 《Rust编程与项目实战》(朱文伟&#xff0c;李建英)【摘要 书评 试读】- 京东图书 (jd.com) Rust编程与项目实战_夏天又到了的博客-CSDN博客 我们编写程序的目的就是对输入进行处理&#xff0c;然后将处理结果反馈给用户&#…

react组件入门

react应用程序就是由一个个组件搭建而成。组件有类组件和函数组件两种。 我们之前使用create-react-app创建了app&#xff0c;src下放的就是我们应用的源代码&#xff0c;我们基于这些已生成的文件&#xff0c;来学习和验证组件。 类组件 这里我们创建PostList.js更改这个ap…

C++ bitset(位图)的介绍和使用

文章目录 一、bitset的介绍1. 位图的引入2. 位图的概念3. 位图的应用场景 二、bitset的使用1. 定义方式2. 成员函数3. 运算符重载 一、bitset的介绍 1. 位图的引入 面试题 给40亿个不重复的无符号整数&#xff0c;没排过序。给一个无符号整数&#xff0c;如何快速判断一个数是…