python5 正则表达式

news2025/1/21 6:01:30

Python中的正则表达式是一种强大的工具,用于在文本中搜索、匹配和处理特定模式的字符串。它们通过定义一种模式,使得可以轻松地搜索、替换、提取和验证文本数据,在Python中的正则表达式由re模块提供支持的。

正则表达式通常用于以下任务:

1.搜索与模式匹配的文本:你可以使用正则表达式来查找文本中是否包含特定模式的字符串,例如查找所有电子邮件地址或电话号码。

2.替换文本:正则表达式可以用于替换文本中的特定模式。例如,你可以将所有匹配的单词替换为另一个单词。

3.提取信息:你可以使用正则表达式从文本中提取特定模式的信息。例如,从文本中提取所有日期或数字。

4.验证输入:正则表达式可以用于验证输入是否符合特定的模式。例如,验证用户输入的电子邮件地址是否具有正确的格式。

1.匹配字符串

Python 中的re模块是一个用于字符串中正则表达式操作的标准库,以下代码演示了如何使用 re.match() 函数来查找字符串中与给定模式匹配的部分。

代码示例:

# match()函数的使用

# \w匹配字母数字及下划线
# \s匹配任意空白字符,等价于 [\t\n\r\f].
# \d匹配任意数字,等价于 [0-9]
# [...]用来表示一组字符,单独列出:[amk] 匹配 'a','m'或'k'
# [^...]不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。
# ^匹配字符串的开头
# {n}精确匹配n个前面表达式。
import re
content='Hello 123 4567 World_This is a Regex Demo'
print(len(content))  # 41

# 使用re.compile()函数创建一个正则表达式模式对象pattern,模式是 r'^Hello\s\d\d\d\s\d{4}\s\w{10}'。该模式用来匹配以"Hello"开头,后面跟着一个空白字符,然后是三个数字,再一个空白字符,接着是四个数字,再是一个空白字符,最后是十个字母数字或下划线的字符串
pattern=re.compile(r'^Hello\s\d\d\d\s\d{4}\s\w{10}')
# 调用re.match(pattern, content)对content进行匹配,返回结果保存在result中
result=re.match(pattern,content)

print(result)  # 打印匹配结果,结果是一个匹配对象
print(result.group())  # 打印匹配对象中与模式匹配的字符串
print(result.span())  # 打印匹配的位置,即匹配的字符串在原始字符串中的起始位置和结束位置

运行结果:

2.正则表达式匹配目标

#匹配目标

#group()会输出完整的匹配结果,而group(1)会输出第一个被()包围的匹配结果
import re
content='Hello 1234567 World_This is a Regex Demo'  # 被匹配的文本字符串
pattern=re.compile(r'^Hello\s(\d{7})\s(\w{5})')  # 编译后的正则表达式对象,其含义是:
     # ^Hello:匹配以 "Hello" 开头的字符串
     # \s:匹配一个空白字符(例如空格)
	 # (\d{7}):匹配七位数字,并将这七位数字作为一个分组。
	 # \s:再次匹配一个空白字符
	 # (\w{5}):匹配五个字母数字或下划线字符,并将这五个字符作为一个分组
result = re.match(pattern,content)  # 执行匹配
print(result)
print(result.group())
print(result.group(1))
print(result.group(2))
print(result.span())

运行结果:

3.正则表达式中的贪婪匹配与非贪婪匹配

在正则表达式中,贪婪匹配非贪婪匹配是两种常见的匹配策略,它们决定了正则表达式如何从字符串中匹配字符。**贪婪匹配(Greedy matching)**是正则表达式的默认行为。在贪婪匹配模式下,正则表达式会尽可能多地匹配字符,直到无法继续匹配为止。即使这种匹配超过了必要的最小匹配,它也会继续尝试匹配更多的字符。非贪婪匹配(Non-greedy matching),又称最小匹配或懒惰匹配,是通过在量词(如*, +, ?, {n,})后面加上一个?来启用的。在非贪婪模式下,正则表达式会尽可能少地匹配字符。

1.贪婪匹配

代码示例:

#贪婪匹配与非贪婪匹配

# 01贪婪匹配
import re
content='Hello 1234567 World_This is a Regex Demo'
# 编译一个正则表达式模式pattern,模式是 r'^He.*(\d+).*Demo$'
# ^He:表示字符串以 "He" 开头。
# .*:表示匹配任意个(包括0个)任意字符,. 表示任意字符,* 表示任意次数,这是一个贪婪模式,会尽可能多地匹配字符
# (\d+):括号表示一个分组,\d+ 表示匹配一个或多个数字。由于前面的 .* 是贪婪的,所以这个表达式会尽可能少地匹配数字,只要能满足整个表达式的匹配
# .*Demo$:再次使用 .* 进行贪婪匹配,Demo$ 表示字符串以 "Demo" 结尾
pattern=re.compile(r'^He.*(\d+).*Demo$')
result=re.match(pattern,content)
print(result)  # 查看匹配结果,若匹配成功,则result是一个匹配对象;若失败,则为 None
print(result.group())  # 获取整个匹配的字符串,应输出'Hello 1234567 World_This is a Regex Demo'
print(result.group(1))  # 获取第一个分组的内容,即 \d+ 匹配的部分。因为 .* 的贪婪性,它尽可能地匹配了除最后一个数字以外的所有内容,所以group(1)应该只包含 '7'

运行结果:

2.非贪婪匹配

代码示例:

#02 非贪婪匹配
import re
content='Hello 1234567 World_This is a Regex Demo'
# He:匹配文本中的"Hello"的开头的"He"
# .*?:这是一个非贪婪的匹配,匹配尽可能少的任意字符直到遇到下一个符合模式的字符。因为它后面跟着\d+,所以它会停在数字开始的地方
# (\d+):这是一个捕获组,用于匹配一个或多个数字(\d+),并将这些数字作为一个分组保存,以便后面可以单独访问。
# .*:匹配从数字之后到字符串末尾前的任意字符
# Demo$:匹配字符串末尾的"Demo",$表示字符串的结束。
pattern=re.compile(r'He.*?(\d+).*Demo$')
result=re.match(pattern,content)
print(result)
print(result.group())
print(result.group(1))  # group(1)返回第一个捕获组的内容,在这个例子中,是字符串中的第一串数字1234567。

运行结果:

3.注意

需要注意的是,如果匹配的结果在字符串结尾,.*?就有可能匹配不到任何内容,因为它会匹配尽可能少的字符,例如:

import re
content='https://www.baidu.com/search/error.html'
result1=re.match(r'^https.*search/(.*)',content)  # 贪婪匹配模式
result2=re.match(r'https.*search/(.*?)',content)  # 非贪婪匹配模式
print("result1:  ", result1.group(1))
print("result2:  ",result2.group(1))

运行结果:

4.正则表达式中的修饰符

正则表达式可以包含一些可选标志修饰符来控制匹配的模式,而修饰符被指定为一个可选的标志。以下代码演示了如何使用正则表达式的修饰符来控制匹配的模式,特别是re.S修饰符的用法。

#修饰符

import re
content = '''Hello 1234567 World_This
is a Regex Demo'''

# r'^He.*?(\d+).*?Demo$':这是正则表达式模式:
# ^He:^表示匹配必须从字符串的开始处开始,He则匹配字符串开始的"Hello"中的"He"
# .*?:非贪婪模式匹配任意字符,尽可能少的匹配直到下一个符合条件的字符
# (\d+):捕获组,匹配一个或多个数字
# .*?:再次使用非贪婪模式匹配任意字符,直到遇到最后的"Demo"
# Demo$:匹配字符串的末尾,必须以"Demo"结束
# re.S(或re.DOTALL):这个修饰符使.特殊字符能够匹配任何字符,包括换行符(默认情况下,.不匹配换行符)
pattern=re.compile(r'^He.*?(\d+).*?Demo$',re.S)
result=re.match(pattern,content)
print(result.group(1))  # 打印第一个捕获组的内容,即字符串中的数字1234567

# 由于使用了re.S修饰符,正则表达式可以跨越多行来找到匹配项。如果没有这个修饰符,.字符就不能匹配换行符,导致匹配失败。在这个例子中,使用re.S允许.*?匹配包括换行符在内的任意字符,从而正确地匹配并捕获所需的数字

运行结果:

5.转义匹配

使用Python的正则表达式库来匹配具有特殊字符的字符串。

代码示例:

# 转义匹配
import re
content='(百度)www.baidu.com'
# \(百度\):因为圆括号()在正则表达式中是特殊字符(用于定义捕获组),所以需要使用反斜杠\进行转义,使其表示字面意义上的括号
# www\.baidu\.com:同样的,点.也是一个特殊字符,它通常用来匹配除换行符之外的任何单个字符。在这里,我们需要匹配字面上的点,因此使用\.进行转义
pattern=re.compile(r'\(百度\)www\.baidu\.com')
result=re.match(pattern,content)
print(result.group())

运行结果:

6 search()方法匹配字符串

# search()
import re
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'

pattern=re.compile('He.*?(\d+).*Demo')
# 使用search方法在content字符串中搜索第一个符合pattern定义的模式的匹配。不同于match方法,search不要求模式从字符串的开头开始匹配,它会在整个字符串中搜索匹配
result=re.search(pattern,content)
print(result.group())
print(result.group(1))

运行结果:

7.使用正则表达式根据要求匹配歌手和歌曲

import re
# html这个字符串包含了HTML代码片段,其中包括了一个包含音乐列表的 <div> 元素
html = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>
        </li>
    </ul>
</div>'''

# 正则表达式模式:
# <li.*? 匹配一个 <li> 标签及其可能的其他属性。
# active 匹配 class 属性中包含了 active 字符串的 <li> 元素。
# singer="(.*?)" 匹配 singer 属性值中的歌手名字。
# >(.*?)</a> 匹配了 <a> 标签中的文本内容,也就是歌曲名字。
# html 是待匹配的字符串。
# re.S 是一个标志,指定了在匹配中应该将换行符也视为普通字符。
result=re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S)

if result:
    print(result.group(1), result.group(2))

运行结果:

8.正则表达式中的sub()方法

使用Python中re模块的 sub()方法,用于替换字符串中与指定正则表达式模式匹配的部分。

代码示例:

#sub()方法
import re
content = '54aK54yr5oiR54ix5L2g'
# 这行代码使用了re模块的sub()方法来替换字符串content中匹配正则表达式模式\d+的部分为空字符串
# \d+ 是一个正则表达式模式,匹配一个或多个数字字符。
# ''是要替换匹配部分的内容,这里是空字符串,表示删除匹配到的数字
# content是待处理的字符串。
result=re.sub('\d+','',content)
print(result)

运行结果:

9.正则表达式处理日志内容

# 定义一个字符串变量log,其中包含一个日志条目,记录了日期、时间、日志级别和消息内容
log='2017-06-06 15:06:16,148 - root - DEBUG - logger debug message'
print(log.split('-'))  # '-'是指定的分隔符,split()方法将根据这个分隔符来拆分字符串。将日志条目中的每个部分分隔开,并以列表的形式打印出来。

运行结果:

10.正则表达式中的findall()函数

# findall() 函数,用于在给定的字符串中查找所有与指定正则表达式模式匹配的部分。

import re

# 这行代码定义了一个字符串content,其中包含了一个HTML锚点链接。HTML锚点链接是一种在网页中创建超链接的方式,它允许用户点击链接跳转到同一页面的不同位置。这些位置通常是页面上的特定部分,例如标题、段落或者其他元素。
content='<a href="http://www.baidu.com">baidu</a>'
# 使用 re.compile()函数创建一个正则表达式对象 pattern,该对象用于匹配HTML锚点链接的<a>标签
# <a href="(.*?)">(.*?)</a>是一个正则表达式模式,它匹配了一个<a>标签,其中包含了href属性和链接文本
# (.*?) 是非贪婪匹配,用于捕获 href 属性值和链接文本
pattern=re.compile('<a href="(.*?)">(.*?)</a>')
# findall()函数在给定的字符串content中查找所有与正则表达式模式匹配的部分,并返回一个包含所有匹配项的列表
result=re.findall(pattern,content)
print(result)
print(result[0])  # 打印出了结果列表中的第一个匹配项
print(result[0][0])  # 打印出了第一个匹配项中的第一个捕获组,即链接的href属性值。href属性是 HTML<a>元素中的一个属性,用于指定超链接的目标地址(Hypertext REFerence)

运行结果:


以上内容总结自网络,整理不易,如有帮助欢迎转发,我们下次再见!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1837774.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HTML5休闲小游戏《城堡守卫传说》源码,引流、刷广告利器

HTML5休闲小游戏《城堡守卫传说》源码&#xff0c;直接把源码上传到服务器就能使用了&#xff01; 下载链接&#xff1a;https://www.huzhan.com/code/goods467802.html

百度智能云推出智能运维工具,云助手让云服务器运维更简单

为了提升云服务器执行命令的效率&#xff0c;百度智能云发布了 SmartTerm 远程连接终端。不止于此&#xff0c;为了更加极致地提升运维效率&#xff0c;我们又推出了「云助手」这款轻量快捷的运维工具。 ​ 只有做过云服务器运维的人才知道管理上万台云服务器有多崩溃。在海量…

帕金森病患者应对腿部无力的方法

帕金森病是一种慢性神经系统退化性疾病&#xff0c;主要影响运动系统&#xff0c;导致运动功能障碍。患者常见的症状包括肌肉僵硬、运动迟缓、静止性震颤和姿势不稳。这些症状可能会导致患者在行走时感到腿软无力&#xff0c;尤其是在起步或转弯时更为明显。 帕金森病患者在日常…

[Vue3]从入门到精通-持续更新中

一&#xff1a;Built-ins 1.Dom传送门&#xff1a; <script setup> const msg "Hello World"; </script> ​ <template><!-- 使用 teleport 将内容渲染到 body 的子元素中 --><teleport to"body"><span>{{ msg }}&…

STM32F407之移植LVGL(8.4.0)

STM32F407之移植LVGL(8.4.0) 目录 概述 1 系统软硬件 1.1 软件版本信息 1.2 ST7796-LCD 1.3 MCU IO与LCD PIN对应关系 1.4 MCU IO与Touch PIN对应关系 2 认识LVGL 2.1 LVGL官网 2.2 下载V8.4.0 3 移植LVGL 3.1 硬件驱动实现 3.2 添加LVGL库文件 3.3 移植和硬件相关…

初识es(elasticsearch)

初识elasticsearch 什么是elasticsearch&#xff1f;&#xff1a; 一个开源的分部署搜索引擎、可以用来实现搜索、日志统计、分析、系统监控等功能。 什么是文档和词条&#xff1f; 每一条数据就是一个文档对文档中的内容进行分词&#xff0c;得到的词语就是词条 什么是正向…

【设计文档】软件详细设计说明书案例文档(word直接套用)

一、 关于本文档 &#xff08;一&#xff09; 编写目的 &#xff08;二&#xff09; 预期读者 二、 项目概要 &#xff08;一&#xff09; 建设背景 &#xff08;二&#xff09; 建设目标 &#xff08;三&#xff09; 建设内容 三、 总体设计 &#xff08;一&#xff0…

MySQL中的客户端选项(四)

用于连接到服务器的传输协议。当其他连接参数通常导致使用的协议不是您想要的协议时&#xff0c;它很有用。 不缓存每个查询的结果&#xff0c;而是实时地打印每一行&#xff0c;如果输出被挂起&#xff0c;这可能会减慢服务器的速度。有了这个选项&#xff0c;mysql就不会使用…

QT基础 - 窗口弹窗

目录 零. 窗口简介 一. 普通窗口 二. 无边框窗口 三. 顶层窗口 四. 模态对话框 五. 非模态对话框 六. 消息对话框 七. 文件对话框 八. 颜色对话框 九. 进度对话框 十. 总结 零. 窗口简介 在 Qt中&#xff0c;普通窗口是指程序的整体界面&#xff0c;可以包含标题栏、…

GIS设计与开发课程设计(三)

环境&#xff1a;Windows10专业版 ArcGIS10.2 ArcEngine10.2 Visual Studio 2019 因每个人电脑版本和软件版本不同&#xff0c;运行的结果可能不同 系列文章&#xff1a; GIS设计与开发课程设计&#xff08;一&#xff09; GIS设计与开发课程设计&#xff08;二&#xff09;…

SpringMVC系列三: Postman(接口测试工具)

接口测试工具 &#x1f49e;Postman(接口测试工具)Postman介绍Postman是什么Postman相关资源Postman安装Postman快速入门Postman完成Controller层测试其它说明 &#x1f49e;课后作业 上一讲, 我们学习的是SpringMVC系列二: 请求方式介绍 现在打开springmvc项目 &#x1f49e…

公司面试题总结(六)

31.说一说 webpack 的构建流程是什么&#xff1f; ⚫ 初始化流程&#xff1a; ◼ 从配置文件和 Shell 语句中读取与合并参数 ◼ 初始化需要使用的插件和配置插件等执行环境所需要的参数 ⚫ 编译构建流程&#xff1a; ◼ 从 Entry 发出&#xff0c;针对每个 Module 串行…

本地部署Ollama+qwen本地大语言模型Web交互界面

什么是 Ollama WebUI&#xff1f; Ollama WebUI 已经更名为 Open WebUI. Open WebUI 是一个可扩展、功能丰富且用户友好的自托管 WebUI&#xff0c;旨在完全离线操作。它支持各种 LLM 运行程序&#xff0c;包括 Ollama 和 OpenAI 兼容的 API。 Ollama WebUI 是一个革命性的 L…

酷开会员 | 酷开系统将艺术、回忆与浪漫融入生活

随着审美观念的改变以及技术的提升&#xff0c;消费者对家用电视的需求已不局限于单纯的功能性&#xff0c;外观设计带来的美感与视觉效果也愈发成为消费者关注的焦点。在画质和功能逐步完善的当下&#xff0c;电视中的壁纸模式&#xff0c;则能让其更好地融入家居环境&#xf…

深度学习入门5——为什么神经网络可以学习?

在理解神经网络的可学习性之前&#xff0c;需要先从数学中的导数、数值微分、偏导数、梯度等概念入手&#xff0c;从而理解为什么神经网络具备学习能力。 1.数值微分的定义 先从导数出发理解什么是梯度。某一点的导数直观理解就是在该点的切线的斜率。在数学中导数表示某个瞬…

AI智能盒子助力打造垃圾发电AI应用标杆!

垃圾焚烧发电作为一种新型的垃圾处理方式&#xff0c;能将其转化为电能&#xff0c;实现资源的再利用&#xff0c;成为实现节能环保的重要方式之一。为有效落实环境、安全、健康及社会责任管理体系&#xff0c;知名垃圾发电投资运营商光大环保能源致力于广泛利用科技&#xff0…

ubuntu永久换镜像源详细方法

1.查看ubuntu的版本&#xff0c;不同的版本对应的不同的镜像源&#xff08;下面会讲到&#xff0c;先按步骤操作即可&#xff09; cat /etc/issue 2.先备份一个&#xff0c;防止更改错误 cp /etc/apt/sources.list /etc/apt/sources.list.backup 3.备份好之后删除原有的sour…

Linux系统之mtr命令的基本使用

Linux系统之mtr命令的基本使用 一、mtr命令介绍二、mtr命令使用帮助2.1 mtr命令的帮助信息2.2 mtr帮助信息解释 三、安装mtr工具四、mtr命令的基本使用4.1 直接使用4.2 设定ping次数4.3 禁用DNS解析4.4 显示IP地址4.5 调整间隔 五、总结 一、mtr命令介绍 mtr命令是一个网络诊断…

Vulnhub——AI: WEB: 1

渗透复现 &#xff08;1&#xff09;目录扫描爆破出隐藏页面info.php和传参页面&#xff0c;泄露网站绝对路径并且存在SQL注入点 &#xff08;2&#xff09;已知网站绝对路径&#xff0c;存在SQL注入点&#xff0c;尝试OS-shell写入 &#xff08;3&#xff09;OS-shell写入后…

MySQL----redo log重做日志原理及流程

重做日志 redo log&#xff1a;重做日志&#xff0c;用于记录事务操作的变化&#xff0c;确保事务的持久性。redo log是在事务开始后就开始记录&#xff0c;不管事务是否提交都会记录下来&#xff0c;在异常发生时&#xff08;如数据持久化过程中掉电&#xff09;&#xff0c;…