Python 正则表达式使用指南

news2025/1/21 11:32:13

Python 正则表达式使用指南

正则表达式(Regular Expression, 简称 regex)是处理字符串和文本的强大工具。它使用特定的语法定义一组规则,通过这些规则可以对文本进行匹配、查找、替换等操作。Python 提供了 re 模块,使得正则表达式的功能易于使用。本文将详细介绍 Python 中如何使用正则表达式,并通过代码示例帮助新手理解正则表达式的基本概念和应用。

在这里插入图片描述

1. 正则表达式基础知识

正则表达式的核心是用一种特殊的语法来定义文本模式,这种模式可以用来匹配或查找字符串。通过正则表达式,可以快速完成复杂的字符串查找和处理任务。理解正则表达式最基本的规则是使用它的关键。

1.1 常用的正则表达式符号

以下是一些常见的正则表达式符号:

  • .:匹配任意单个字符(除了换行符)。
  • ^:匹配字符串的开头。
  • $:匹配字符串的结尾。
  • *:匹配前面的字符零次或多次。
  • +:匹配前面的字符一次或多次。
  • ?:匹配前面的字符零次或一次(非贪婪模式)。
  • {n}:匹配前面的字符 n 次。
  • {n, m}:匹配前面的字符 nm 次。
  • [abc]:匹配 abc 中的任意一个字符。
  • [^abc]:匹配除了 abc 之外的任意字符。
  • |:表示“或”操作。
  • \d:匹配任意数字,相当于 [0-9]
  • \D:匹配任意非数字字符。
  • \w:匹配字母、数字或下划线,相当于 [A-Za-z0-9_]
  • \W:匹配非字母、数字、下划线的字符。
  • \s:匹配空白字符,如空格、制表符等。
  • \S:匹配非空白字符。

1.2 正则表达式的基本语法

要使用正则表达式首先需要理解其语法。例如,表达式 \d{3}-\d{4} 可以用来匹配一个 3 位数字加一个连字符再加 4 位数字的格式(如电话号码“123-4567”)。在 Python 中,正则表达式必须使用原始字符串(即在字符串前面加上 r),否则会引起转义字符错误。

pattern = r"\d{3}-\d{4}"

2. Python 正则表达式 re 模块简介

Python 的 re 模块提供了多种正则表达式的功能,主要包括匹配、搜索、替换等操作。re 模块的核心函数包括:

  • re.match():从字符串开头匹配正则表达式。
  • re.search():在整个字符串中查找第一个匹配的子串。
  • re.findall():找到所有匹配的子串,并返回一个列表。
  • re.finditer():找到所有匹配的子串,并返回一个迭代器。
  • re.sub():替换所有匹配的子串。
  • re.compile():预编译正则表达式,提高性能。

下面将详细讲解这些函数的使用方法。

3. re.match():从字符串开头匹配

re.match() 用于检查字符串是否以某个模式开头。如果匹配成功,它会返回一个 Match 对象,否则返回 None

示例

import re

text = "Hello World"
pattern = r"Hello"

# 从字符串开头匹配
match = re.match(pattern, text)
if match:
    print("匹配成功:", match.group())
else:
    print("匹配失败")

输出

匹配成功: Hello

在上面的示例中,re.match() 从字符串的开头开始匹配 Hello,成功匹配后返回 Match 对象。

4. re.search():在字符串中查找匹配

re.search() 用于在整个字符串中查找第一个匹配的子串,而不仅仅是开头部分。

示例

import re

text = "Say Hello World"
pattern = r"Hello"

# 在整个字符串中查找
search = re.search(pattern, text)
if search:
    print("找到匹配:", search.group())
else:
    print("没有找到匹配")

输出

找到匹配: Hello

re.search() 在字符串中找到 Hello,即使它不在开头。

5. re.findall():查找所有匹配

re.findall() 会返回所有匹配的子串组成的列表,适用于查找多个匹配项的情况。

示例

import re

text = "123-4567, 234-5678, 345-6789"
pattern = r"\d{3}-\d{4}"

# 查找所有匹配项
matches = re.findall(pattern, text)
print("找到的匹配项:", matches)

输出

找到的匹配项: ['123-4567', '234-5678', '345-6789']

在这里,re.findall() 找到了字符串中所有符合 \d{3}-\d{4} 格式的内容。

6. re.finditer():返回匹配迭代器

re.finditer()re.findall() 类似,但是返回一个迭代器,每个元素是一个 Match 对象,适合需要逐个处理每个匹配结果的情况。

示例

import re

text = "abc123def456ghi789"
pattern = r"\d+"

# 查找所有匹配项并迭代
matches = re.finditer(pattern, text)
for match in matches:
    print("找到的匹配项:", match.group())

输出

找到的匹配项: 123
找到的匹配项: 456
找到的匹配项: 789

7. re.sub():替换匹配项

re.sub() 可以将匹配的部分替换为指定的内容,非常适合对字符串进行清理和格式化。

示例

import re

text = "Call me at 123-4567 or 987-6543."
pattern = r"\d{3}-\d{4}"

# 替换电话号码为 [REDACTED]
new_text = re.sub(pattern, "[REDACTED]", text)
print("替换结果:", new_text)

输出

替换结果: Call me at [REDACTED] or [REDACTED].

在这个示例中,re.sub()[REDACTED] 替换了所有电话号码。

8. re.compile():预编译正则表达式

对于需要多次使用的正则表达式,使用 re.compile() 可以提高效率。re.compile() 会预编译正则表达式并返回一个 Pattern 对象,可以使用该对象执行各种正则操作。

示例

import re

text = "Email: abc@example.com and xyz@test.com"
pattern = re.compile(r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}")

# 使用预编译对象进行匹配
matches = pattern.findall(text)
print("找到的邮箱地址:", matches)

输出

找到的邮箱地址: ['abc@example.com', 'xyz@test.com']

在这里,我们使用 re.compile() 编译了一个邮箱匹配的正则表达式,之后可以通过 Pattern 对象多次使用该正则表达式。

9. 正则表达式的常见应用示例

9.1 验证电子邮件地址

import re

email = "test@example.com"
pattern = r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$"
if re.match(pattern, email):
    print("这是一个有效的邮箱地址")
else:
    print("无效的邮箱地址")

9.2 提取电话号码

import re

text = "Please call 123-4567 or 987-6543 for more information."
pattern = r"\d{3}-\d{4}"
matches = re.findall(pattern, text)
print("提取到的电话号码:", matches)

9.3 替换敏感词

import re

text = "This is a bad

 example of a bad word."
pattern = r"bad"
clean_text = re.sub(pattern, "[censored]", text)
print("替换敏感词后:", clean_text)

10. 总结

正则表达式是处理文本的强大工具,能够简洁高效地完成复杂的字符串匹配和处理任务。在 Python 中使用 re 模块的 matchsearchfindallfinditersub 等方法可以方便地操作字符串。掌握正则表达式的基本语法和常用方法,新手也能灵活运用正则表达式来处理实际应用中的各种字符串匹配问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2242949.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Golang | Leetcode Golang题解之第565题数组嵌套

题目&#xff1a; 题解&#xff1a; func arrayNesting(nums []int) (ans int) {n : len(nums)for i : range nums {cnt : 0for nums[i] < n {i, nums[i] nums[i], ncnt}if cnt > ans {ans cnt}}return }

微服务day10-Redis面试篇

Redis主从 搭建主从集群 建立集群时主节点会生成同一的replicationID,交给各个从节点。 集群中的缓冲区是一个环型数组&#xff0c;即若从节点宕机时间过长&#xff0c;可能导致命令被覆盖。 主从集群优化 哨兵原理 哨兵是一个集群来确保哨兵不出现问题。 服务状态监控 选举…

排序算法 -快速排序

文章目录 1. 快速排序&#xff08;Quick Sort&#xff09;1.1、 简介1.2、 快速排序的步骤 2. Hoare 版本2.1、 基本思路1. 分区&#xff08;Partition&#xff09;2. 基准选择&#xff08;Pivot Selection&#xff09;3. 递归排序&#xff08;Recursive Sorting&#xff09; 2…

01、Spring MVC入门程序

概述&#xff1a; MVC(M&#xff1a;模型、V&#xff1a;视图、 C&#xff1a;控制器) 三层架构&#xff1a; 表现层&#xff08;Web层&#xff09;业务层&#xff08;Service层&#xff09;负责业务逻辑处理持久层&#xff08;Dao层&#xff09;负责和数据库交互 Spring MVC 作…

7.揭秘C语言输入输出内幕:printf与scanf的深度剖析

揭秘C语言输入输出内幕&#xff1a;printf与scanf的深度剖析 C语言往期系列文章目录 往期回顾&#xff1a; VS 2022 社区版C语言的安装教程&#xff0c;不要再卡在下载0B/s啦C语言入门&#xff1a;解锁基础概念&#xff0c;动手实现首个C程序C语言概念之旅&#xff1a;解锁关…

Android Osmdroid + 天地图 (一)

Osmdroid 天地图 前言正文一、配置build.gradle二、配置AndroidManifest.xml三、获取天地图的API Key① 获取开发版SHA1② 获取发布版SHA1 四、请求权限五、显示地图六、源码 前言 Osmdroid是一款完全开源的地图基本操作SDK&#xff0c;我们可以通过这个SDK去加一些地图API&am…

️️一篇快速上手 AJAX 异步前后端交互

AJAX 1. AJAX1.1 AJAX 简介1.2 AJAX 优缺点1.3 AJAX 前后端准备1.4 AJAX 请求基本操作1.5 AJAX 发送 POST 请求1.6 设置请求头1.7 响应 JSON 数据1.8 AJAX 请求超时与网络异常处理1.9 取消请求1.10 Fetch 发送 Ajax 请求 2. jQuery-Ajax2.1 jQuery 发送 Ajax 请求&#xff08;G…

2024年11月16日 星期六 重新整理Go技术

今日格言 坚持每天进步一点点~ 一个人也可以是一个团队~ 学习全栈开发, 做自己喜欢的产品~~ 简介 大家好, 我是张大鹏, 今天是2024年11月16日星期六, 很高兴在这里给大家分享技术. 今天又是休息的一天, 做了很多的思考, 整理了自己掌握的技术, 比如Java, Python, Golang,…

炼码LintCode--数据库题库(级别:简单;数量:55道)--刷题笔记_02

目录 炼码LintCode--数据库题库&#xff08;级别&#xff1a;简单&#xff1b;数量&#xff1a;55道&#xff09;--刷题笔记_023618 耗时前三的任务&#xff08;日期差&#xff09;题&#xff1a;sql&#xff1a;解释&#xff1a;DATEDIFF 天数差order by 别名TIMESTAMPDIFF 月…

洛谷刷题日记||基础篇8

#include <iostream> #include <vector> using namespace std;int N, M; // N为行数&#xff0c;M为列数 vector<vector<char>> field; // 表示田地的网格&#xff0c;每个元素是W或. vector<vector<bool>> visited; // 用来记录网格是否访…

在Ubuntu22.04上源码构建ROS noetic环境

Ubuntu22.04上源码构建ROS noetic 起因准备环境创建工作目录并下载源码安装编译依赖包安装ros_comm和rosconsole包的两个补丁并修改pluginlib包的CMakeLists的编译器版本编译安装ROS noetic和ros_test验证 起因 最近在研究VINS-Mono从ROS移植到ROS2&#xff0c;发现在编写feat…

从dos上传shell脚本文件到Linux、麒麟执行报错“/bin/bash^M:解释器错误:没有那个文件或目录”

[rootkylin tmp]#./online_update_wars-1.3.0.sh ba51:./online_update_wars-1.3.0.sh:/bin/bash^M:解释器错误:没有那个文件或目录 使用scp命令上传文件到麒麟系统&#xff0c;执行shell脚本时报错 “/bin/bash^M:解释器错误:没有那个文件或目录” 解决方法&#xff1a; 执行…

react+hook+vite项目使用eletron打包成桌面应用+可以热更新

使用Hooks-Admin的架构 Hooks-Admin: &#x1f680;&#x1f680;&#x1f680; Hooks Admin&#xff0c;基于 React18、React-Router V6、React-Hooks、Redux、TypeScript、Vite2、Ant-Design 开源的一套后台管理框架。https://gitee.com/HalseySpicy/Hooks-Adminexe桌面应用…

华东师范大学数学分析第五版PDF习题答案上册及下册

“数学分析”是数学专业最重要的一门基础课程&#xff0c;也是报考数学类专业硕士研究生的专业考试科目。为了帮助、指导广大读者学好这门课程&#xff0c;编者编写了与华东师范大学数学科学学院主编的《数学分析》(第五版)配套的辅导用书&#xff0c;以帮助读者加深对基本概念…

FineBI漏斗图分析转化率计算,需要获取当前节点和上一节点的转化率,需要获取错行值实现方案

FineBI漏斗图分析转化率计算&#xff0c;当前节点和上一节点的转化率&#xff0c;需要获取错行值 下面这张图大家很熟悉吧&#xff0c;非常经典的漏斗转化率分析。 从漏斗图看到需要计算转化率&#xff0c;都需要获取上一步漏斗的值&#xff0c;比如计算上一个省份的门店数量…

Solana 区块链的技术解析及未来展望 #dapp开发#公链搭建

随着区块链技术的不断发展和应用场景的扩展&#xff0c;性能和可拓展性成为各大公链竞争的关键因素。Solana&#xff08;SOL&#xff09;因其高吞吐量、低延迟和低成本的技术特性&#xff0c;在众多区块链项目中脱颖而出&#xff0c;被誉为“以太坊杀手”之一。本文将从技术层面…

FPGA开发-逻辑分析仪的应用-数字频率计的设计

目录 逻辑分析仪的应用 数字频率计的设计 -基于原理图方法 主控电路设计 分频器设计 顶层电路设计 数字系统开发不但需要进行仿真分析&#xff0c;更重要的是需要进行实际测试。 逻辑分析仪的应用 测试方式&#xff1a;&#xff08;1&#xff09;传统的测试方式&#…

基于python Django的boss直聘数据采集与分析预测系统,爬虫可以在线采集,实时动态显示爬取数据,预测基于技能匹配的预测模型

本系统是基于Python Django框架构建的“Boss直聘”数据采集与分析预测系统&#xff0c;旨在通过技能匹配的方式对招聘信息进行分析与预测&#xff0c;帮助求职者根据自身技能找到最合适的职位&#xff0c;同时为招聘方提供更精准的候选人推荐。系统的核心预测模型基于职位需求技…

kubesphere环境-本地Harbor仓库+k8s集群(单master 多master)+Prometheus监控平台部署

前言&#xff1a;半月前在公司生产环境上离线部署了k8s集群Victoria Metrics(二开版)自研版夜莺 监控平台的搭建&#xff0c;下面我租用3台华为云服务器演示部署kubesphere环境-本地Harbor仓库k8s集群&#xff08;单master节点 & 单master节点&#xff09;Prometheus监控部…

车载诊断框架 --- UDS小白入门篇

我是穿拖鞋的汉子&#xff0c;魔都中坚持长期主义的汽车电子工程师。 老规矩&#xff0c;分享一段喜欢的文字&#xff0c;避免自己成为高知识低文化的工程师&#xff1a; 所有人的看法和评价都是暂时的&#xff0c;只有自己的经历是伴随一生的&#xff0c;几乎所有的担忧和畏惧…