Python正则表达式一点通

news2024/11/15 18:36:24

正则作为处理字符串的一个实用工具,在Python中经常会用到,比如爬虫爬取数据时常用正则来检索字符串等等。正则表达式已经内嵌在Python中,通过导入re模块就可以使用,作为刚学Python的新手大多数都听说”正则“这个术语。

今天来给大家分享一份关于比较详细的Python正则表达式宝典,学会之后你将对正则表达式达到精通的状态。

在这里插入图片描述

文章目录
    • 一、re模块
    • 二、正则表达式
      • (一)字符串的匹配
        • 1.普通字符
        • 2.元字符
    • (二)正则的使用
        • 1.编译正则
        • 2.正则对象的使用方法
        • 3.Match object 的操作方法
        • 4.re模块的函数
    • 三、结语


一、re模块

在讲正则表达式之前,我们首先得知道哪里用得到正则表达式。正则表达式是用在findall()方法当中,大多数的字符串检索都可以通过findall()来完成。

1.导入re模块
在使用正则表达式之前,需要导入re模块。

import re	

 
 
  • 1

2.findall()的语法:

导入了re模块之后就可以使用findall()方法了,那么我们必须要清楚findall()的语法是怎么规定的。

findall(正则表达式,目标字符串)

 
 
  • 1

不难看出findall()的是由正则表达式和目标字符串组成,目标字符串就是你要检索的东西,那么如何检索则是通过正则表达式来进行操作,也就是我们今天的重点。

使用findall()之后返回的结果是一个列表,列表中是符合正则要求的字符串


二、正则表达式

(一)字符串的匹配
1.普通字符

大多数的字母和字符都可以进行自身匹配。

import re
a = "abc123+-*"
b = re.findall('abc',a)
print(b)

 
 
  • 1
  • 2
  • 3
  • 4

输出结果:

['abc']

 
 
  • 1

2.元字符

元字符指的是. ^ $ ? + {} \ []之类的特殊字符,通过它们我们可以对目标字符串进行个性化检索,返回我们要的结果。

这里我给大家介绍10个常用的元字符以及它们的用法,这里我先给大家做1个简单的汇总,便于记忆,下面会挨个讲解每一个元字符的使用。

在这里插入图片描述

(1) []

[] 的使用方式主要有以下三种:

  • 常用来指定一个字符集。
s = "a123456b"
rule = "a[0-9][1-6][1-6][1-6][1-6][1-6]b"	#这里暂时先用这种麻烦点的方法,后面有更容易的,不用敲这么多[1-6]
l = re.findall(rule,s)
print(l)

 
 
  • 1
  • 2
  • 3
  • 4

输出结果为:

['a123456b']

 
 
  • 1
  • 可以表示一个范围。

例如要在字符串"abcabcaccaac"中选出abc元素:

s = "abcabcaccaac"
rule = "a[a,b,c]c"  # rule = "a[a-z0-9][a-z0-9][a-z0-9][a-z0-9]c"	
l = re.findall(rule, s)
print(l)

 
 
  • 1
  • 2
  • 3
  • 4

输出结果为:

['abc', 'abc', 'acc', 'aac']

 
 
  • 1
  • [] 内的元字符不起作用,只表示普通字符。

例如要在字符串“caabcabcaabc”中选出“caa”:

print(re.findall("caa[a,^]", "caa^bcabcaabc"))

 
 
  • 1

输出结果为:

['caa^']

 
 
  • 1

注意点:当在[]的第一个位置时,表示除了a以外的都进行匹配,例如把[]中的和a换一下位置:

print(re.findall("caa[^,a]", "caa^bcabcaabc")) 

 
 
  • 1

输出:

['caa^', 'caab'] 

 
 
  • 1

(2)^

^ 通常用来匹配行首,例如:

print(re.findall("^abca", "abcabcabc"))

 
 
  • 1

输出结果:

['abca']

 
 
  • 1

(3) $
$ 通常用来匹配行尾,例如:

print(re.findall("abc$", "accabcabc"))

 
 
  • 1

输出结果:

['abc']

 
 
  • 1

(4)\

​ 反斜杠后面可以加不同的字符表示不同的特殊含义,常见的有以下3种。

  • \d:匹配任何十进制数等价于[0-9]
print(re.findall("c\d\d\da", "abc123abc"))

 
 
  • 1

输出结果为:

['c123a']

 
 
  • 1

\可以转义成普通字符,例如:

print(re.findall("\^abc", "^abc^abc"))

 
 
  • 1

输出结果:

['^abc', '^abc']

 
 
  • 1
  • s

匹配任何的空白字符例如:

print(re.findall("\s\s", "a     c"))

 
 
  • 1

输出结果:

['  ', '  ']

 
 
  • 1
  • \w

匹配任何字母数字和下划线,等价于[a-zA-Z0-9_],例如:

print(re.findall("\w\w\w", "abc12_"))

 
 
  • 1

输出:

['abc', '12_']

 
 
  • 1

(5){n}

{n}可以避免重复写,比如前面我们用\w时写了3次\w,而这里我们这需要用用上{n}就可以,n表示匹配的次数,例如:

print(re.findall("\w{2}", "abc12_"))

 
 
  • 1

输出结果:

['ab', 'c1', '2_']

 
 
  • 1

(6)*

*表示匹配零次或多次(尽可能的多去匹配),例如:

print(re.findall("010-\d*", "010-123456789"))

 
 
  • 1

输出:

['010-123456789']

 
 
  • 1

**(7) + **

+表示匹配一次或多次,例如

print(re.findall("010-\d+", "010-123456789"))

 
 
  • 1

输出:

['010-123456789']

 
 
  • 1

(8) .

.是个点,这里不是很明显,它用来操作除了换行符以外的任何字符,例如:

print(re.findall(".", "010\n?!"))

 
 
  • 1

输出:

['0', '1', '0', '?', '!']

 
 
  • 1

(9) ?

?表示匹配一次或零次

print(re.findall("010-\d?", "010-123456789"))

 
 
  • 1

输出:

['010-1']

 
 
  • 1

这里要注意一下贪婪模式和非贪婪模式。

贪婪模式:尽可能多的去匹配数据,表现为\d后面加某个元字符,例如\d*:

print(re.findall("010-\d*", "010-123456789"))

 
 
  • 1

输出:

['010-123456789']

 
 
  • 1

非贪婪模式:尽可能少的去匹配数据,表现为\d后面加?,例如\d?

print(re.findall("010-\d*?", "010-123456789"))

 
 
  • 1

输出为:

['010-']

 
 
  • 1

(10){m,n}
m,n指的是十进制数,表示最少重复m次,最多重复n次,例如:

print(re.findall("010-\d{3,5}", "010-123456789"))

 
 
  • 1

输出:

['010-12345']

 
 
  • 1

加上?表示尽可能少的去匹配

print(re.findall("010-\d{3,5}?", "010-123456789"))

 
 
  • 1

输出:

['010-123']

 
 
  • 1

{m,n}还有其他的一些灵活的写法,比如:

  • {1,} 相当于前面提过的 + 的效果
  • {0,1} 相当于前面提过的 ? 的效果
  • {0,} 相当于前面提过的 * 的效果
![在这里插入图片描述](https://img-blog.csdnimg.cn/bd65864080894f2fa0589371c680549c.jpeg#pic_center)

关于常用的元字符以及使用方法就先到这里,我们再来看看正则的其他知识。


(二)正则的使用

1.编译正则

在Python中,re模块可通过compile() 方法来编译正则,re.compile(正则表达式),例如:

 s = "010-123456789"
 rule = "010-\d*"
 rule_compile = re.compile(rule) #返回一个对象
 # print(rule_compile)
 s_compile = rule_compile.findall(s)
 print(s_compile)	#打印compile()返回的对象是什么

 
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

输出结果:

['010-123456789']

 
 
  • 1

2.正则对象的使用方法

正则对象的使用方法不仅仅是通过我们前面所介绍的 findall() 来使用,还可以通过其他的方法进行使用,效果是不一样的,这里我做个简单的总结:

(1)findall()
找到re匹配的所有字符串,返回一个列表

(2)search()
扫描字符串,找到这个re匹配的位置(仅仅是第一个查到的)

(3)match()
决定re是否在字符串刚开始的位置(匹配行首)

就拿上面的 compile()编译正则之后返回的对象来做举例,我们这里不用 findall() ,用 match() 来看一下结果如何:

s = "010-123456789"
rule = "010-\d*"
rule_compile = re.compile(rule)  # 返回一个对象
# print(rule_compile)
s_compile = rule_compile.match(s)
print(s_compile)  # 打印compile()返回的对象是什么

 
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

输出:

<re.Match object; span=(0, 13), match='010-123456789'>

 
 
  • 1

可以看出结果是1个match 对象,开始下标位置为0~13,match为 010-123456789 。既然返回的是对象,那么接下来我们来讲讲这个match 对象的一些操作方法。

![在这里插入图片描述](https://img-blog.csdnimg.cn/2bb7950100a84cf98c60d268da717003.jpeg#pic_center)
3.Match object 的操作方法

这里先介绍一下方法,后面我再举例,Match对象常见的使用方法有以下几个:

(1)group()
返回re匹配的字符串

(2)start()
返回匹配开始的位置

(3)end()
返回匹配结束的位置

(4)span()
返回一个元组:(开始,结束)的位置

举例:用span()来对search()返回的对象进行操作:

s = "010-123456789"
rule = "010-\d*"
rule_compile = re.compile(rule)  # 返回一个对象
s_compile = rule_compile.match(s)
print(s_compile.span())  #用span()处理返回的对象

 
 
  • 1
  • 2
  • 3
  • 4
  • 5

结果为:

(0, 13)

 
 
  • 1

4.re模块的函数

re模块中除了上面介绍的findall()函数之外,还有其他的函数,来做一个介绍:

(1)findall()
根据正则表达式返回匹配到的所有字符串,这个我就不多说了,前面都是在介绍它。

(2)sub(正则,新字符串,原字符串)
sub() 函数的功能是替换字符串,例如:

s = "abcabcacc" #原字符串
l = re.sub("abc","ddd",s)   #通过sub()处理过的字符串
print(l)

 
 
  • 1
  • 2
  • 3

输出:

ddddddacc	#把abc全部替换成ddd

 
 
  • 1

(3)subn(正则,新字符串,原字符串)
subn()的作用是替换字符串,并返回替换的次数

s = "abcabcacc" #原字符串
l = re.subn("abc","ddd",s)   #通过sub()处理过的字符串
print(l)

 
 
  • 1
  • 2
  • 3

输出:

('ddddddacc', 2)

 
 
  • 1

(4)split()
split()分割字符串,例如:

s = "abcabcacc"
l = re.split("b",s)
print(l)

 
 
  • 1
  • 2
  • 3

输出结果:

['a', 'ca', 'cacc']

 
 
  • 1
![在这里插入图片描述](https://img-blog.csdnimg.cn/92d6f37b444347ffb1b62bd245863169.jpeg#pic_center)

三、结语

关于正则,我就讲这么多了,正则几乎是Python所有方向中是必不可少的一个基础,祝你的Python之旅学有所成!

**感谢小伙伴的关注,我这里整理很多之前网安自学的干货视频,找资源不易,帮忙给个三连呗!**

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

🐵这些东西我都可以免费分享给大家,需要的可以点这里自取👉:网安入门到进阶资源

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1143198.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue+el-image-viewer显示tiff图片,并能够切换图片中的帧

一、简述 在前端界面显示tiff图片&#xff0c;并能够点击翻页按钮切换tiff图片中的帧&#xff0c;接收到后端传来的buffer&#xff0c;在前端处理后进行展示 二、使用工具 引入Tiff.js文件&#xff0c;引入前先进行下载安装 import Tiff from tiff.js引入显示图片组件 comp…

Openssl数据安全传输平台014:OCCI的安装配置和使用:Centos8-Oracle19c代码跑通 + Window-Oracle11g代码没跑通(不影响本项目)

文章目录 0 代码仓库1 启动Centos oracle数据库2 Winsows安装配置OCCI库2.1 下载文件2.2 VS 配置2.2.1 VC包含目录2.2.2 VC库目录2.2.3 连接器-附加依赖项2.2.4 代码测试-Oracle11g2.2.4.1 准备2.2.4.2 代码测试 3 Centos安装配置occi库3.1 下载instantclient库文件压缩包3.2 w…

LeetCode:1465. 切割后面积最大的蛋糕(C++)

目录 1465. 切割后面积最大的蛋糕 题目描述&#xff1a; 实现代码与解析&#xff1a; 贪心 原理思路&#xff1a; 1465. 切割后面积最大的蛋糕 题目描述&#xff1a; 矩形蛋糕的高度为 h 且宽度为 w&#xff0c;给你两个整数数组 horizontalCuts 和 verticalCuts&#xff…

HPV感染的风险:闫会宁主任分析酒店环境中的常见因素

人类乳头瘤病毒(HPV)是一种普遍存在的病毒&#xff0c;其存在和传播方式多种多样。近年来&#xff0c;人们对于HPV的认识不断深入&#xff0c;知道其在酒店环境中的传播风险。本文将探讨哪些情况下在酒店可能感染HPV。 一、HPV的传播方式 HPV主要通过直接接触传播&#xff0c…

编程实例:眼镜店顾客档案管理系统软件,可以登记顾客信息查询历史记录,视力检查登记查询,配镜销售单开单打印

编程实例&#xff1a;眼镜店顾客档案管理系统软件&#xff0c;可以登记顾客信息查询历史记录&#xff0c;视力检查登记查询&#xff0c;配镜销售单开单打印 编程系统化课程总目录及明细&#xff0c;点击进入了解详情。 https://blog.csdn.net/qq_29129627/article/details/1340…

centos 安装ifconfig等

通过ip addr查看IP ip addr 安装ifconfig yum search ifconfig yum -y install net-tools.x86_64 设置静态IP cd /etc/sysconfig/network-scripts/ cat ifcfg-ens33 vi ifcfg-ens33 文本demo&#xff1a; TYPEEthernet PROXY_METHODnone BROWSER_ONLYno BOOTPROTOstatic DEFRO…

【shell】pis_monitor.sh

#!/bin/bashread -p "请输入要查询的PID:" pidecho "--------------------------------"echo "进程PID:$pid"p_arr("进程命令 11" "进程所属用户 1" "CPU占用率 2" "CPU内存占用率 4" "进程开始运…

yolov8-pose的数据集标注

labelme标注工具 1.环境配置 conda create -n labelme sudo apt-get install python3-pyqt5 # PyQt5 sudo pip3 install labelme2.激活虚拟环境,并启动labelme conda activate labelme labelme参考链接:图片标注工具Labelme的安装及使用方法 3.数据集标注 在标注时,我…

终于找到一个很赞的相亲社交软件了,而且还是公众号java+vue

目前&#xff0c;相亲已经成为了时下的热门话题&#xff0c;越来越多的单身男女找不到心仪的另一半&#xff0c;忙碌的工作&#xff0c;空余时间很少。其次离开校园之后&#xff0c;圈子变小&#xff0c;也没有渠道认识到新的朋友&#xff0c;种种情况影响下&#xff0c;单身的…

PHP-FIG底层原理以及所有规范

PHP-FIG是PHP Framework Interoperability Group的简称&#xff0c;是一个致力于制定PHP规范和标准化的组织。它的目标是提高不同PHP框架之间的互操作性和兼容性&#xff0c;促进PHP开发社区的合作和共享。 PSR标准规范了一些常用的编码规范、类自动加载规范、接口规范等。这些…

大数据-Storm流式框架(六)---Kafka介绍

Kafka简介 Kafka是一个分布式的消息队列系统(Message Queue)。 官网&#xff1a;Apache Kafka 消息和批次 kafka的数据单元称为消息。消息可以看成是数据库表的一行或一条记录。 消息由字节数组组成&#xff0c;kafka中消息没有特别的格式或含义。 消息有可选的键&#x…

龙芯3A5000上安装微信

原文链接&#xff1a;龙芯3A5000上安装微信 hello&#xff0c;大家好啊&#xff0c;今天给大家带来一篇在龙芯3A5000上安装微信的文章&#xff0c;主要给大家展示一下在龙芯架构上使用微信的情况&#xff0c;看看内置浏览器、看一看、小程序等是否能正常打开使用。 1、查看系统…

将项目部署到Windows操作系统中,并且访问该项目

&#x1f3c5;我是默&#xff0c;一个在CSDN分享笔记的博主。&#x1f4da;&#x1f4da; &#x1f31f;在这里&#xff0c;我要推荐给大家我的专栏《Linux》。&#x1f3af;&#x1f3af; &#x1f680;无论你是编程小白&#xff0c;还是有一定基础的程序员&#xff0c;这个专…

react实现步进器

创建一个步进器组件&#xff0c;包含当前步骤&#xff08;currentStep&#xff09;的状态以及前进和后退的操作&#xff1a; import React, { useState } from react;function Stepper() {const [currentStep, setCurrentStep] useState(1);const handleNext () > {setCu…

大厂面试题-Java并发编程基础篇(五)

目录 一、为什么ConcurrentHashMap中key不允许为null 考察目标 问题解析 回答 二、ThreadLocal会出现内存泄漏吗&#xff1f; 考察目的 问题解析 回答 三、什么是CompletableFuture&#xff1f; 问题分析 问题解答 四、什么条件下会产出死锁&#xff0c;如何避免死…

万字解析设计模式之单例模式

一、概述 1.1简介 单例模式&#xff08;Singleton Pattern&#xff09;是 Java 中最简单的设计模式之一。这种类型的设计模式属于创建型模式&#xff0c;它提供了一种创建对象的最佳方式。 这种模式涉及到一个单一的类&#xff0c;该类负责创建自己的对象&#xff0c;同时确保…

MyBatis-Plus 实战教程二 核心功能

这里写目录标题 核心功能条件构造器QueryWrapperUpdateWrapperLambdaQueryWrapper 自定义SQL基本用法多表关联 Service接口CRUD基本用法Lambda批量新增 仓库地址 核心功能 条件构造器 除了新增以外&#xff0c;修改、删除、查询的SQL语句都需要指定where条件。因此BaseMapper…

6 个最佳 Windows 免费磁盘分区管理器

几乎所有新的笔记本电脑和 PC 都只有一个分区 C:\&#xff0c;与安装了 Windows 的分区相同。不太精通技术的用户开始按照计算机呈现给他们的方式使用计算机&#xff1b;他们将所有文档、个人文件&#xff08;例如图片、歌曲、电影等&#xff09;放在同一个分区上。整个驱动器上…

vite中将css,js文件归类至文件夹

build: {chunkSizeWarningLimit: 1500,rollupOptions: {output: {// 最小化拆分包manualChunks(id) {if (id.includes(node_modules)) {return id.toString().split(node_modules/)[1].split(/)[0].toString()}},// 用于从入口点创建的块的打包输出格式[name]表示文件名,[hash]…

github搜索技巧探索

毕设涉及到推荐系统&#xff0c;那么就用搜索推荐系统相关资料来探索一下GitHub的搜搜技巧 文章目录 1. 基础搜索2. 限定在特定仓库搜索3. 按照语言搜索4. 按照star数量搜索5. 搜索特定用户/组织的仓库6. 查找特定文件或路径7. 按时间搜索8. 搜索不包含某个词的仓库9. 搜索特定…