1.8 正则表达式

news2024/9/25 1:13:27

正则表示式是用来匹配与查找字符串的,从网上爬取数据不可避免的会用到正则表达式。 Python 的表达式要先引入 re 模块,正则表达式以 r 引导。

Re库主要功能函数

函数

说明

re.search()

在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象

re.match()

从一个字符串的开始位置匹配正则表达式,返回match对象

re.findall()

搜索字符串,以列表类型返回全部能匹配的子串

re.split()

将一个字符串按照正则表达式匹配结果进行分割,返回列表类型

re.finditer()

搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是math对象

re.sub()

在一个字符串中替换所有匹配正则表示式的子串,返回替换后的字符串

1. 字符"\d"匹配0-9之间的一个数值

importre
reg=r"\d"
a=re.search(reg, "abc123cd")
print(a)  # <re.Match object; span=(3, 4), match='1'>
b1=re.match(reg, "abc123cd")
print(b1)  # None
b2=re.match(reg, "12abc123cd")
print(b2)  # <re.Match object; span=(0, 1), match='1'>
c=re.findall(reg, "abc123cd4")
print(c)  # ['1', '2', '3', '4']
d=re.split(reg, "abc123cd")
print(d)  # ['abc', '', '', 'cd']
e=re.finditer(reg, "abc123cd")
formathine:
    print(math.group(), end=" ")  # 1 2 3
print()
f=re.sub(reg, "*", "abc123cd4")
print(f)  # abc***cd*

2. 字符"+"重复前面一个匹配字符 一次或多次 >=1

importre
reg=r"b\d+"
a=re.search(reg, "a12b123c")
print(a)  # <re.Match object; span=(3, 7), match='b123'>

注意:r"b\d+" 第一个字符要匹配 "b" ,后面是连续的多个数字,因此是"b123"。

3. 字符"*"重复前面一个匹配字符零次或多次 >=0

importre
reg=r"ab+"
a=re.search(reg, "acabc")
print(a)  # <re.Match object; span=(2, 4), match='ab'>
reg=r"ab*"
a=re.search(reg, "acabc")
print(a)  # <re.Match object; span=(0, 1), match='a'>

4. 字符"?"重复前面一个匹配字符零次或一次 0 or 1

importre
reg=r"ab?"
m=re.search(reg, "abbcabc")
print(m)  # <re.Match object; span=(0, 2), match='ab'>
问题:匹配结果为什么不是<re.Match object; span=(0, 1), match='a'>
原因:优先级:一次 > 零次

5. 字符"."代表任何一个字符,但是没有特别声明时不代表字符"\n"

importre
s="xaxby"
a=re.search(r"a.b", s)
print(a)  # <re.Match object; span=(1, 4), match='axb'>

6. "|"代表把左右分成两个部分

importre
s="xaabababy"
a=re.search(r"ab|ba", s)
print(a)  # <re.Match object; span=(2, 4), match='ab'>

7. 特殊字符使用反斜线""引导,例如"\r"、"\n"、"\t"、"\"分别表示 回车、换行符、制表符与反斜线本身

importre
reg=r"a\nb?"
a=re.search(reg, "ca\nbcabc")
print(a)  # <re.Match object; span=(1, 4), match='a\nb'>

8. 字符"\b"表示单词结尾,单词结尾包括各种空白字符或者字符串结尾

importre
reg=r"car\b"
a=re.search(reg, "The car is black")
print(a)  # <re.Match object; span=(4, 7), match='car'>

9. "[]"中的字符表示任意选择一个,如果字符是 ASCII 码中连续的一组,那么可以使用"-"符号连接,例如[0-9]表示0-9的其中一个数字,[A-Z]表示A-Z的其中一个大写字符,[0-9A-Z]表示0-9的其中一个数字或者是A-Z的其中一个大写字符

import re
reg = r"x[0-9]y"
a = re.search(reg, "xyx2y")
print(a)  # <re.Match object; span=(2, 5), match='x2y'>

10. "^"匹配字符串开头位置

import re
reg = r"^ab"  # 以"ab"开头
a = re.search(reg,"cabcab")
print(a)  # None

11. "^"出现在[]的第一个位置,就表示取反,例如ab0-9表示不是a、b也不是0-9的数字

import re
reg=r"x[^ab0-9]y"
a = re.search(reg,"xayx2yxcy")
print(a)  # <re.Match object; span=(6, 9), match='xcy'>

12. "\s"匹配任何空白字符,等价"[\r\n\x20\t\f\v]"

import re
s = "la ba\tbxy"
a = re.search(r"a\sb", s)
print(a)  # <re.Match object; span=(1, 4), match='a b'>

13. "\w"匹配包括下划线内的单词字符,等价于"[a-zA-Z0-9_]"

import re
reg = r"\w+"
a = re.search(reg, "Python is easy")
print(a)  # <re.Match object; span=(0, 6), match='Python'>

14."$"字符匹配字符串的结尾位置

import re
reg = r"ab$"
a = re.search(reg, "abcab")
print(a)  # <re.Match object; span=(3, 5), match='ab'>

15. 使用括号(...)可以把(...)看成一个整体,经常于"+"、"*"、"?"等符号连续使用,对(...)部分进行重复

import re
reg = r"(ab)+"
a = re.search(reg, "ababcab")
print(a)  # <re.Match object; span=(0, 4), match='abab'>

search函数虽然只返回第一次匹配的结果,但是只要连续使用 search 函数就可以找到字符串中全部匹配的字符串

应用举例

例:匹配找出英文句子中所有单词

importre
​
s="I am testing search function"
reg=r"[A-Za-z]+\b"
a=re.search(reg, s)
whilea!=None:
    start=a.start()
    end=a.end()
    print(s[start:end])
    s=s[end:]
    a=re.search(reg, s)

运行结果:


经典正则表达式

表达式

表示的字符串

^[A-Za-z]+$

由26个字母组成的字符串

^[A-Za-z0-9]+$

由26个字母和数字组成的字符串

^-? \d+$

整数形式的字符串(^-?表示±号)

[1-9]\d{5}

中国境内邮政编码,6位

[\u4e00-\u9fa5]

匹配中文字符

\d{3}- \d{8}|\d{4}-\d{7}

国内电话号码,010-68913536

\w+@(\w+.)+\w+

邮箱

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/340569.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

七大设计原则之里氏替换原则应用

目录1 里氏替换原则2 里氏替换原则应用1 里氏替换原则 里氏替换原则&#xff08;Liskov Substitution Principle,LSP&#xff09;是指如果对每一个类型为 T1 的对象 o1,都有类型为 T2 的对象 o2,使得以 T1 定义的所有程序 P 在所有的对象 o1 都替换成 o2 时&#xff0c;程序 P…

基于蜣螂算法改进的LSTM预测算法-附代码

基于蜣螂算法改进的LSTM预测算法 文章目录基于蜣螂算法改进的LSTM预测算法1.数据2.LSTM模型3.基于蜣螂算法优化的LSTM4.测试结果5.Matlab代码摘要&#xff1a;为了提高LSTM数据的预测准确率&#xff0c;对LSTM中的参数利用蜣螂搜索算法进行优化。1.数据 采用正弦信号仿真数据&…

算法训练——剑指offer(Hash集合问题)

摘要 数据结构中有一个用于存储重要的数据结构&#xff0c;它们就是HashMap,HasSet&#xff0c;它典型特征就是存储key:value键值对。在查询制定的key的时候查询效率最高O(1)。Hashmap&#xff0c;HasSet的底层结构是如图所示。它们的区别就是是否存在重复的元素。 二、HashMa…

搞了个ChatGPT机器人,免费使用最强大的AI,这一晚上几个群都聊high了

前言 最近ChatGPT实在是太火了&#xff01;其实去年年底的时候&#xff0c;ChatGPT已经在程序员圈子里小小的火了一把&#xff0c;再加上年后资本的炒作和各个公司疯狂的蹭热点&#xff0c;就彻底火出圈了。 ChatGPT使用体验 其实自己已经用了一段时间的ChatGPT&#xff0c;…

UART和RS232、RS485的联系和区别、以及对软件编程的影响

1、串口、UART、RS232、RS485概念的理解 (1)狭义上的串口&#xff1a;指的是串口协议&#xff0c;就是时序图、数据收发先后顺序等&#xff0c;是抽象出来的协议&#xff1b; (2)广义上的串口&#xff1a;指的是符合串口协议的接口&#xff0c;UART、RS232、RS485在实际工作中都…

Python:每日一题之剪格子(DFS剪枝)

题目描述 如下图所示&#xff0c;3 x 3 的格子中填写了一些整数。 我们沿着图中的红色线剪开&#xff0c;得到两个部分&#xff0c;每个部分的数字和都是 60。 本题的要求就是请你编程判定&#xff1a;对给定的 mn 的格子中的整数&#xff0c;是否可以分割为两个部分&#xf…

【fastjson2.x 记录】那些从1.x升级到2.x踩过的坑

这篇文章主要记录升级到 fastjson2.x 版本后出现的一些问题 1. jar 包引入问题 问题描述&#xff1a;从 2.x 版本后&#xff0c;fastjson 貌似开始对代码模块进行了拆分&#xff0c;所以在调整配置的时候&#xff0c;会发现有些类突然没了&#xff0c;其实是需要引入其他的扩展…

ChatGPT超详细注册教程,只要3.5!

一、注册必备条件注册 ChatGPT 必备如下三个条件&#xff1a;1、用于注册ChatGPT的邮箱&#xff0c;什么邮箱都可以。2、科学上网工具&#xff0c;注册账号和登录时需要。3、一个国外手机号&#xff0c;用于接收验证码&#xff0c;后面会详细介绍如何花 3.55 元获取。二、注册 …

从10大管理看产品经理的日常工作——产品整体管理

产品经理这个职业有其特殊性&#xff0c;在学校&#xff0c;没有专门的专业或课程教授你如何成为一名产品经理&#xff0c;虽然我们给产品经理划分了初级、中级、高级&#xff0c;但是却没有相应的职称可以证明你的级别&#xff0c;也没有相关的职业证书可以证明你的能力。产品…

LVGL V9.0基于VS2022仿真搭建

完整Demo&#xff0c;lvgl,lvgl_drivers相关资料下载 链接&#xff1a;https://pan.baidu.com/s/1DNJeHdoaPyfe1BsLb9wjRg 提取码&#xff1a;wov7 其它资料下载 链接&#xff1a;https://pan.baidu.com/s/1nV9jojPEPWSWZdYhaCZWTA 提取码&#xff1a;91j8 下载资料后解压文…

贝叶斯分类器

分类算法用来判断给定数据项所属的类别&#xff0c;即种类或类型。比如&#xff0c;可以根据某些特征来分辨一部电影属于哪个流派&#xff0c;等等。这样&#xff0c;流派就是我们要预测的类别。第10章“预测性分析与机器学习”还会对机器学习做进一步介绍。此刻&#xff0c;我…

分布式ID生成方案

文章目录前言一、分布式ID需要满足的条件二、分布式ID生成方式基于UUID数据库自增数据库集群数据库号段模式redis ID生成基于雪花算法&#xff08;Snowflake&#xff09;模式百度&#xff08;uid-generator&#xff09;美团&#xff08;Leaf&#xff09;滴滴&#xff08;Tinyid…

queue(二)优先级队列解决 合并K个已排序链表(hard)

合并k个已排序的链表_牛客题霸_牛客网【牛客题霸】收集各企业高频校招笔面试题目&#xff0c;配有官方题解&#xff0c;在线进行百度阿里腾讯网易等互联网名企笔试面试模拟考试练习,和牛人一起讨论经典试题,全面提升你的技术能力https://www.nowcoder.com/practice/65cfde9e5b9…

[MySQL教程②] - MySQL介绍和发展史

目录 ❤ MySQL介绍 ❤ 什么是数据库 ❤ 什么是数据 ❤ 数据库管理系统 ❤ NoSQL特性总览 ❤ NoSQL的分类、特点、典型产品 ❤ 常见的数据库产品有哪些&#xff1f; ❤ Oracle公司产品介绍 Oracle数据库版本介绍 Oracle的市场应用 MySQL数据库版本介绍 MyS…

阅读MySQL必知必会,查缺补漏

MySQL自带数据库 information_schema&#xff1a;是MySQL自带的数据库&#xff0c;主要保持MySQL数据库服务器的系统信息&#xff0c;比如数据库的名称&#xff0c;数据库表的名称&#xff0c;字段名称&#xff0c;存储权限等。 performance_schema&#xff1a;是MySQL系统自…

大数据技术架构(组件)32——Spark:Spark SQL--Execute Engine

2.2、Spark SQL2.2.1、Execute EngineSparkSql的整体提交执行流程和Hive的执行流程基本上一致。站在通用的角度&#xff0c;对于SparkSql来说&#xff0c;从Sql到Spark的RDD执行需要经历两个大的阶段&#xff1a;逻辑计划和物理计划逻辑计划层面会把用户提交的sql转换成树型结构…

2022级上岸浙理工MBA的复试经验提炼和备考建议

在等待联考成绩出来的那段时间&#xff0c;虽然内心很忐忑&#xff0c;但还是为复试在积极的做准备&#xff0c;虽然也进行了估分大概有201分&#xff0c;但成绩和分数线没下来之前&#xff0c;只能尽量多做些一些准备把。因为笔试报了达立易考的辅导班&#xff0c;对于浙江理工…

复现随记~

note(美团2022) 比较简单的越界漏洞&#xff0c;堆本身并没有什么漏洞&#xff0c;而且保护并没全开&#xff0c;所以逆向思维。必然是ROP类而非指针类&#xff0c;故我们着重注意unsigned int等无符号数前后是否不一致 int __fastcall edit(__int64 a1) {int idx; // [rsp14…

[全栈工程师]从0到封神

全栈工程师 一个可以独立完成产品开发的人 目标规划全栈工程师参与社区的问题回答gitCode来自选择专业的问答为什么选择软件工程当初对软件工程这个专业的期待和想象是什么当初希望自己是如何投入这个专业的学习的曾经做过什么准备&#xff0c;或者立下过什么FLAG吗CSDN的我的介…

【idea】idea生产类注释和方法注释

网上有很多类似的文章&#xff0c;但是我在按照他们的文章设置后&#xff0c;出现了一些问题&#xff0c;因此我这边在解决了问题后&#xff0c;总结一篇文章&#xff0c;发出来给大家借鉴一下。在此先说明一下idea的版本&#xff0c;是2020.1.3 设置动态模板&#xff0c;File…