十、正则表达式详解:掌握强大的文本处理工具(二)

news2025/1/19 8:25:54

文章目录

  • 🍀多字符匹配
  • 🍀匹配规则的代替
  • 🍀特殊的匹配
  • 🍀特殊的匹配plus
  • 🍀总结

🍀多字符匹配

  1. 星号(*):匹配0个或者多个字符
import re

text = '111-222-333'
result = re.match('[\d]', text) # 没有*,匹配第一个
result1 = re.match('[\d]*', text)  # 有*,从起始位置开始,匹配0或者多次
result2 = re.match('[-\d]*', text)   # 有*,从起始位置开始,匹配0或者多次
result3 = re.match('[-]*', text)  # 有*,从起始位置开始,匹配0或者多次
print(result.group(),len(result.group()))
print(result1.group(),len(result1.group()))
print(result2.group(),len(result2.group()))
print(result3.group(),len(result3.group()))

运行结果如下
在这里插入图片描述

注意:匹配不出来,只不过是空,并不会报错


  1. 加号(+):匹配一个或者多个
text = 'Q111-222-333'
result = re.match('[Q\d]+', text)
result1 = re.match('[\d]+', text)
print(result.group(),len(result.group()))
print(result1.group(),len(result1.group()))

运行结果如下

在这里插入图片描述

注意:有+,对[]里的内容匹配一次或者多次(至少一次)、从起始位置开始

  1. 问号(?):匹配0个或者1个
text = 'Q111-222-333'
result = re.match('[Q\d]?', text)
result1 = re.match('[\d]?', text)
print(result.group(),len(result.group()))
print(result1.group(),len(result1.group()))

运行结果如下

在这里插入图片描述

注意:从起始位置开始,和*有一点相近

  1. {m}:匹配指定个数m
text = 'Q111-222-333'
result = re.match('[Q\d]{2}', text)
result1 = re.match('[Q\d]{5}', text)
print(result.group(),len(result.group()))
print(result1.group(1),len(result1.group()))

运行结果如下

在这里插入图片描述

注意:从起始位置

  1. {m,n}:匹配m到n个,默认匹配最多次
text = '111-222-333'
text1 = '111-2^22-333'
result = re.match('[-\d]{2,8}', text)
result1 = re.match('[-\d]{2,8}', text1)
print(result.group())
print(result1.group())

运行结果如下
在这里插入图片描述

注意:若内容存在不属于规则的内容,则停止,直接输出

🍀匹配规则的代替

  1. \d------[0-9]:匹配所有的数字
text = '111-222-333'
result = re.match('[-0-9]*', text)
print(result.group())

运行结果如下

在这里插入图片描述
注意:这里经常与(*)进行搭配,进而匹配多次数字

  1. \D----[^0-9]:匹配所有的非数字
text = '111-222-333'
result = re.match('[^0-9]+', text)
print(result.group())

运行结果如下

在这里插入图片描述

注意:这里经常配合+(1次或多次),匹配1次或多次非数字字符;其实也可以配合*(0次或多次),匹配0次或多次非数字字符

  1. \w-----[0-9a-zA-Z_]:匹配所有数字、字母、下划线
text = '111-222-333'
result = re.match('[0-9a-zA-Z_]+', text)
print(result.group())

运行结果如下
在这里插入图片描述
注意:减号不在匹配范围之内

  1. \W-----[^0-9a-zA-Z]:匹配所有非数字、字母和下划线
text = '111-222-333'
result = re.match('[^0-9a-zA-Z_]+', text)
print(result.group())

运行结果如下
在这里插入图片描述
注意:这里和之前那个有相似之处,主要是因为+,这里的+是匹配至少一次,然而一开始检索就没找到,自然报错了

  1. [\d\D]、[\w\W]:匹配所有的字符
text = '111-222-333'
result = re.match('[\w\W]+', text)
print(result.group())

运行结果如下
在这里插入图片描述

所以说还是这个牛吧


🍀特殊的匹配

例子如下:

text = '111-222-333'
text1 = '....111-222-333'
result = re.match('[.]+', text)
result1 = re.match('.+', text)
result2= re.match('[.]+', text1)
print(result1.group())
print('*')
print(result2.group())
print('*')
print(result.group())

运行结果如下
在这里插入图片描述
注意:去掉中括号后,点表示所有字符再配上+匹配所有字符,但是中括号加上点后代表的就是匹配点了,然而text1并没有,所有遵循+的规则至少一个,所以报错

感兴趣的小伙伴可以自己试着来,将手机号、邮箱、身份证号码的规则自己写出来


🍀特殊的匹配plus

  1. 全局遍历
text = 'Hello HeWord'
result = re.search('He', text)
print(result.group())

运行结果如下
在这里插入图片描述
注意:search()是从左到右进行字符串遍历,找到就返回,若后续再出现,也不再返回结果

  1. $:以某某为结尾
text = 'HelloHeWord@163.com'
result = re.search('[\w]+@[a-z0-9]+[.]com$', text)
print(result.group())

运行结果如下

在这里插入图片描述
注意:以com为结尾提取数据,若不是以该词结尾就会报错

  1. |:匹配多个表达式或者字符串
text = 'https://www.baidu.com'
result = re.search('[https|http]',text)
print(result.group())

运行结果如下
在这里插入图片描述

text = 'https://www.baidu.com'
result = re.search('[https|http]+',text)
print(result.group())

运行结果如下
在这里插入图片描述

text = 'https://www.baidu.com'
result = re.search('(https|http)',text)
print(result.group())

运行结果如下
在这里插入图片描述
综上所述:中括号是将里面看成一个字符串,小括号则以|为标准分层若干字符串

🍀总结

本节介绍了多字符匹配,其中包括星号、加号等;匹配规则的代替,例如\d可以使用[0-9]代替使用;以及特殊的匹配。下节介绍贪婪模式与非贪婪模式,曾有大佬说明,不了解贪婪模式和非贪婪模式,就无法进行爬虫

如果没看过正则表达式详解:掌握强大的文本处理工具(二)的小伙伴,可以看看,感谢支持!!!

请添加图片描述

挑战与创造都是很痛苦的,但是很充实。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/779767.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Cardboard for Pictures(cf)

Mircea有n张照片,第 i 张照片的是边长为si的正方形,他把每张照片都装在一块正方形的硬纸板上,这样每张照片的四周都有一个w厘米的硬纸板边框。他总共用了 c 立方厘米见方的硬纸板。给定图片大小和值c,求w。(请注意&…

Java-API简析_java.net.InetSocketAddress类(基于 Latest JDK)(浅析源码)

【版权声明】未经博主同意,谢绝转载!(请尊重原创,博主保留追究权) https://blog.csdn.net/m0_69908381/article/details/131870760 出自【进步*于辰的博客】 因为我发现目前,我对Java-API的学习意识比较薄弱…

Dubbogo 详解

Dubbogo 详解 简介 dubbo功能很强大的微服务开发框架,支持多种通信协议,并具有流量治理的功能。 dubbo在有了大转变,拥抱了云原生,从哪些方面可以体现呢? 推出了自己的Trip协议修复了服务发现的级别,之…

Bug竞技场【已经修复】

目录 1.基础知识 2.最佳组合 2.1 铁男-螳螂 2.2 弟弟组合 海克斯抽卡bug 1.基础知识 背景:美测服-美服-马服-可以有效地减少bug率 复盘是为了更好的战斗! 提前观看一些视频资料也是如此。 通过看直播博主的经验,可以让你关注到本来对战的…

利用Canvas根据经纬度绘制轨迹(一)

根据经纬度坐标绘制轨迹图形 一段时间没更新了&#xff0c;主人最近有点懒~ 前段时间有个需求&#xff0c;在uniapp App端实现轨迹绘制&#xff0c;于是先用html实现看看效果~ 效果图 html <canvasid"canvasId"width"300"height"300"style&…

DOS命令(windows)

DOS命令&#xff08;windows&#xff09; 目录 1. 打开命令提示符。2. 切换至根。3. 当前路径。4. 切换至上级路径。5. 查看当前目录。6. 查看文件内容。7. 删除文件。8. 进入长文件夹名时缩写。9. 复制文件。10. 移动文件。 1. 打开命令提示符。 命令&#xff1a;winR 输入&a…

【Go】Go 语言开发工具GoLand 使用(二十二)

往期回顾&#xff1a; Go 语言教程–介绍&#xff08;一&#xff09;Go 语言教程–语言结构&#xff08;二&#xff09;Go 语言教程–语言结构&#xff08;三&#xff09;Go 语言教程–数据类型&#xff08;四&#xff09;Go 语言教程–语言变量&#xff08;五&#xff09;Go …

STM32外设系列—TB6612FNG

本文涉及到定时器和串口的知识&#xff0c;详细内容可见博主STM32速成笔记专栏。 文章目录 一、TB6612简介二、TB6612使用方法2.1 TB6612引脚连接2.2 控制逻辑2.3 电机调速 三、实战项目3.1 项目简介3.2 初始化GPIO3.3 PWM初始化3.3 电机控制程序3.4 串口接收处理函数 一、TB66…

PHP反序列化漏洞之魔术方法

一、魔术方法 PHP魔术方法&#xff08;Magic Methods&#xff09;是一组特殊的方法&#xff0c;它们在特定的情况下会被自动调用&#xff0c;用于实现对象的特殊行为或提供额外功能。这些方法的名称都以双下划线开头和结尾&#xff0c;例如: __construct()、__toString()等。 …

java项目之网络视频播放器(ssm+mysql+jsp)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于ssm的网络视频播放器。技术交流和部署相关看文章末尾&#xff01; 开发环境&#xff1a; 后端&#xff1a; 开发语言&#xff1a;Java 框架&a…

Arduino RP2040 两个CDC虚拟串口通讯

Arduino RP2040 两个CDC虚拟串口通讯 &#x1f3ac;通讯效果演示&#xff1a; &#x1f33f;基于Earle F. Philhower的固件开发平台&#xff1a; https://github.com/earlephilhower/arduino-pico&#x1f516;USB配置参考&#xff1a;https://arduino-pico.readthedocs.io/en/…

【算法基础:数学知识】4.1 质数

文章目录 质数例题列表866. 试除法判定质数&#xff08;质数的判定&#xff09;867. 分解质因数&#xff08;&#xff09;868. 筛质数埃氏筛欧氏筛 / 线性筛 相关链接 质数 定义&#xff1a;质数是指在大于1的自然数中&#xff0c;除了1和它本身以外不再有其他因数的自然数。 …

安装Electron时报错command sh -c node install.js

在安装Electron报如下错误 在指令后面添加 --ignore-scripts&#xff0c;意思是npm 将不会运行在package.json中指定的scripts npm install --save -dev electron --ignore-scripts

Linux系统安装部署MySQL完整教程(图文详解)

前言&#xff1a;最近网上翻阅了大量关于Linux安装部署MySQL的教程&#xff0c;在自己部署的时候总是存在一些小问题&#xff0c;例如&#xff1a;版本冲突&#xff0c;配置失败和启动失败等等&#xff0c;功夫不负有心人&#xff0c;最后还是安装部署成功了&#xff0c;所以本…

《TCP IP网路编程》第九章

第 9 章 套接字的多种可选项 我们进行套接字编程时往往只关注数据通信&#xff0c;而忽略了套接字具有的不同特性。但是&#xff0c;理解这些特性并根据实际需要进行更改也很重要。下面列出了一些套接字可选项。 从表中可以看出&#xff0c;套接字可选项是分层的。 IPPROTO_IP …

[java安全]TemplatesImpl在Shiro550反序列化

文章目录 【java安全】TemplatesImpl在Shiro550反序列化Shiro的原理Shiro反序列化产生演示攻击过程payload使用key加密 构造不含数组的GadGets简单调用链 改造cc6为CommonsCollctionsShiro完整POC触发Shiro550漏洞进阶POC总结 【java安全】TemplatesImpl在Shiro550反序列化 Sh…

论文工具——写论文好用的绘图工具(甘特图+流程图+网络模型图+泳道图)

文章目录 引言正文手动画图的在线画图工具tldraw开源免费ProcessOnDraw.io 网络模型图工具NN-SVG设置参数自动生成Netron上传模型自动生成PlotNeuralNet编码生成 总结 引言 在写HiFi-GAN论文的代码阅读过程中&#xff0c;我发现仅仅通过文字来描述网络结构&#xff0c;不够详细…

ORB-SLAM2学习笔记4之KITTI开源数据集运行ORB-SLAM2生成轨迹并用evo工具评估轨迹

文章目录 0 引言1 KITTI数据集1.1 下载数据1.2 真值轨迹格式转换 2 单目ORB-SLAM22.1 运行ORB-SLAM22.2 evo评估轨迹(tum格式)2.2.1 载入和对比轨迹2.2.2 计算绝对轨迹误差 3 双目ORB-SLAM23.1 运行ORB-SLAM23.2 evo评估轨迹(kitti格式)3.2.1 载入和对比轨迹3.2.2 计算绝对轨迹…

Linux服务器安装部署MongoDB数据库 - 无公网IP远程连接「内网穿透」

文章目录 前言1.配置Mongodb源2.安装MongoDB数据库3.局域网连接测试4.安装cpolar内网穿透5.配置公网访问地址6.公网远程连接7.固定连接公网地址8.使用固定公网地址连接 前言 MongoDB是一个基于分布式文件存储的数据库。由 C 语言编写&#xff0c;旨在为 WEB 应用提供可扩展的高…

升级dubbo3方案

dubbo3 新特性 1. Dubbo3 应用级服务发现设计 显著降低服务发现过程的资源消耗&#xff0c;包括提升注册中心容量上限、降低消费端地址解析资源占用等&#xff0c;使得 Dubbo3 框架能够支持更大规模集群的服务治理&#xff0c;实现无限水平扩容。适配底层基础设施服务发现模型…