Python中正则表达式的使用

news2024/11/18 7:41:31

正则表达式就是从字符串中发现规律,并通过“抽象”的符号表达出来。打个比方,对于2,5,10,17,26,37这样的数字序列,如何计算第7个值,肯定要先找该序列的规律,然后用n2+1这个表达式来描述其规律,进而得到第7个值为50。对于需要匹配的字符串来说,同样把发现规律作为第一步,本文主要使用正则表达式完成字符串的查询匹配、替换匹配和分割匹配。

常用的正则符号

在进入字符串的匹配之前,先来了解一下都有哪些常用的正则符号,见下表所示:

如果读者能够比较熟练地掌握上表中的内容,相信在字符串处理过程中将会游刃有余。如前文所说,本节将基于正则表达式完成字符串的查询、替换和分割操作,这些操作都需要导入re模块,并使用如下介绍的几个函数。

字符串的匹配查询

re模块中的findall函数可以对指定的字符串进行遍历匹配,获取字符串中所有匹配的子串,并返回一个列表结果。该函数的参数含义如下:

findall(pattern, string, flags=0)pattern:指定需要匹配的正则表达式。string:指定待处理的字符串。flags:指定匹配模式,常用的值可以是re.I、re.M、re.S和re.X。re.I的模式是让正则表达式对大小写不敏感;re.M的模式是让正则表达式可以多行匹配;re.S的模式指明正则符号.可以匹配任意字符,包括换行符\n;re.X模式允许正则表达式可以写得更加详细,如多行表示、忽略空白字符、加入注释等。

字符串的匹配替换

re模块中的sub函数的功能是替换,类似于字符串的replace方法,该函数根据正则表达式把满足匹配的内容替换为repl。该函数的参数含义如下:sub(pattern, repl, string, count=0, flags=0)pattern:同findall函数中的pattern。repl:指定替换成的新值。string:同findall函数中的string。count:用于指定最多替换的次数,默认为全部替换。flags:同findall函数中的flags。

字符串的匹配分割

re模块中的split函数是将字符串按照指定的正则表达式分隔开,类似于字符串的split方法。该函数的具体参数含义如下:split(pattern, string, maxsplit=0, flags=0)pattern:同findall函数中的pattern。maxsplit:用于指定最大分割次数,默认为全部分割。string:同findall函数中的string。flags:同findall函数中的flags。

实战案例

如果上面的函数和参数含义都已经掌握了,还需要进一步通过案例加强理解,接下来举例说明上面的三个函数:

# 导入用于正则表达式的re模块import re# 取出字符串string8中所有的天气状态string8 = "{ymd:"2018-01-01",tianqi:"晴",aqiInfo:"轻度污染"},{ymd:"2018-01-02",tianqi:"阴~小雨",aqiInfo:"优"},{ymd:"2018-01-03",tianqi:"小雨~中雨",aqiInfo:"优"},{ymd:"2018-01-04",tianqi:"中雨~小雨",aqiInfo:"优"}"# 基于正则表达式使用findall函数print(re.findall("tianqi:"(.*?)"", string8))# 取出string9中所有含O字母的单词string9  = "Together, we discovered that a free market only thrives when there are rules to ensure competition and fair play, Our celebration of initiative and enterprise"# 基于正则表达式使用findall函数print(re.findall("\w*o\w*",string9, flags = re.I))# 将string10中的标点符号、数字和字母删除string10 = "据悉,这次发运的4台蒸汽冷凝罐属于国际热核聚变实验堆(ITER)项目的核二级压力设备,先后完成了压力试验、真空试验、氦气检漏试验、千斤顶试验、吊耳载荷试验、叠装试验等验收试验。"# 基于正则表达式使用sub函数print(re.sub("[,。、a-zA-Z0-9()]","",string10))# 将string11中的每个子部分内容分割开string11 = "2室2厅 | 101.62平 | 低区/7层 | 朝南 \n 上海未来 - 浦东 - 金杨 - 2005年建"# 基于正则表达式使用split函数split = re.split("[-\|\n]", string11)print(split)# 分割结果的清洗split_strip = [i.strip() for i in split]print(split_strip)out:["晴", "阴~小雨", "小雨~中雨", "中雨~小雨"]["Together", "discovered", "only", "to", "competition", "Our", "celebration", "of"]据悉这次发运的台蒸汽冷凝罐属于国际热核聚变实验堆项目的核二级压力设备先后完成了压力试验真空试验氦气检漏试验千斤顶试验吊耳载荷试验叠装试验等验收试验["2室2厅 ", " 101.62平 ", " 低区/7层 ", " 朝南 ", " 上海未来 ", " 浦东 ", " 金杨 ", " 2005年建"]["2室2厅", "101.62平", "低区/7层", "朝南", "上海未来", "浦东", "金杨", "2005年建"]

如上结果所示,在第一个例子中通过正则表达式"tianqi:"(.*?)""实现目标数据的获取,如果不使用括号的话,就会产生类似"tianqi:"晴"", "tianqi:"阴~小雨""这样的值,所以,加上括号就是为了分组,且仅返回组中的内容;

第二个例子并没有将正则表达式写入圆括号,如果写上圆括号也是返回一样的结果,所以findall就是用来返回满足匹配条件的列表值,如果有括号,就仅返回括号内的匹配值;

第三个例子使用替换的方法,将所有的标点符号换为空字符,进而实现删除的效果;

第四个例子是对字符串的分割,如果直接按照正则 "[,。、a-zA-Z0-9()]" 分割的话,返回的结果中包含空字符,如 "2室2厅" 后面就有一个空字符。为了删除列表中每个元素的首尾空字符,使用了列表表达式,并且结合字符串的strip方法完成空字符的压缩。

转自:微点阅读  https://www.weidianyuedu.com

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/63243.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前端骨架屏应用

什么是骨架屏 骨架屏可以理解为在页面数据尚未返回或页面未完成完全渲染前,先给用户呈现一个由灰白块组成的当前页面大致结构,让用户产生页面正在逐渐渲染的感受,从而使加载过程从视觉上变得流畅。 生成后的骨架屏页面如下图所示&#xff1…

第二证券|沪指冲上3200点,中字头太火爆!

轿车整车概念股拉升,多要素共同刺激下,新能源车或将呈现一轮涨价潮。 今天早盘,三大股指走势分解,沪指拉升涨1.56%,站上3200点关口;创业板指则围绕平盘线展开震动,跌0.39%。 以稳妥股为首的大金…

将数据预处理嵌入AI模型的常见技巧

作者:战鹏州 英特尔物联网行业创新大使 目录 1.1 用模型优化器实现数据预处理 1.1.1 模型优化器预处理参数 1.1.2 将ResNet模型的预处理嵌入模型 1.2 用OpenVINO™ 预处理API实现数据预处理 1.3 使用模型缓存技术进一步缩短首次推理时延 1.4 总结 本文将介绍…

机器学习——评估和改进学习算法

0. 引言 当我们运用训练好了的模型来预测未知数据的时候发现有较大的误差,我们下一步可以做什么? 获得更多的训练样本——通常是有效的,但代价较大,下面的方法也可能有效,可考虑先采用下面的几种方法。尝试减少特征的…

2022年最新Android面试题整理,全网都在看,史上最全面试攻略

Android面试现在什么东西是必须考察的?专业素养还是面试技巧?四大组件还是Framework层源码?哪有什么必考的,可以说所有技术栈都不是必考,但又是必考。话虽看似矛盾,但却反映了当前国内互联网环境的现状&…

基于随机油漆优化器 (MOSPO)求解多目标优化问题附matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。 🍎个人主页:Matlab科研工作室 🍊个人信条:格物致知。 更多Matlab仿真内容点击👇 智能优化算法 …

HTML刷题

HTML5 之前的版本是 HTML4.01 onblur 和 onfocus 属于焦点事件: onblur:失去焦点 onfocus:获取焦点 链接:为同一个文件添加多种文件格式的原因是什么 ?&l__牛客网 来源:牛客网 1.为同一个文件添…

vue提取字符串中中文汉字的大写首字母

vue提取字符串中中文汉字的大写首字母 1.需求背景 最近开发vue项目,在关于药品的项目中有个需求是要提取药品中文名称的首字母组成拼音码。 解决方案 这里需要用到pinyin-pro插件,参数介绍如下: 使用如下: // 1、安装piny…

OpenAI ChatGPT注册试用全攻略

OpenAI ChatGPT注册试用全攻略 最近ChatGPT很火,但是有人注册会经常出现不服务当前地区问题,现在手把手教你解决。 如何在中国试用ChatGPT? 这是ChatGPT给的回答 您好,ChatGPT是一种计算机程序,可以自动生成自然语…

C#大型外卖订单调度系统源码PC版 手机版 商户版

开发环境: VS2012 SQL2008R2 菜单功能 1、手机端功能模块 1)自动定位或者搜索地址:使用百度地图,实现自动定位,打开微信自动定位,搜索附件外卖商家 2)附近外卖商家展示&…

《痞子衡嵌入式半月刊》 第 31 期

痞子衡嵌入式半月刊: 第 31 期 这里分享嵌入式领域有用有趣的项目/工具以及一些热点新闻,农历年分二十四节气,希望在每个交节之日准时发布一期。 本期刊是开源项目(GitHub: JayHeng/pzh-mcu-bi-weekly),欢…

后端存储实战课——高速增长篇

数据库超时 MySQL CPU 的利用率一直是 100% 的话,MySQL 基本属于不可用的状态,执行的 SQL 都会超时。 CPU 利用率高的情况,绝大多数是由于慢 SQL 引起的,可以通过分析慢 SQL 日志查找类似问题原因。由于数据库忙的时候&#xff…

深入学习Android

我通过阅读邓凡平前辈的《深入理解Android》,为了加深学习作此学习笔记。虽然是邓老师2011著的书,但其中的安卓框架还是可以学习的。另老师的csdn地址在:阿拉神农的博客_CSDN博客-Android开发系列,深入理解Android,移动万态领域博主tips:阅读…

如何进阶一名有竞争力的程序员?

前言 这段时间,又互联网寒冬了,你看消息满天飞。一瞬间,裁员的,辟谣的,很是热闹。这搞得我们程序员很难受,本来压力就大,还动不动有人在你耳边煽风点火制造恐慌。我想说:难道就不能…

[附源码]Python计算机毕业设计SSM教师信息采集系统(程序+LW)

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

APISIX 在君润人力云原生平台的架构实践

讲师:袁鹏,一页科技架构师 摘要: 君润人力采用多套 Apache APISIX 集群来满足自研服务平台的功能需求。 君润人力成立于 2019 年,是一家以科技驱动的人力资源解决方案服务商,依托行业领先的科技水平和服务能力&#xf…

透视投影函数的图像

因为有个需求是判断线是否被视锥体裁切,因为NDC比较好判断是否裁切,所以研究了一下透视投影变换的函数图像。 从透视投影矩阵可以看出,在同一个z上,x,y都是线性的,所以这里主要研究z的变换函数图像。 我用的是Vulkan&a…

[附源码]Python计算机毕业设计SSM健身网站平台(程序+LW)

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

【SQL】锁机制

【SQL】锁机制锁的不同角度分类从数据操作的类型划分:读锁,写锁从数据操作的粒度划分:表级锁,页级锁,行锁表锁意向锁(intention lock)自增锁(AUTO-INC锁)元数据锁&#x…

Java --- Spring6对IoC的实现

目录 一、控制反转 二、依赖注入 三、set注入 四、构造注入 一、控制反转 1、控制反转是一种思想 2、控制反转是为了降低程序耦合度,提高程序扩展力,达到OCP原则,达到DIP原则。 3、控制反转主要有:①、将对象的创建权力交出去&#xff…