掌握 Python RegEx:深入探讨模式匹配

news2024/10/6 8:33:45

动动发财的小手,点个赞吧!

什么是正则表达式?

正则表达式通常缩写为 regex,是处理文本的有效工具。本质上,它们由一系列建立搜索模式的字符组成。该模式可用于广泛的字符串操作,包括匹配模式、替换文本和分割字符串。

历史

alt

数学家 Stephen Cole Kleene 在 20 世纪 50 年代首次引入正则表达式作为描述正则集或正则语言的表示法。

如今,正则表达式已成为程序员、数据科学家和 IT 专业人员的一项基本技能。

重要性

在深入研究如何使用这些正则表达式之前,让我们通过使用Python来看看它的不同应用范围,以激励我们自己。

  • 数据验证:正则表达式对于验证不同类型的数据非常有用。 (电子邮件地址、电话号码)
  • 网页抓取:通过网页抓取数据时,可以使用正则表达式来解析 HTML 并隔离必要的信息。
  • 搜索和替换:正则表达式擅长识别符合特定模式的字符串并用替代项替换它们。此功能在文本编辑器、数据库和编码中尤其有价值。
  • 语法突出显示:许多文本编辑器使用正则表达式来进行语法突出显示。
  • 自然语言处理 (NLP):在 NLP 中,正则表达式可用于标记化、词干提取和一系列其他文本处理函数等任务。
  • 日志分析:在处理日志文件时,正则表达式可以有效地提取特定日志条目或分析一段时间内的模式。

现在我希望你有足够的动力!

让我们开始使用 re 模块,它是关于正则表达式的。

re 模块简介

Python 通过 re 模块提供对正则表达式的固有支持。

该模块是Python的标准库,这意味着您不必在外部安装它,它会随每个Python安装一起提供。

re 模块包含用于使用正则表达式的各种函数和类。一些函数用于匹配文本,一些函数用于分割文本,还有一些函数用于替换文本。

它包括为处理正则表达式而定制的各种函数和类。其中,某些函数被指定用于文本匹配,其余函数被指定用于文本分割或文本替换。

导入 re 模块

正如我们已经提到的,它附带安装,因此无需担心安装。

这就是为什么要开始在 Python 中使用正则表达式,您需要首先导入 re 库。您可以使用 import 语句来执行此操作,如下所示。

import re

导入库后,您可以启动 re 模块提供的函数和类等功能。

让我们从一个简单的例子开始。

假设您想要查找字符串中出现的所有单词“Python”。

我们可以使用 re 模块中的 findall() 函数。

这是代码。

import re 
# Sample text 
text = "Python is an amazing programming language. Python is widely used in various fields." 
# Find all occurrences of 'Python' 
matches = re.findall("Python", text) 
# Output the matches 
print(matches)
alt

re 模块中有更多函数可以用来构建更复杂的模式。但首先,让我们看看 re 模块中的常用函数。

常用函数

在向您介绍 Python RegEx 的基础知识之前,我们先看看常用函数,以便更好地掌握其余概念。 re 模块包含许多不同的功能。通过使用它们,我们可以执行不同的操作。

在接下来的部分中,我们将发现其中的一些。

alt

re.match()

re.match() 捕获正则表达式是否以特定字符串开头。

如果存在匹配,该函数返回一个匹配对象;如果没有,则不返回任何内容。

接下来,我们将使用 re.match() 函数。这里我们将检查字符串文本是否以单词“Python”开头。然后我们将结果打印到控制台。

import re
pattern = "Python"
text = "Python is amazing."
# Check if the text starts with 'Python'
match = re.match(pattern, text)
# Output the result
if match:
    print("Match found:", match.group())
else:
    print("No match found")
  • 输出
alt

输出显示模式“Python”与文本的开头匹配。

re.search()

与 re.match() 相比,re.search() 函数扫描整个字符串来搜索匹配项,如果发现匹配项,则生成一个匹配对象。

在下面的代码中,我们使用 re.search() 函数在字符串文本中的任意位置搜索单词“amazing”。如果找到该单词,我们将其打印出来;否则,我们打印“未找到匹配项”。

pattern = "amazing"
text = "Python is amazing."
# Search for the pattern in the text
match = re.search(pattern, text)
# Output the result
if match:
    print("Match found:", match.group())
else:
    print("No match found")
  • 输出
alt

输出显示我们的代码从给定的文本中捕捉到了令人惊奇的结果。

re.findall()

re.findall() 函数用于收集字符串中某个模式的所有非重叠匹配项。它将这些匹配项作为字符串列表返回。

在下面的示例中,我们使用 re.findall() 函数查找字符串中的所有“a”。匹配项作为列表返回,然后我们将其打印到控制台。

pattern = "a"
text = "This is an example text."
# Find all occurrences of 'a' in the text
matches = re.findall(pattern, text)
# Output the matches
print(matches)
  • 输出
alt

输出表示在我们的文本中找到的字母“a”的所有非重叠出现。

re.finditer()

re.finditer() 函数与 re.findall() 类似,但它返回一个迭代器,该迭代器产生匹配对象。

在下面的代码中,re.finditer()函数用于查找字符串文本中所有出现的字母“a”。它返回匹配对象的迭代器,我们打印每个匹配的索引和值。

pattern = "a"
text = "This is an example text."
# Find all occurrences of 'a' in the text
matches = re.finditer(pattern, text)
# Output the matches
for match in matches:
    print(f"Match found at index {match.start()}{match.group()}")
  • 输出
alt

输出显示文本中模式“a”的索引。

re.sub()

re.sub() 函数用于将一个字符串替换为另一个字符串。接下来,我们将使用 re.sub() 函数将“Python”替换为“Java”。然后我们打印修改后的字符串。

pattern = "Python"
replacement = "Java"
text = "I love Python. Python is amazing."
# Replace 'Python' with 'Java'
new_text = re.sub(pattern, replacement, text)
# Output the new text
print(new_text)  # Output: "I love Java. Java is amazing."
  • 输出
alt

输出显示我们可以成功地将文本中的“Python”替换为“Java”。

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/800822.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在线阅读版:《2023中国软件供应链安全分析报告》全文

聚焦源代码安全,网罗国内外最新资讯! 专栏供应链安全 数字化时代,软件无处不在。软件如同社会中的“虚拟人”,已经成为支撑社会正常运转的最基本元素之一,软件的安全性问题也正在成为当今社会的根本性、基础性问题。 随…

火车头采集器伪原创【php源码】

大家好,小编来为大家解答以下问题,python中按钮的位置怎么摆放,python中按钮怎么设置颜色,现在让我们一起来看看吧! 火车头采集ai伪原创插件截图: 1、用python的pygame,做一个按钮 唔...摁钮?…

【万字长文】SpringBoot整合SpringSecurity+JWT+Redis完整教程(提供Gitee源码)

前言:最近在学习SpringSecurity的过程中,参考了很多网上的教程,同时也参考了一些目前主流的开源框架,于是结合自己的思路写了一个SpringBoot整合SpringSecurityJWTRedis完整的项目,从0到1写完感觉还是收获到不少的&…

MYSQL导入excel数据后只显示500条

问题:明明显示数据全部导入成功,但是点开table后发现只显示了500条 解决步骤:(以datagrip为例) 其实大家已经把数据导入了,只是在工具里,它在设置里面做了限制,只显示500条数据。只…

Kotlin 内联函数语法之let、apply、also、run、with的用法与详解

一、介绍 kotlin的语法千奇百怪,今天我们将介绍项目中频率使用比较高的几个内联函数。 二、什么叫内联函数? 内联函数 的语义很简单:把函数体复制粘贴到函数调用处 。使用起来也毫无困难,用 inline关键字修饰函数即可。 语法&a…

三菱FX5U系列PLC内置定位功能的基本使用方法介绍

三菱FX5U系列PLC内置定位功能的基本使用方法介绍 三菱FX5U系列PLC本体自带的高速脉冲输出可以实现定位功能,具体的使用方法可参考以下内容: 参数设定 如下图所示,新建一个工程,在左侧的项目树中找到参数–模块参数—高速I/O,双击进入后找到输出功能—定位—点击进入详细设…

BHQ 1Mal,BHQ-1 Maleimide,BHQ1马来酰亚胺,黑洞猝灭剂

资料编辑|陕西新研博美生物科技有限公司小编MISSwu​ PART1----产品描述: BHQ-1 Maleimide黑洞猝灭剂-1(BHQ-1)被归类为暗猝灭剂,该淬灭剂能够将一定距离内荧光基团发出的光全部吸收,实现对荧光信号的淬灭,所以可得到更强的特异性…

基于SpringBoot+Vue的学习平台设计与实现(源码+LW+部署文档等)

博主介绍: 大家好,我是一名在Java圈混迹十余年的程序员,精通Java编程语言,同时也熟练掌握微信小程序、Python和Android等技术,能够为大家提供全方位的技术支持和交流。 我擅长在JavaWeb、SSH、SSM、SpringBoot等框架…

神经网络的初始化方法

文章目录 1、随机初始化2、Xavier初始化3、He初始化4、权重预训练初始化5、零初始化 对于神经网络的训练过程中,合适的参数初始化方法有助于更好的处理梯度消失和梯度爆炸问题。通常有以下几种初始化方法: 1、随机初始化 随机初始化(Random…

[JavaWeb]MySQL的安装与介绍

MySQL的安装与介绍 一.数据库相关概念1.1 数据库1.2 常见的关系型数据库管理系统 二.MySQL数据库1.MySQL的安装2.配置环境变量3.新建MySQL配置文件4.初始化MySQL5.注册MySQL的服务6.修改默认账户与密码7.连接MySQL服务8.MySQL的卸载 三.MySQL的数据模型1.关系型数据库 一.数据库…

static关键字和继承

1、static关键字 1.1案例题目 • 编程实现People类的封装,特征有:姓名、年龄、国籍,要求提供打印所有特征的方法。 • 编程实现PeopleTest类,main方法中使用有参方式构造两个对象并打印。 /*编程实现People类的封装*/ public cl…

Python+Texturepacker自动化处理图片

前言 本篇在讲什么 PythonTexturepacker自动化处理图片 本篇需要什么 对Python语法有简单认知 依赖Python2.7环境 依赖Texturepacker工具 本篇的特色 具有全流程的图文教学 重实践,轻理论,快速上手 提供全流程的源码内容 ★提高阅读体验★ &…

ubuntu18.04 安装php7.4-xdebug

文章目录 场景解决 场景 apt install php7.4-xdebug 下载失败, 只好通过编译解决了 解决 https://xdebug.org/wizard 输入php -i的执行结果

mybatisplus映射解读

目录 自动映射 表映射 字段映射 字段失效 视图属性 Mybatis框架之所以能够简化数据库操作,是因为他内部的映射机制,通过自动映射,进行数据的封装,我们只要符合映射规则,就可以快速高效的完成SQL操作的实现。既然…

AI语音合成 VITS Fast Fine-tuning,半小时合成专属模型,部署训练使用讲解

前言 项目名:VITS-fast-fine-tuning (VITS 快速微调) 项目地址:https://github.com/Plachtaa/VITS-fast-fine-tuning 支持语言:中、日、英 官方简介: 这个代码库会指导你如何将自定义角色(甚至…

低温试验中的液氮注入式宽温区超高精度温度控制解决方案

摘要:当前各种测试仪器中的低温温度控制过程中,普遍采用电增压液氮泵进行制冷和辅助电加热形式的控温方式。由于液氮温度和传输压力的不稳定,这种方式的控温精度仅能达到0.5K,很难实现小于0.1K的高精度控温。为此本文基于饱和蒸气…

知识梳理(一)

HTTPS握手过程 https的核心的技术:使用非对称加密传输对称加密的密钥,然后用对称加密通信 TLS http--超文本传输协议,是以前并且沿用至今的网页协议。 缺点:http属于明文传输 HTTP的明文传输带来的问题是无法防止中间人截获、…

VScode远程不用再输入密码操作

安装插件remote development 1.先检查自己电脑上有没有生成一对公钥和私钥。(一般会在这个目录) 如果没有的话就自己生成一下。 打开命令行输入以下命令 ssh-keygen -t rsa2.在虚拟机中先看一下有没有公钥和私钥。如果没有的话就自己生成一下。 打开…

pytorch2.x 官方quickstart测试

文章目录 1.本地环境2.[安装pytorch](https://pytorch.org/get-started/locally/) (Windows GPU版本)3. [官方quickstart](https://pytorch.org/tutorials/beginner/basics/quickstart_tutorial.html) 1.本地环境 D:\python2023>nvidia-smi Thu Jul 27 23:27:45…

idea项目依赖全部找不到

目录 1,出错现象2,解决3,其他尝试 1,出错现象 很久没打开的Java项目,打开之后大部分依赖都找不到,出现了所有的含有import语句的文件都会报错和一些注解报红报错,但pom文件中改依赖是确实被引入…