正则表达式高阶技巧之环视的组合(使用python实现)

news2024/11/27 22:39:29

环视的组合

    • 介绍
    • 环视的组合
      • 环视中包含环视
      • 并列多个环视
        • 注意:
      • 环视作为多选分支排列在多选结构中
      • 断言与反向引用之间的关系

介绍

在我们日常使用的编程语言都是支持环视的,但是语言不同,支持程度也就不同,下面具体介绍一下在python中的支持:

  • 一般来说,所有语言都是支持环视的,而且是没有限制。也就是说,无论你是使用肯定顺序环视,还是否定顺序环视,都可以在结构中使用各种复杂的表达式
  • 但是在python中规定:逆序环视中的表达式能匹配的文本长度必须是固定的,也就是说,(?<=cat)是合法的, (?<=(cat|dog))也是合法的,因为环视中的子表达式能匹配的文本都是固定的; 而((?<=(cats|dog)))(?<=dogs?) 则都是不合法的,因为环视的子表达式能匹配的文本长度是不确定的
  • 要解决上诉问题:可以使用多选结构来改造表达式,比如,cats?等价于(dog|dogs),所以可以将上述的环视结构改写为((?<=cat)|(?<=cats)),同样是,((?<=(cats|dog)))也可以修改为((?<=cats)|(?<=dog));但是上述的方法的应用场景是非常有限的,如果逆序环视的表达式较为复杂,使用多选结构列出就略显不便;而且一旦表达式中出现了*+这类的量词,就不能再使用多选结构列出了

环视的组合

  • 环视匹配的并不是字符,而是位置。在正则表达式匹配时,表示环视结构匹配成功,并不会更改“当前的位置”,所以多个还是可以组合在一起,实现在同一位置的多种判断

环视中包含环视

  • 如我们在匹配主机名时,限定了主机长度不能超过255个字符,使用表达式(?=[-a-zA-Z0-9.]{0,255}(?![-a-zA-Z0-9.]))。其中的(?![-a-zA-Z0-9.])是包含在外层的环视中的,它要求在这个位置(也就是正确的主机名字符串之后),不能再出现属于主机名字符串的字符,也就是保证之前的表达式匹配的是整个主机名字符串,而不是“可能的主机名字符串的一部分”;综合起来,(?=[-a-zA-Z0-9.]{0,255}(?![-a-zA-Z0-9.]))保证的是“整个主机名字字符串的长度为255字符以内”,逻辑如下图:
    在这里插入图片描述

并列多个环视

  • 并列多个环视,他要求在当前位置,所有的环视判断都必须成功。比如:要知道一个这样的位置,它之后必须是一个数字字符串,但是不能是以999开头的数字字符串。这个时候就必须并列这两个环视
  • 表示数字字符串的表达式为\d+,对应的环视结构为(?=\d+);表示“不能以999开头”的表达式的环视结构为(?!999)。我们要做的是将两个环视结构并列起来,得到(?=\d+)(?!999)。因为环视结构不会更改当前位置,所以先后顺序没有影响,无论是(?=\d+)(?!999)还是(?!999)(?=\d+),效果是相同的,都是必须要求两个环视条件必须同时满足
  • 在当前位置,之后必须出现数字字符串;在当前位置,之后不能是出现999,最终的结果是两个环视做“与(and)”运算,就是说,两个条件必须同时满足才能进行匹配成功,否则失败,如下测试:
import re
# 查找这样的起始位置:它之后必须是数字字符串,且不能以999开头
# 数字字符串
re.search(r"^(?=\d+)(?!999)", '123456') is not None
# 非数字字符串
re.search(r"^(?=\d+)(?!999)", 'wywy') is not None
# 数字字符串但是以999开头
re.search(r"^(?=\d+)(?!999)", '999123456') is not None

在这里插入图片描述
逻辑如下图:
在这里插入图片描述

注意:

  • 仔细观察上述(!?999)这个环视结构会发现,字符串99999的开始位置也是不能匹配的,这是因为(!?999)不允许出现的其实是字符串999,而不是数值999,如果要更加准确的表示数值999,应该使用(!?999)(?!\d)这个环视

环视作为多选分支排列在多选结构中

  • 最后常见的环视结构就是将若干环视作为多选分支排列在多选结构中(或(or))。如要找到这样的一个位置:它之后要么不是数字字符,要么是一个数字字符和一个非数字字符(比如3w)。“不是数字字符”对应的环视为(?!\d);而“一个数字字符和一个非数字字符”对应的环视为(?=\d\D),所以最终组合后的环视为(?!\d)|(?=\d\D)。虽然我们在上面我们也探讨过并列多个环视组合,但是在多选结构中列出多个环视结构的意义与上面不太一样。使用多选环视结构,列出的多个环视只要有一个成立,整个判断都是成功的;不使用多选结构时,所有列出的环视都必须成立,整个判断才能成功,如下测试:
import re
# 查找这样的起始位置:它之后要么不是数字字符,要么是一个数字字符和一个非数字字符
# 不是数字字符
re.search(r"^((?!\d)|(?=\d\D))","ab") is not None
# 一个数字字符与一个非数字字符
re.search(r"^((?!\d)|(?=\d\D))","3w") is not None
# 单个数字字符
re.search(r"^((?!\d)|(?=\d\D))","6") is not None
# 连续的数字字符
re.search(r"^((?!\d)|(?=\d\D))","6666") is not None

在这里插入图片描述
逻辑如下图:
在这里插入图片描述

断言与反向引用之间的关系

  • 断言不匹配任何字符,只匹配位置;而反向引用只引用之前的捕获分组匹配的文本,之前捕获分组中锚点表示的文职信息,在反向引用时并不会保留下来
  • 举例来说,如果正则表达式为(\bcat\b)\s\1\1所匹配的,就不只有单独出现的cat,还有包括在单词内部的cat,比如(category中的cat),如果要验证单词cat是否在字符串中出现了两次,正确的做法是在反向引用的两端也加上单词边界\b,变成(\bcat\b.*?\b\1\b),如下举例:
import re
# 未加单词边界\b
re.search(r"(\bcat\b)\s+\1", 'cat category') is not None
# 加单词边界\b
re.search(r"(\bcat\b)\s+\b\1\b", 'cat category') is not None
# 加单词边界\b
re.search(r"(\bcat\b)\s+\b\1\b", 'cat cat') is not None

在这里插入图片描述

  • 在后续使用正则中一定要注意:使用(\bcat\b)\s+\1来匹配“重复的单词”是不对的,应该使用(\bcat\b)\s+\b\1\b

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/402489.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【ChatGPT前世今生】前置知识Seq2Seq入门理解

【ChatGPT前世今生】前置知识Seq2Seq入门理解1、环境准备与依赖包安装2、数据集准备3、数据集预处理与读取4、定义Seq2Seq模型的基础类5、预处理训练数据集6、定义训练过程7、定义验证过程8、执行训练与验证过程9、展示模型的结果&#xff0c;进行进一步分析最近一段时间&#…

js - CommonJs和ES6 module的使用和区别

文章目录1&#xff0c;先说区别2&#xff0c;CommonJS3&#xff0c;ES6 module1&#xff0c;先说区别 阮一峰老师在 ES6 入门 中提到 ES6 模块与 CommonJS 模块有一些重大的差异&#xff1a; 它们有三个重大差异&#xff1a; CommonJS 模块输出的是一个值的拷贝&#xff0c;…

Idea+maven+spring-cloud项目搭建系列--11-1 dubbo(zookeeper,nacos)注册中心

前言&#xff1a;dubbo rpc 服务需要将服务提供者和消费者信息进行注册&#xff0c;以便于消费端可以完成远程接口调用&#xff1b;注册中心是 Dubbo 服务治理的核心组件&#xff0c;Dubbo 依赖注册中心的协调实现服务&#xff08;地址&#xff09;发现&#xff0c;自动化的服务…

json-server单独使用或者在react中进行使用

json-serverjson-server使用教程修改json-server端口号启动1、全局安装json-server2、在根目录生成一个db.json3、启动 访问react中进行使用react中修改json-server启动端口号1、 第一步也是安装&#xff0c;和第一种一样2、在根路径下定义一个__json_server_mock__文件夹3、在…

怎么合并或注销重复LinkedIn领英帐号?

您可能会发现您拥有多个领英帐户。如果您收到消息&#xff0c;提示您尝试使用的邮箱与另一个帐户已绑定&#xff0c;就表明您可能存在重复的领英帐户。如果您使用许多不同的邮箱地址&#xff0c;也可能会收到这样的提示。 领英精灵温馨提示: 目前&#xff0c;仅支持在 PC 端合并…

设置基站IP设置基站连接服务器

一、基站状态指示灯 基站正常连接上服务器&#xff0c;基站指示灯如下&#xff0c;第一个灯是电源指示灯常亮&#xff1b;第二个灯为运行指示灯&#xff0c;程序正常运行第二个灯一直闪烁&#xff1b;第三个灯为为网络指示灯&#xff0c;网络连接正常会常亮&#xff0c;网络不…

SQL注入进阶练习(一)一些进阶的注入方法

SQL注入进阶练习1. 二次注入1.1 概念1.2 sqllabs less-241.2.1 利用示例1.2.2 原理剖析1.3 网鼎杯2018 二次注入1.3.1 环境搭建1.3.2 解题思路1.3.2.1 寻找源码 - git泄露数据恢复1.git是啥2.获取源码泄露的数据1.3.2.2 源码分析1.3.2.3 爆破登陆密码1.3.2.4 实施二次注入获取f…

C/C++指针与数组(二)

数组与运算符*、&和[]&#xff0c;行指针和列指针的概念 一、一维数组 #include<iostream> int main(int argc, char *argv[]) {int a[5] { 1, 2, 3, 4, 5 };std::cout << "a : " << a << "\t\t&a[0]: " << &a…

day23_关键字static丶代码块丶native关键字

static关键字 static是静态的意思&#xff0c;可以用来修饰成员变量、成员方法&#xff1a; 修饰成员变量 我们称为类变量&#xff0c;或静态变量&#xff0c;&#xff08;类变量&#xff1a;属于类、加载一次&#xff0c;内存中只有一份&#xff09;可以被类的所有对象共享…

windows+Anaconda环境下安装BERT成功安装方法及问题汇总

前言 在WindowsAnaconda环境下安装BERT&#xff0c;遇到各种问题&#xff0c;几经磨难&#xff0c;最终成功。接下来&#xff0c;先介绍成功的安装方法&#xff0c;再附上遇到的问题汇总 成功的安装方法 1、创建虚拟环境 注意&#xff1a;必须加上python3.7.12以创建环境&a…

C语言运算符优先级以及记忆方式

C语言运算符优先级 C语言中运算符的优先级从高到低如下&#xff1a; 一元运算符&#xff1a;! – &#xff08;正数&#xff09;-&#xff08;负数&#xff09;& &#xff08;取地址&#xff09;*&#xff08;指针值&#xff09; 乘除模运算符&#xff1a;* / % 加减运…

2023年系统集成项目管理工程师【计算要点和常用公式】

一、常用缩写缩写含义PV计划费用AC实际费用EV挣值SV进度偏差CV成本偏差SPI进度绩效指数CPI成本绩效指数BAC完工预算EAC完工估算ETC完工尚需估算VAC完工偏差EMV预期货币价值分析EVA挣值分析EVM挣值管理CPM关键路径法二、主要公式1. 成本管理计算内容公式要点成本偏差 CVCVEV-AC&…

Spring Cloud (Consul注册、发现)

操作步骤&#xff1a; 安装Consul服务端在服务内添加客户端依赖修改配置类&#xff0c;添加注解编写yml文件一、安装Consul服务端 链接&#xff1a;https://www.consul.io/downloads.html&#xff0c;解压 开启cmd&#xff0c;进入你的Consul解压路径&#xff0c;我是在E盘 …

JVM篇之类加载机制

目录JVM篇之类加载机制类加载过程1.加载2.验证3.准备4.解析5.初始化类加载器类的加载双亲委派模型JVM篇之类加载机制 类加载过程 JVM类的加载过程分为五个部分&#xff1a;加载&#xff0c;验证&#xff0c;准备&#xff0c;解析&#xff0c;初始化&#xff0c;其中验证&#…

通用数据类型链表C语言实现

通用链表是一种动态内存分配的数据结构&#xff0c;其中每个节点包含一个指向下一个节点的指针和一个指向任意类型数据的指针。因此&#xff0c;通用链表可以容纳任意类型的数据&#xff0c;这是其与其他数据结构不同的地方。 通用链表的实现可以分为以下几个步骤&#xff1a;…

《百万在线 大型游戏服务端开发》前两章概念笔记

第1章 从角色走路说起 游戏网络通信的流程则是服务端先开启监听&#xff0c;等待客户端的连接&#xff0c;然后交互操作&#xff0c;最后断开。 套接字 每个Socket都包含网络连接中一端的信息。每个客户端需要一个Socket结构&#xff0c;服务端则需要N1个Socket结构&#xff…

直击2023云南移动生态合作伙伴大会,聚焦云南移动的“价值裂变”

作者 | 曾响铃 文 | 响铃说 2023年3月2日下午&#xff0c;云南移动生态合作伙伴大会在昆明召开。云南移动党委书记&#xff0c;总经理葛松海在大会上提到“2023年&#xff0c;云南移动将重点在‘做大平台及生态级新产品&#xff0c;做优渠道转型新动能&#xff0c;做强合作新…

利用canvas给图片添加水印

前言前两天给个人网站添加了一个小功能&#xff0c;就是在文章编辑上传图片的时候自动给图片加上水印。给网页图片添加水印是个常见的功能&#xff0c;也是互联网内容作者保护自己版权的方法之一。本文简单记录一下借助canvas在前端实现图片添加水印的实现方法。canvas元素其实…

学python的第七天---基础进阶

一、数组翻转写法一&#xff1a;myselfa[:size]a[:size][::-1]写法二&#xff1a;函数写法三&#xff1a;二、复制数组写法一:写法二&#xff1a;写法三&#xff1a;三、最小公倍数写法一&#xff1a;写法二&#xff1a;写法三&#xff1a;gcd写法四&#xff1a;其他&#xff1…

visual studio 2019创建一个项目的详细步骤

引言&#xff1a;本着边学边记录的原则&#xff0c;把学习的过程给记录下来&#xff0c;自己回顾的同时也分享给大家&#xff0c;转载请注明出处哈。 1、首先在桌面上双击打开visual studio 2019&#xff0c;看到如下界面&#xff1a; 2、点击1红框中的创建新项目&#xff0c;…