正则表达式(Regular Expression,简称 Regex)

news2025/4/9 8:56:21

一、5w2h(七问法)分析正则表达式

是的,5W2H 完全可以应用于研究 正则表达式(Regular Expressions)。通过回答 5W2H 的七个问题,我们可以全面理解正则表达式的定义、用途、使用方法、适用场景等,帮助我们更好地学习和掌握它。

1. What(什么是正则表达式?)

  • 正则表达式是一种用于描述字符串模式的语法规则。它通过一些特殊的字符和符号来定义匹配文本的模式,广泛应用于文本搜索、替换、验证等操作中。正则表达式能够匹配符合特定规则的字符串。

例如:

  • \d:匹配任何数字字符。
  • ^abc:匹配以"abc"开头的字符串。
  • \w+:匹配一个或多个字母、数字或下划线。

2. Why(为什么要使用正则表达式?)

  • 正则表达式通过其简洁的语法提供了一种强大的工具,可以在文本中进行复杂的模式匹配,减少繁琐的文本处理代码,提升开发效率。
  • 用途
    • 验证输入:比如验证电子邮件地址、电话号码等格式。
    • 查找和替换:在文本中查找符合某个模式的字符串并替换。
    • 文本提取:从文本中提取符合特定模式的信息。

3. When(何时使用正则表达式?)

  • 当你需要处理或验证字符串的格式时,尤其是在文本搜索、数据清洗、日志分析等场景下,正则表达式非常有用。
  • 常见场景
    • 验证用户输入(如邮箱、日期格式等)。
    • 提取特定格式的数据(如从网页抓取邮箱地址、电话号码等)。
    • 文本搜索和替换(如在代码中查找函数定义或在文件中查找特定信息)。

4. Where(在哪里使用正则表达式?)

  • 正则表达式可以在许多编程语言和工具中使用,几乎所有现代编程语言都支持正则表达式(如 Java, Python, JavaScript, C# 等)。
  • 应用场景
    • 编程语言:在 Python 中使用 re 模块,在 JavaScript 中使用 RegExp 对象,在 Java 中使用 Pattern 类等。
    • 文本编辑器:许多文本编辑器(如 VS Code、Sublime Text)支持正则表达式来进行查找和替换。
    • 命令行工具:如 grep, sed, awk 等 Unix 工具支持正则表达式。

5. Who(谁使用正则表达式?)

  • 程序员:正则表达式是开发人员必备的工具,特别是涉及文本处理、数据清理、日志分析等任务时。
  • 测试人员:在自动化测试中,正则表达式可用于验证字符串的格式或从响应中提取信息。
  • 数据分析师:用于清洗和提取结构化或非结构化数据中的有用信息。

6. How(如何使用正则表达式?)

  • 正则表达式的语法通常包括常用的特殊字符和元字符,如:
    • .:匹配任意单个字符。
    • *:匹配前面的字符零次或多次。
    • +:匹配前面的字符一次或多次。
    • []:定义字符集,匹配其中的任意一个字符。
    • |:表示"或"操作,匹配左边或右边的表达式。
    • ():分组,用来定义子表达式或捕获匹配。
  • 使用方法
    • 在编程中,通常使用正则表达式的相关API进行匹配和操作。例如,在 Python 中:
import re
pattern = r'\d+'  # 匹配一个或多个数字
result = re.findall(pattern, 'There are 123 apples and 456 oranges.')
print(result)  # 输出:['123', '456']

7. How much(多少?)

  • 正则表达式本身是一个计算机程序语言的工具,它没有直接的“成本”,但它的复杂度和匹配的文本量可能会影响性能。尤其是在大型文本处理时,正则表达式的效率和匹配速度可能会成为问题。
  • 性能问题
    • 对于非常复杂的正则表达式,或者需要匹配大量文本的操作,可能会导致性能问题。因此在使用正则表达式时,需要谨慎设计,以避免过度复杂的匹配模式和低效的匹配操作。

总结:

通过使用 5W2H 方法来分析 正则表达式,可以帮助我们全面了解它的定义、目的、应用场景以及如何高效地使用它。在实际工作中,正则表达式是一个强大的工具,特别是在需要处理和分析字符串时,通过结构化思维,可以帮助我们更好地理解正则表达式的使用方式和最佳实践。

二、正则表达式-菜鸟教程-整理

非打印字符

非打印字符也可以是正则表达式的组成部分。下表列出了表示非打印字符的转义序列:

字符描述
\cx匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。
\f匹配一个换页符。等价于 \x0c 和 \cL。
\n匹配一个换行符。等价于 \x0a 和 \cJ。
\r匹配一个回车符。等价于 \x0d 和 \cM。
\s匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。注意 Unicode 正则表达式会匹配全角空格符。
\S匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t匹配一个制表符。等价于 \x09 和 \cI。
\v

匹配一个垂直制表符。等价于 \x0b 和 \cK。

特殊字符

所谓特殊字符,就是一些有特殊含义的字符,如上面说的 runoo*b 中的 *,简单的说就是表示任何字符串的意思。如果要查找字符串中的 * 符号,则需要对 * 进行转义,即在其前加一个 \,runo\*ob 匹配字符串 runo*ob

许多元字符要求在试图匹配它们时特别对待。若要匹配这些特殊字符,必须首先使字符"转义",即,将反斜杠字符\ 放在它们前面。下表列出了正则表达式中的特殊字符:

特别字符描述
$匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 '\n' 或 '\r'。要匹配 $ 字符本身,请使用 \$。
( )标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \)。
*匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \*。
+匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+。
.匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 \. 。
[标记一个中括号表达式的开始。要匹配 [,请使用 \[。
?匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \?。
\将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\",而 '\(' 则匹配 "("。
^匹配输入字符串的开始位置,除非在方括号表达式中使用,当该符号在方括号表达式中使用时,表示不接受该方括号表达式中的字符集合。要匹配 ^ 字符本身,请使用 \^。
{标记限定符表达式的开始。要匹配 {,请使用 \{。
|指明两项之间的一个选择。要匹配 |,请使用 \|。

限定符

限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有 * 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6种。

正则表达式的限定符有:

字符描述实例
*匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于 {0,}。尝试一下 »
+匹配前面的子表达式一次或多次。例如,zo+ 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。尝试一下 »
?

匹配前面的子表达式零次或一次。例如,do(es)? 可以匹配 "do" 、 "does"、 "doxy" 中的 "do" 和 "does"。? 等价于 {0,1}。

尝试一下 »
{n}n 是一个非负整数。匹配确定的 n 次。例如,o{2} 不能匹配 "Bob" 中的 o,但是能匹配 "food" 中的两个 o尝试一下 »
{n,}n 是一个非负整数。至少匹配n 次。例如,o{2,} 不能匹配 "Bob" 中的 o,但能匹配 "foooood" 中的所有 o。o{1,} 等价于 o+。o{0,} 则等价于 o*。尝试一下 »
{n,m}m 和 n 均为非负整数,其中 n <= m。最少匹配 n 次且最多匹配 m 次。例如,o{1,3} 将匹配 "fooooood" 中的前三个 o。o{0,1} 等价于 o?。请注意在逗号和两个数之间不能有空格。

* 和 + 限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个 ? 就可以实现非贪婪或最小匹配。

例如,您可能搜索 HTML 文档,以查找在 h1 标签内的内容。HTML 代码如下:

<h1>RUNOOB-菜鸟教程</h1>

贪婪:下面的表达式匹配从开始小于符号 (<) 到关闭 h1 标记的大于符号 (>) 之间的所有内容。

/<.*>/

非贪婪:如果您只需要匹配开始和结束 h1 标签,下面的非贪婪表达式只匹配 <h1>。

/<.*?>/

也可以使用以下正则表达式来匹配 h1 标签,表达式则是:

/<\w+?>/

通过在 *、+ 或 ? 限定符之后放置 ?,该表达式从"贪婪"表达式转换为"非贪婪"表达式或者最小匹配。

以下列出 ?=、?<=、?!、?<! 的使用区别

exp1(?=exp2):查找 exp2 前面的 exp1。

(?<=exp2)exp1:查找 exp2 后面的 exp1。

exp1(?!exp2):查找后面不是 exp2 的 exp1。

(?<!exp2)exp1:查找前面不是 exp2 的 exp1。

三、如何分析正则表达式-案例

你提供的正则表达式 ^[0-9]{1,}\.([^。|\r]*)[。|\r] 用于匹配以数字开头、后跟句点(.),并以句号()或换行符(\r)结尾的字符串。以下是对该正则表达式的详细解析:


1. 正则表达式解析

^[0-9]{1,}\.([^。|\r]*)[。|\r]
各部分含义:
  1. ^: 匹配字符串的开头。
  2. [0-9]{1,}:
    • [0-9]: 匹配任意一个数字(0到9)。
    • {1,}: 表示前面的模式(数字)至少出现1次,可以出现多次。
    • 整体含义:匹配一个或多个数字。
  1. \.: 匹配一个句点(.)。由于句点在正则表达式中有特殊含义(匹配任意字符),因此需要用反斜杠(\)进行转义。
  2. ([^。|\r]*):
    • [^。|\r]: 匹配不是句号()或换行符(\r)的任意字符。
    • *: 表示前面的模式(非句号或换行符)可以出现0次或多次。
    • 整体含义:匹配一段不包含句号或换行符的文本,并将其捕获为一个分组。
  1. [。|\r]: 匹配一个句号()或换行符(\r),表示字符串的结束。

2. 匹配示例

假设有以下文本:

1.这是一个测试。
2.这是另一个测试
3.这是第三个测试。
匹配结果:
  1. 1.这是一个测试。:
    • 匹配内容:1.这是一个测试。
    • 捕获的分组:这是一个测试
  1. 2.这是另一个测试:
    • 匹配内容:2.这是另一个测试
    • 捕获的分组:这是另一个测试
  1. 3.这是第三个测试。:
    • 匹配内容:3.这是第三个测试。
    • 捕获的分组:这是第三个测试

3. 改进建议

你的正则表达式已经可以满足基本需求,但有一些地方可以优化:

  1. 字符集语法:
    • [^。|\r] 中的 | 是多余的,应该直接写成 [^。\r]
    • 修正后:([^。\r]*)
  1. 换行符处理:
    • 如果需要匹配多种换行符(如 \n\r\n),可以将 \r 替换为 \r?\n
    • 修正后:[。\r?\n]
改进后的正则表达式:
^[0-9]{1,}\.([^。\r]*)[。\r?\n]

4. 总结

  • 原始正则表达式: ^[0-9]{1,}\.([^。|\r]*)[。|\r]
  • 功能: 匹配以数字开头、后跟句点,并以句号或换行符结尾的字符串。
  • 优化建议: 修正字符集语法,并考虑多种换行符的情况。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2329646.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JMeter脚本录制(火狐)

录制前准备&#xff1a; 电脑&#xff1a; 1、将JMeter证书导入&#xff0c;&#xff08;bin目录下有一个证书&#xff0c;需要安装这个证书到电脑中&#xff09; 2、按winr&#xff0c;输入certmgr.msc&#xff0c;打开证书&#xff0c;点击下一步&#xff0c;输入JMeter证书…

基于SpringBoot的“高校社团管理系统”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“高校社团管理系统”的设计与实现&#xff08;源码数据库文档PPT) 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;SpringBoot 工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系统展示 总体功能结构图 局部E-R图 系统首页页面 用户…

C# Winform 入门(3)之尺寸同比例缩放

放大前 放大后 1.定义当前窗体的宽度和高度 private float x;//定义当前窗体的宽度private float y;//定义当前窗台的高度 2.接收当前窗体的尺寸大小 x this.Width;//存储原始宽度ythis.Height;//存储原始高度setTag(this);//为控件设置 Tag 属性 3.声明方法&#xff0c;获…

infinityfree最新免费建站详细教程_无需备案_5G空间_无限流量_免费域名_免费SSL

一、明确目标—是否要使用 1.为什么选择InfinityFree&#xff1f; 对于初学者、学生或只是想尝试网站搭建的个人用户来说&#xff0c;InfinityFree提供了一个绝佳的免费解决方案。这个国外免费的虚拟主机服务提供&#xff1a; 5GB存储空间 - 足以存放个人博客、作品集或小型…

打造高效英文单词记忆系统:基于Python的实现与分析

在当今全球化的世界中,掌握一门外语已成为必不可少的技能。对于许多学习者来说,记忆大量的英文单词是一个漫长而艰难的过程。为了提高学习效率,我们开发了一个基于Python的英文单词记忆系统。这个系统结合了数据管理、复习计划、学习统计和测试练习等多个模块,旨在为用户提…

node_modules\deasync: Command failed.

运行&#xff1a;“yarn install” 时报错 PS D:\WebPro\hainan-mini-program> yarn install yarn install v1.22.19 [1/4] Resolving packages... [2/4] Fetching packages... [3/4] Linking dependencies... warning " > babel-loader8.2.2" has un…

游戏引擎学习第206天

回顾并为当天的工作定下目标 接着回顾了前一天的进展。之前我们做了一些调试功能&#xff0c;并且已经完成了一些基础的工作&#xff0c;但是还有一些功能需要继续完善。其中一个目标是能够展示实体数据&#xff0c;以便在开发游戏逻辑系统时&#xff0c;可以清晰地查看和检查…

Zapier MCP:重塑跨应用自动化协作的技术实践

引言&#xff1a;数字化协作的痛点与突破 在当今多工具协同的工作环境中&#xff0c;开发者与办公人员常常面临数据孤岛、重复操作等效率瓶颈。Zapier推出的MCP&#xff08;Model Context Protocol&#xff09;协议通过标准化数据交互框架&#xff0c;为跨应用自动化提供了新的…

蓝桥云客--破译密码

5.破译密码【算法赛】 - 蓝桥云课 问题描述 在近期举办的蓝桥杯竞赛中&#xff0c;诞生了一场激动人心的双人破译挑战。比赛的主办方准备了N块神秘的密码芯片&#xff0c;参赛队伍需要在这场智力竞赛中展示团队合作的默契与效率。每个队伍需选出一位破译者与一位传输者&#…

React-Diffing算法和key的作用

1.验证Diffing算法 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title> </he…

【NLP 54、大模型训练相关知识】

目录 引言&#xff1a;大模型训练两大问题 一、并行训练 1.方式一&#xff1a;数据并行 DP ① 复制模型到多个GPU ② 各自计算梯度后累加&#xff0c;再反传更新 ③ 需要单卡就能训练整个模型&#xff08;显存够大&#xff09; 2.方式二&#xff1a;模型并行 PP ① 将模型的不同…

cursor机器码重置

1、下载vscode插件 cursor-fake-machine-0.0.2 2、将插件拖入拓展 3、彻底将cursor账号退出 setting -> Manage -> 退出账号 4、打开cursor&#xff0c;ctrlshiftp &#xff0c;输入fake,点击确定

全国产FMC子卡-16bit 8通道2.4G

国产化FMC DA子卡&#xff0c;16bit 8通道2.4GS/s 全国产FMC子卡是一款高分辨率、高采样率的全国产多通道标准双宽DAC FMC子板。其接口电气和结构设计均依据FMC标准(ANSI/VITA 57.1)&#xff0c;通过两个高密度FMC连接器&#xff08;HPC&#xff09;连接至FPGA载板。它提供8路A…

fpga:分秒计时器

任务目标 分秒计数器核心功能&#xff1a;实现从00:00到59:59的循环计数&#xff0c;通过四个七段数码管显示分钟和秒。 复位功能&#xff1a;支持硬件复位&#xff0c;将计数器归零并显示00:00。 启动/暂停控制&#xff1a;通过按键控制计时的启动和暂停。 消抖处理&#…

小白 thingsboard 拆分前后端分离

1、modules 里注释掉ui_ugx <modules><module>netty-mqtt</module><module>common</module><module>rule-engine</module><module>dao</module><module>edqs</module><module>transport</module&g…

4G专网:企业数字化转型的关键通信基石

4G专网 在数字化转型的浪潮下&#xff0c;企业对高可靠性、低时延、安全可控的通信网络需求日益增长。传统的公用蜂窝网络难以满足企业在工业自动化、能源管理、智慧城市等领域的特殊需求&#xff0c;因此4G专网成为众多行业的优先选择。作为行业领先的移动核心网提供商&#x…

基于FLask的共享单车需求数据可视化分析系统

【FLask】基于FLask的共享单车需求数据可视化分析系统 &#xff08;完整系统源码开发笔记详细部署教程&#xff09;✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 该系统能够整合并处理大量共享单车使用数据&#xff0c;通过直观的可视化手段&#xff0…

STL 性能优化实战:解决项目中标准模板库的性能瓶颈

&#x1f9d1; 博主简介&#xff1a;CSDN博客专家、全栈领域优质创作者、高级开发工程师、高级信息系统项目管理师、系统架构师&#xff0c;数学与应用数学专业&#xff0c;10年以上多种混合语言开发经验&#xff0c;从事DICOM医学影像开发领域多年&#xff0c;熟悉DICOM协议及…

ES使用聚合aggregations实战(自用:2025.04.03更新)

ES使用聚合aggregations实战 聚合模板桶聚合&#xff1a;Bucket Aggregations指标聚合&#xff1a;Metrics Aggregations管道聚合&#xff1a;Pipeline Aggregations嵌套聚合日期直方图&#xff1a;date-histogram 接口实战接口一&#xff1a;根据stu_id分组统计时间段内的各个…

AI Agent设计模式四:Evaluator

概念 &#xff1a;质量验证与反馈机制 ✅ 优点&#xff1a;自动化质量检查&#xff0c;实现持续优化闭环❌ 缺点&#xff1a;评估准确性依赖模型能力 from typing import TypedDict from langchain_openai import ChatOpenAI from langgraph.graph import StateGraph, START, …