正则入门到精通

news2025/4/7 6:14:02


![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/ee791b6fb74b4f649bdba48efea7c7ee.png

一、正则表达式入门​

正则表达式本质上是一串字符序列,用于定义一个文本模式。通过这个模式,我们可以指定要匹配的文本特征。例如,如果你想匹配一个以 “abc” 开头的字符串,正则表达式可以写作 “^abc”,其中 “^” 表示匹配字符串的开头。​

(一)基本字符匹配​

在正则表达式中,普通字符(如字母、数字)通常表示它们自身。例如,正则表达式 “abc” 可以匹配文本中的 “abc” 序列。如果文本是 “abcdef”,那么 “abc” 会匹配成功;但如果文本是 “defabc”,那么匹配失败,因为正则表达式是从左到右进行匹配的。​

案例(JavaScript):​

const text1 = "abcdef";const regex1 = /abc/;​

console.log(regex1.test(text1)); // 输出: true​const text2 = "defabc";const regex2 = /abc/;​

console.log(regex2.test(text2)); // 输出: false​

在上述代码中,/abc/是一个正则表达式字面量,test方法用于测试给定的字符串是否包含匹配正则表达式的文本。​

(二)特殊字符​

正则表达式中有一些特殊字符,它们具有特殊的含义。例如:​

“.”(点号):匹配任意单个字符(除了换行符)。例如,“a.c” 可以匹配 “abc”、“adc” 等,但不能匹配 “ac”。​
”(星号):表示前面的字符可以出现零次或多次。例如,“abc” 可以匹配 “ac”、“abc”、“abbc” 等。​
“+”(加号):表示前面的字符至少出现一次。例如,“ab+c” 可以匹配 “abc”、“abbc” 等,但不能匹配 “ac”。​
“?”(问号):表示前面的字符可以出现零次或一次。例如,“ab?c” 可以匹配 “ac” 和 “abc”。​
”(脱字符):用于匹配字符串的开头。例如,“abc” 表示匹配以 “abc” 开头的字符串。​
“​

” 表示匹配以 “abc” 结尾的字符串。​

// “.”的案例​

const text3 = "a1c a2c a c";const regex3 = /a.c/;​

console.log(text3.match(regex3)); // 输出: ["a1c"],注意:match方法默认只返回第一个匹配结果​// “*”的案例​

const text4 = "ac abc abbc abbbc";const regex4 = /ab*c/;​

console.log(text4.match(regex4)); // 输出: ["abbbc"]​// “+”的案例​

const text5 = "abc abbc abbbc";const regex5 = /ab+c/;​

console.log(text5.match(regex5)); // 输出: ["abbbc"]​// “?”的案例​

const text6 = "ac abc";const regex6 = /ab?c/;​

console.log(text6.match(regex6)); // 输出: ["abc"]​// “^”的案例​

const text7 = ["abcdef", "defabc", "abc"];const regex7 = /^abc/;​

text7.forEach(str => {​

console.log(regex7.test(str));// 输出: true, false, true​

});​

​

// “$”的案例​

const text8 = ["abc", "defabc", "abcd"];const regex8 = /abc$/;​

text8.forEach(str => {​

console.log(regex8.test(str));// 输出: true, true, false​

});

在这些案例中,match方法用于在字符串中查找所有匹配正则表达式的子字符串,并返回一个数组。如果没有找到匹配项,则返回null。test方法则用于判断字符串是否与正则表达式匹配,返回true或false。​

(三)字符集​

字符集用于匹配一组特定的字符。例如,“[abc]” 可以匹配 “a”、“b” 或 “c”。字符集还可以使用范围表示法,如 “[a-z]” 表示匹配任意一个小写字母,“[0-9]” 表示匹配任意一个数字。​

// 匹配元音字母​

const text9 = "apple banana cherry";const regex9 = /[aeiou]/g;​

console.log(text9.match(regex9));// 输出: ["a", "e", "a", "a", "e"],这里的“g”标志表示全局匹配,即找到所有匹配项​// 匹配数字​

const text10 = "123abcABC";const regex10 = /[0-9]/g;​

console.log(text10.match(regex10)); // 输出: ["1", "2", "3"]​// 匹配字母​

const text11 = "123abcABC";const regex11 = /[a-zA-Z]/g;​

console.log(text11.match(regex11)); // 输出: ["a", "b", "c", "A", "B", "C"]​

在上述代码中,正则表达式中的 “g” 标志是非常重要的,它使得match方法能够返回所有匹配的结果,而不仅仅是第一个。​

(四)分组​

分组是通过圆括号 “()” 来实现的。它可以将多个字符组合在一起,作为一个整体进行匹配。例如,“(abc)+” 表示匹配一个或多个 “abc” 序列。​

const text12 = "abcabcabc abcab ab";const regex12 = /(abc)+/g;​

console.log(text12.match(regex12));// 输出: ["abcabcabc", "abcab"]​

在这个例子中,通过分组我们能够准确匹配由一个或多个 “abc” 序列组成的子字符串。​

二、正则表达式的进阶应用​

(一)匹配特定格式的文本​

正则表达式可以用来匹配各种特定格式的文本,如日期、电话号码、电子邮件地址等。例如,一个简单的电子邮件地址匹配正则表达式可以写作 “[a-zA-Z0-9_.±]+@[a-zA-Z0-9-]+.[a-zA-Z0-9-.]+”。这个表达式通过字符集和分组的方式,确保了电子邮件地址的基本格式。​

// 日期匹配​

const text13 = "今天是2023-10-15,明天是2023-10-16";const regex13 = /\d{4}-\d{2}-\d{2}/g;​

console.log(text13.match(regex13));// 输出: ["2023-10-15", "2023-10-16"]​// 电话号码匹配​

const text14 = "联系电话:13800138000";const regex14 = /1\d{10}/;​

console.log(text14.match(regex14)); // 输出: ["13800138000"]​// 电子邮件地址匹配​

const text15 = "我的邮箱是example@example.com,另一个是test_123@test-company.co.uk";const regex15 = /[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+/g;​

console.log(text15.match(regex15));// 输出: ["example@example.com", "test_123@test-company.co.uk"]​

这些案例展示了如何使用正则表达式在 JavaScript 中准确匹配常见的特定格式文本。​

(二)捕获与替换​

正则表达式不仅可以用于匹配文本,还可以用于捕获和替换文本。通过分组和捕获功能,我们可以提取文本中的特定部分,并进行替换操作。例如,在文本编辑器中,我们可以使用正则表达式查找所有以 “http://” 开头的链接,并将其替换为 “https://”。​

// 捕获域名部分并替换链接协议​

const text16 = "请访问链接:http://example.com和http://test.com";const regex16 = /http://([a-zA-Z0-9-.]+)/g;const newText16 = text16.replace(regex16, "https://$1");​

console.log(newText16);// 输出: 请访问链接:https://example.com和https://test.com​// 提取价格部分​

const text17 = "苹果价格是10元,香蕉价格是5元";const regex17 = /价格是 (\d+) 元/g;const prices = text17.match(regex17);if (prices) {​

prices.forEach(price => {const num = price.match(/\d+/)[0];​

console.log(parseInt(num));// 输出: 10, 5​

});}

在第一个替换案例中,replace方法接受一个正则表达式和一个替换字符串,其中 “$1” 表示引用第一个捕获组的内容。在第二个提取案例中,我们先通过正则表达式找到包含价格的子字符串,然后再进一步提取其中的数字。​

(三)贪婪与非贪婪匹配​

在正则表达式中,贪婪模式会尽可能多地匹配字符,而非贪婪模式则会尽可能少地匹配字符。例如,“ab” 是一个贪婪模式,它会匹配 “aabb” 中的 “aabb”;而 “a?b” 是一个非贪婪模式,它会匹配 “aabb” 中的 “ab” 和 “abb”。​

// 贪婪模式案例​

const text18 = "aaaab";const regex18 = /a*b/;​

console.log(text18.match(regex18)); // 输出: ["aaaab"]​// 非贪婪模式案例​

const text19 = "aaaab";const regex19 = /a*?b/;​

console.log(text19.match(regex19)); // 输出: ["ab"]​// 提取HTML标签内内容的案例​

const text20 = "<div>content1</div><div>content2</div>";const greedyRegex = /<div>.*</div>/;const nonGreedyRegex = /<div>.*?</div>/g;​

console.log(text20.match(greedyRegex));// 输出: ["<div>content1</div><div>content2</div>"]​

console.log(text20.match(nonGreedyRegex));// 输出: ["<div>content1</div>", "<div>content2</div>"]​

通过这些案例,可以清晰地看到贪婪模式和非贪婪模式在匹配行为上的差异。​

三、正则表达式的高级技巧​

(一)前瞻与后顾​

前瞻(Lookahead)和后顾(Lookbehind)是正则表达式中的高级功能。它们允许我们在匹配时考虑后面的或前面的字符,但不将其包含在匹配结果中。例如,“(?=abc) def” 表示匹配 “def”,但前提是它后面跟着 “abc”。​

// 正向前瞻案例​

const text21 = "defabc defxyz";const regex21 = /(?=abc)def/;​

console.log(text21.match(regex21)); // 输出: ["def"]​// 正向后顾案例​

const text22 = "abcdef xyzdef";const regex22 = /(?<=abc)def/;​

console.log(text22.match(regex22)); // 输出: ["def"]​

在 JavaScript 中,正向后顾在某些环境(如 Chrome 浏览器)中支持有限,上述代码在支持正向后顾的环境中运行。​

(二)递归匹配​

递归匹配是一种强大的功能,可以用于匹配嵌套的结构,如括号嵌套。例如,“​

(?>[()]+∣(?R))∗

” 可以匹配嵌套的括号结构。​

const text23 = "((a + b) * (c - d))";const regex23 = /\((?>[^()]+|(?R))*\)/;​

console.log(text23.match(regex23));// 输出: ["((a + b) * (c - d))"]​const text24 = "((a + b) * (c - d)";​

console.log(text24.match(regex23));// 输出: null​

这个案例展示了递归匹配在处理嵌套结构时的有效性,以及在括号不完整时匹配失败的情况。​

(三)性能优化​

正则表达式的性能优化非常重要,尤其是在处理大量文本时。避免使用过于复杂的正则表达式,尽量减少回溯次数,可以提高匹配效率。​

// 低效的匹配单词方式​

const longText = "这是一篇很长很长的文档,包含了很多单词,比如apple, banana, cherry等等";const inefficientRegex = /[a-zA-Z]+|[^a-zA-Z]+/g;​

console.time("inefficientMatch");​

longText.match(inefficientRegex);​

console.timeEnd("inefficientMatch"); ​

​

// 高效的匹配单词方式(先分割)​

console.time("efficientMatch");const words = longText.split(/[^a-zA-Z]+/).filter(word => word.length > 0);​

console.timeEnd("efficientMatch"); ​

​

在这个案例中,通过console.time和console.timeEnd方法可以对比两种方式的执行时间,明显可以看出先分割的方式在处理大量文本时性能更优。​

四、正则表达式的实践案例​

(一)数据清洗​

在数据处理中,正则表达式可以用于清洗文本数据。例如,去除文本中的多余空格、特殊字符等。​

// 去除多余空格​

const text25 = " 你好,世界! ";const regex25 = /\s+/g;const cleanText25 = text25.replace(regex25, " ");​

console.log(cleanText25);// 输出: 你好,世界!​// 去除特殊字符​

const text26 = "!@#Hello, World$%^";const regex26 = /[!@#$%^&*(),.?":{}|<>]/g;const cleanText26 = text26.replace(regex26, "");​

console.log(cleanText26);// 输出: Hello, World​

通过这些案例,我们可以看到正则表达式在数据清洗方面的便捷性。​

(二)文本提取​

从网页或文档中提取特定信息,如标题、链接、日期等,正则表达式是一个非常有用的工具。​

// 从网页中提取链接​

const htmlText = "<a href=\"http://example1.com\">链接1</a><a href=\"http://example2.com\">链接2</a>";const linkRegex = /<a href="([^"]+)">/g;const links = htmlText.match(linkRegex);if (links) {​

links.forEach(link => {const url = link.match(/"([^"]+)"/)[1];​

console.log(url);// 输出: http://example1.com, http://example2.com​

});}​

​

// 从文档中提取标题​

const docText = "# 标题1\n内容1\n# 标题2\n内容2";const titleRegex = /^# (.*)$/gm;const titles = docText.match(titleRegex);if (titles) {​

titles.forEach(title => {const titleText = title.match(/# (.*)/)[1];​

console.log(titleText);// 输出: 标题1, 标题2​

});}​

​

这里的 “m” 标志表示多行匹配,使得正则表达式能够匹配每一行以 “# ” 开头的内容。​

(三)代码分析​

在代码编辑器中,正则表达式可以用于高亮显示特定的代码模式,如注释、关键字等。​

const code = "# 这是一个注释\nprint('Hello, World!')";const commentRegex = /#.*$/gm;const highlightedCode = code.replace(commentRegex, match => `<span style="color: green;">${match}</span>`);​

console.log(highlightedCode);// 输出: <span style="color: green;"># 这是一个注释</span>​

// print('Hello, World!')​const keywordRegex = /\b(print|def|class|if|else|for|while)\b/g;const keywordHighlightedCode = highlightedCode.replace(keywordRegex, match​
=> <span style="color: blue;">${match}</span>);​
console.log (keywordHighlightedCode);// 输出: # 这是一个注释​
// print('Hello, World!')​
// 匹配函数定义​
const code2 = "def add (a, b):\n    return a + b";const functionRegex = /def\s+(\w+)\s*

(.?)
:/gm;const functions = code2.match(functionRegex);if (functions) {​
functions.forEach(func => {const name = func.match(/def\s+(\w+)\s*

(.?)
:/)[1];​
console.log(函数名: ${name});// 输出:函数名: add​
});}// 匹配变量声明​
const code3 = "int num = 10;\nstring text = 'Hello';";const variableRegex = /\b\w+\s+\w+\s*=/g;const variables = code3.match (variableRegex);if (variables) {​
console.log (variables);// 输出: ["int num =", "string text ="]​
}​

​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2328916.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微信小程序基于Canvas实现头像图片裁剪(上)

序言 嘿&#xff0c;打工人混迹职场这么久&#xff0c;图片处理肯定都没少碰。不过咱说实话&#xff0c;大部分时候都是直接 “抄近道”&#xff0c;用现成的三方组件&#x1f60f;。就像我&#xff0c;主打一个会用工具&#xff0c;毕竟善用工具可是咱人类的 “超能力”&…

基于VMware的Cent OS Stream 8安装与配置及远程连接软件的介绍

1.VMware Workstation 简介&#xff1a; VMware Workstation&#xff08;中文名“威睿工作站”&#xff09;是一款功能强大的桌面虚拟计算机软件&#xff0c;提供用户可在单一的桌面上同时运行不同的操作系统&#xff0c;和进行开发、测试 、部署新的应用程序的最佳解决方案。…

Ubuntu环境基于Ollama部署DeepSeek+Open-Webui实现本地部署大模型-无脑部署

Ollama介绍 Ollama是一款简单好用的模型部署工具,不仅可以部署DeepSeek,市面上开源模型大部分都可以一键部署,这里以DeepSeek为例 官网 DeepSeek 版本硬件要求 安装Ollama 环境 sudo apt update sudo apt install curl sudo apt install lsof1.命令一键安装 在官网点击…

goto在Java中的用法

说明&#xff1a;goto 在一些编程语言&#xff08;如C语言&#xff09;中&#xff0c;是用来表示跳转的&#xff0c;即代码执行到此处跳转到对应位置继续执行。 举例 举个例子&#xff0c;如下&#xff0c;是一个双层嵌套循环。现在我需要代码在内层循环符合某条件时跳出双层…

Vue3+Vite+TypeScript+Element Plus开发-03.主页设计与router配置

系列文档目录 Vue3ViteTypeScript安装 Element Plus安装与配置 主页设计与router配置 静态菜单设计 Pinia引入 文章目录 目录 系列文档目录 文章目录 前言 一、主页设计 二、配置代替别名 三、配置router 四、运行效果 五、参考文献 前言 本文将重点介绍如何使用…

无限滚动(Infinite Scroll)页面谷歌不收录!必须改回分页吗?

近三年&#xff0c;全球超过58%的网站采用无限滚动设计&#xff08;数据来源&#xff1a;PageTraffic 2023&#xff09; 谷歌官方数据显示&#xff0c;动态加载内容的索引失败率高达73%&#xff08;Google Webmaster Report 2022&#xff09;&#xff0c;而采用纯无限滚动的页…

Git相关笔记1 - 本地文件上传远程仓库

Git相关笔记 目录 Git相关笔记Git上传相关文件第一步创建一个仓库&#xff1a;第二步本地创建空文件夹&#xff1a;第三步开始在gitbush上传文件&#xff1a;解决外网网络连接的问题&#xff1a;中文文件的编码问题&#xff1a;参考资料 Git上传相关文件 第一步创建一个仓库&a…

如何计算财富自由所需要的价格?

写在前面&#xff1a;​【财富自由计算器】已上线&#xff0c;快算算财富自由要多少​ 多少钱&#xff0c;才能实现你的财富梦想&#xff1f; 需要多少&#xff0c;才能实现财务安全、财务独立&#xff0c;甚至财务自由&#xff1f; 看到结尾&#xff0c;你会很清楚地看到&…

thinkphp每条一级栏目中可自定义添加多条二级栏目,每条二级栏目包含多个字段信息

小程序客户端需要展示团购详情这种结构的内容,后台会新增多条套餐,每条套餐可以新增多条菜品信息,每条菜品信息包含菜品名称,价格,份数等字段信息,类似于购物网的商品多规格属性,数据表中以json类型存储,手写了一个后台添加和编辑的demo 添加页面 编辑页面(json数据…

深入解析ARM与RISC-V架构的Bring-up核心流程

深入解析ARM与RISC-V架构的Bring-up核心流程 作者&#xff1a;嵌入式架构探索者 | 2023年10月 引言 在嵌入式开发中&#xff0c;处理器的Bring-up&#xff08;启动初始化&#xff09;是系统运行的第一道门槛。ARM和RISC-V作为两大主流架构&#xff0c;其Bring-up流程既有共性…

Lettuce与Springboot集成使用

一、Lettuce核心优势与Spring Boot集成背景 Lettuce特性 基于Netty的非阻塞I/O模型&#xff0c;支持同步/异步/响应式编程线程安全&#xff1a;共享单连接实现多线程并发操作&#xff0c;性能衰减低原生支持Redis集群、哨兵、主从架构&#xff0c;自动重连机制保障高可用Spring…

《系统分析师-基础篇-1-6章总结》

第1章 绪论 系统分析师角色 职责&#xff1a;需求分析、系统设计、项目管理、技术协调。 能力要求&#xff1a;技术深度&#xff08;架构设计、开发方法&#xff09; 业务理解&#xff08;企业流程、行业知识&#xff09; 沟通能力。 系统开发生命周期 传统模型&#xf…

【YOLO系列(V5-V12)通用数据集-电梯内电动车检测数据集】

YOLO格式的电梯内电动车检测数据集&#xff0c;适用于YOLOv5-v11所有版本&#xff0c;可以用于本科毕设、发paper、做课设等等&#xff0c;有需要的在这里获取&#xff1a; 电梯内电动车检测数据集 数据集专栏地址&#xff1a;https://blog.csdn.net/qq_41304809/category_1290…

算法题(114):矩阵距离

审题&#xff1a; 本题需要我们找出所有0距离最近的1的曼哈顿距离 思路&#xff1a; 方法一&#xff1a;多源bfs 分析曼哈顿距离&#xff1a; 求法1&#xff1a;公式法&#xff0c;带入题目公式&#xff0c;利用|x1-x2||y1-y2|求出 求法2&#xff1a;曼哈顿距离就是最短距离 本…

0102-web架构网站搭建-基础入门-网络安全

文章目录 1. 常规2 站库分离3 前后端分离4 集成环境5 docker6 分配站结语 1. 常规 结构&#xff1a;源码数据都在同服务器 影响&#xff1a;无&#xff0c;常规安全测试手法 2 站库分离 结构&#xff1a;源码和数据库不在同服务器 存储&#xff1a;其他服务器上数据库或者…

Linux系统编程:进程管理、内存对比与树莓派应用

一、认识进程和线程&#xff0c;在Linux系统下查看系统中各进程的编号pid并终止一个进程pid 1.进程和线程 ​​进程​​&#xff1a;操作系统分配资源&#xff08;如内存、CPU时间片&#xff09;的基本单位。每个进程有独立的内存空间&#xff0c;进程间通信需要较复杂的机制…

ue5 仿鬼泣5魂类游戏角色和敌人没有碰撞

UE5系列文章目录 文章目录 UE5系列文章目录前言一、问题原因二、设置碰撞2.读入数据 总结 前言 ue5 仿鬼泣5魂类游戏角色和敌人没有碰撞 一、问题原因 在UE5中&#xff0c;角色和敌人没有碰撞可能是由多种原因导致的&#xff0c;以下是一些可能的原因及解决方法&#xff1a…

基于Flask的MBA考生成绩查询系统设计与实现

基于Flask的MBA考生成绩查询系统设计与实现 序言 2024年吉林大学MBA在职研究生考试成绩公布后&#xff0c;考生收到的成绩单为PDF格式文档。为方便考生快速查询个人成绩及排名信息&#xff0c;笔者基于Python Flask框架开发了本查询系统。该系统支持关键词模糊查询、序号范围…

DHCP之报文格式

字段说明&#xff1a; op (op code): 表示报文的类型&#xff0c;取值为 1 或 2&#xff0c;含义如下 1:客户端请求报 2:服务器响应报文 Secs (seconds):由客户端填充&#xff0c;表示从客户端开始获得 IP 地址或 IP 地址续借后所使用了的秒数&#xff0c;缺省值为 3600s。 F…

React 文件上传新玩法:Aliyun OSS 加持的智能上传组件

文件上传是前端开发中的“老朋友”&#xff0c;但如何让它既简单又强大&#xff0c;还能无缝对接云端存储&#xff1f;今天&#xff0c;我要带你认识一个超酷的 React 组件 AliUploader&#xff0c;它不仅支持拖拽上传、批量编辑和文件排序&#xff0c;还直接把文件传到 Aliyun…