正则表达式 Regular Expression

news2026/3/14 18:29:12

情景引入
- 改代码
- 查找文件
- 词法分析器
- 网站注册密码
- 信息爬取
简介
在线测试工具
- Regulex
- RegExr
语法
- 普通字符
- 非打印字符
- 特殊字符
- 限定符
- 定位符
- 修饰符
- 元字符
实例
- 匹配邮箱

情景引入

改代码

修改代码格式问题，或者重命名代码里的某个变量等，都可以使用 VS Code 自带的搜索框中的 RE。熟练的掌握正则表达式，能够帮助程序员以最快的速度写出最优雅的代码。

在这里插入图片描述

查找文件

可以使用 ? 和 * 通配符来查找硬盘上的文件，这是简单的通配符。

? 通配符匹配文件名中的 0 个或 1 个字符；
而 * 通配符匹配零个或多个字符。

像 *api 这样的模式将查找下列文件：

在这里插入图片描述
RE 功能更强大，而且更加灵活。

词法分析器

编译器中的词法分析器，会使用 RE 去匹配代码中的关键字。

在这里插入图片描述

网站注册密码

网站上的注册表单会用到 RE 去判断密码的复杂程度。

在这里插入图片描述

信息爬取

在爬虫中，同样可以用 RE 去提取需要的信息。

在这里插入图片描述

简介

正则表达式（Regular Expression）是一种用于匹配或 替换字符串中的特定模式 的语言，可以把它当作通配符的增强版，它可以用元字符、量词、分组、断言等来表示复杂的规则。
正则表达式包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为"元字符"）。
正则表达式是繁琐的，但它是强大的，学会之后的应用会让你除了提高效率外，会给你带来绝对的成就感。

下面先给出一个简单的示例：

^[0-9]+abc$

^ 为匹配输入字符串的开始位置。
[0-9]+ 匹配多个数字：[0-9] 匹配单个数字，+ 匹配一个或者多个。
abc$ 匹配字母 abc 并以 abc 结尾，$ 为匹配输入字符串的结束位置。

我们在写用户注册表单时，只允许用户名包含字符、数字、下划线和连接字符 -，并设置用户名的长度，我们就可以使用以下正则表达式来设定：

在这里插入图片描述

在线测试工具

Regulex

正则表达式在线测试工具：https://regex101.com/

在这里插入图片描述

RegExr

正则表达式在线测试工具：https://regexr.com/

在这里插入图片描述

语法

构造正则表达式的方法和创建数学表达式的方法一样，用多种元字符与运算符可以将小的表达式结合在一起来创建更大的表达式。

普通字符

普通字符包括没有显式指定为元字符的所有可打印和不可打印字符，这包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号。

字符	描述
`[ABC]`	匹配 `[…]` 中的所有字符，例如 `[ae]` 匹配字符串 “You are my angle.” 中所有的 a e 字母。
`[^ABC]`	匹配除了 `[…]` 中字符的所有字符，例如 `[^ae]` 匹配字符串 “You are my angle.” 中除了 a e 字母的所有字母。
`[A-Z]`	`[A-Z]` 表示一个区间，匹配所有大写字母，`[a-z]` 表示所有小写字母。
`.`	匹配除换行符（\n、\r）之外的任何单个字符，相等于 `[^\n\r]`。
`[\s\S]`	匹配所有。`\s` 是匹配所有空白符，包括换行，`\S` 非空白符，不包括换行。
`\w`	匹配字母、数字、下划线。等价于 [A-Za-z0-9_]

非打印字符

非打印字符也可以是正则表达式的组成部分。下表列出了表示非打印字符的转义序列：

在这里插入图片描述

特殊字符

所谓特殊字符，就是一些有特殊含义的字符。

如 “baby*baby” 中的 * ，简单的说就是表示任何字符串的意思。
如果要查找字符串中的 * 符号，则需要对 * 进行转义，即在其前加一个 \，baby\*baby 匹配字符串 baby*baby。

若要匹配这些特殊字符，必须首先使字符"转义"，即，将反斜杠字符\ 放在它们前面。

在这里插入图片描述

限定符

限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有 * 、 + 、 ? 、 {n} 、 {n,} 、 {n,m} 共6种。

限定符
`*`	匹配前面的子表达式`零次或多次`。例如，`ab` 能匹配 “a” 以及 “abb”。`` 等价于 {0,}。

`+`	匹配前面的子表达式`一次或多次`。例如，`ab+` 能匹配 “ab” 以及 “abb”，但不能匹配 “a”。`+` 等价于 {1,}。

`?`	匹配前面的子表达式`零次或一次`。例如，`do(es)?` 可以匹配 “do” 、 “does”、 “dog” 中的 “do” 和 “does”。`?` 等价于 {0,1}。

`{n}`	n 是一个非负整数。匹配`确定的 n 次`。例如，`o{2}` 表示匹配2个 o，不能匹配 “Bob” 中的 o，但是能匹配 “food” 中的两个 o。

`{n,}`	n 是一个非负整数。`至少匹配 n 次`。例如，`o{2,}` 不能匹配 “Bob” 中的 o，但能匹配 “foooood” 中的所有 o。`o{1,}` 等价于 `o+`。`o{0,}` 则等价于 `o*`。

`{n,m}`	m 和 n 均为非负整数，其中 `n <= m`。`最少匹配 n 次且最多匹配 m 次`。例如，`o{1,3}` 将匹配 “fooooood” 中的前三个 o。`o{0,1}` 等价于 `o?`。请注意在逗号和两个数之间不能有空格。