文章目录
- 正则表达式
- 使用测试方法
- 匹配文字字符串
- 同时用多种模式匹配文字字符串
- 匹配时忽略大小写
- 提取匹配项
- 全局匹配
- 用通配符匹配任何内容
- 将单个字符与多种可能性匹配
- 匹配字母表中的字母
- 匹配字母表中的数字和字母
- 匹配单个未指定的字符
- 匹配出现一次或多次的字符
- 匹配出现零次或多次的字符
- 用惰性匹配来查找字符
- 在狩猎中找到一个或多个罪犯
- 匹配字符串的开头
- 匹配字符串的末尾
- 匹配所有的字母和数字
- 匹配除了字母和数字的所有符号
- 匹配所有数字
- 匹配所有非数字
- 限制可能的用户名
🌸I could be bounded in a nutshell and count myself a king of infinite space.
特别鸣谢:木芯工作室 、Ivan from Russia
正则表达式
正则表达式,常常缩写为 “regex
” 或 “regexp”,是帮助程序员匹配、搜索和替换文本的模式。正则表达式非常强大,但可能难以阅读
,因为它们使用特殊字符来做更复杂更灵活的匹配
。
在这个课程中,你将学习如何使用特殊字符、捕获组、正向或负向先行断言以及其他技巧来匹配你想要的文本
。
使用测试方法
在编程语言中,正则表达式用于匹配指定的字符串
。 通过正则表达式创建匹配模式(规则)可以帮你完成指定匹配。
如果想要在字符串 The dog chased the cat 中匹配到 the 这个单词,可以使用如下正则表达式:/the/
。 注意,正则表达式中不需要引号
。
JavaScript 中有多种使用正则表达式的方法。 测试正则表达式的一种方法是使用 .test()
方法。 .test() 方法会把编写的正则表达式和字符串(即括号内的内容)匹配,如果成功匹配到字符,则返回 true,反之,返回 false。
let testStr = "freeCodeCamp";
let testRegex = /Code/;
testRegex.test(testStr);
test 方法会返回 true。
使用 .test() 方法,检测字符串 myString 是否符合正则表达式 myRegex 定义的规则。
匹配文字字符串
在上一个挑战中,使用正则表达式 /Hello/ 搜索到了字符串 Hello。 那个正则表达式在字符串中搜寻 Hello 的文字匹配。 下面是另一个在字符串中搜寻 Kevin 的示例:
let testStr = "Hello, my name is Kevin.";
let testRegex = /Kevin/;
testRegex.test(testStr);
test 方法会返回 true。
任何其他形式的 Kevin 都不会被匹配。 例如,正则表达式 /Kevin/ 不会匹配 kevin 或者KEVIN。
let wrongRegex = /kevin/;
wrongRegex.test(testStr);
此 test 调用将返回 false。
后续的挑战将为你展示如何匹配其他形式的字符串。
完成正则表达式 waldoRegex,在字符串 waldoIsHiding 中匹配到文本 “Waldo”。
同时用多种模式匹配文字字符串
使用正则表达式/coding/,你可以在其他字符串中查找coding。
这对于搜寻单个字符串
非常有用,但仅限于一种匹配模式。 你可以使用 alternation 或 OR 操作符搜索多个模式: |
此操作符匹配操作符前面或后面的字符
。 例如,如果你想匹配 yes 或 no,你需要的正则表达式是 /yes|no/。
你还可以匹配多个规则,这可以通过添加更多的匹配模式来实现。 这些匹配模式将包含更多的 OR 操作符来分隔它们,比如/yes|no|maybe/。
完成正则表达式 petRegex 以匹配 dog、cat、bird 或者 fish。
匹配时忽略大小写
到目前为止,已经了解了如何用正则表达式来执行字符串的匹配。 但有时候,并不关注匹配字母的大小写。
大小写即大写字母和小写字母。 大写字母如 A、B 和 C。 小写字母如 a、b 和 c。
可以使用标志(flag)来匹配这两种情况。
标志有很多,不过这里我们只关注忽略大小写的标志——i。
可以通过将它附加到正则表达式之后来使用它。 这里给出使用该标志的一个实例 /ignorecase/i。 这个字符串可以匹配字符串 ignorecase、igNoreCase 和 IgnoreCase。
编写正则表达式 fccRegex 以匹配 freeCodeCamp,忽略大小写。 正则表达式不应与任何缩写或带有空格的变体匹配。
提取匹配项
到目前为止,只是检查了一个匹配模式是否存在于字符串中。 还可以使用 .match() 方法来提取找到的实际匹配项
。
可以使用字符串来调用 .match()
方法,并在括号内传入正则表达式。
请看下面的举例:
"Hello, World!".match(/Hello/);
let ourStr = "Regular expressions";
let ourRegex = /expressions/;
ourStr.match(ourRegex);
这里第一个 match 将返回 [“Hello”] 第二个将返回 [“expressions”]。
请注意, .match 语法是目前为止一直使用的 .test 方法中的“反向”:
'string'.match(/regex/);
/regex/.test('string');
利用 .match() 方法提取单词 coding。
全局匹配
到目前为止,只能提取或搜寻一次模式匹配。
let testStr = "Repeat, Repeat, Repeat";
let ourRegex = /Repeat/;
testStr.match(ourRegex);
在这里 match 将返回 [“Repeat”]。
要多次搜索或提取模型,你可以使用全局搜索标志: g。
let repeatRegex = /Repeat/g;
testStr.match(repeatRegex);
这里 match 返回值 [“Repeat”, “Repeat”, “Repeat”]
使用正则表达式 starRegex,从字符串 twinkleStar 中匹配所有的 Twinkle 单词并提取出来。
注意:
在正则表达式上可以有多个标志,比如 /search/gi
用通配符匹配任何内容
有时不(或不需要)知道匹配模式中的确切字符。 如果要精确匹配到完整的单词,那出现一个拼写错误就会匹配不到。 幸运的是,可以使用通配符 . 来处理这种情况。
通配符 . 将匹配任何一个字符。 通配符也叫 dot 或 period
。 可以像使用正则表达式中任何其他字符一样使用通配符。 例如,如果想匹配 hug、huh、hut 和 hum,可以使用正则表达式 /hu./ 匹配以上四个单词
。
let humStr = "I'll hum a song";
let hugStr = "Bear hug";
let huRegex = /hu./;
huRegex.test(humStr);
huRegex.test(hugStr);
上面的 test 都会返回 true。
完成正则表达式 unRegex 以匹配字符串 run、sun、fun、pun、nun 和 bun。 正则表达式中应该使用通配符。
将单个字符与多种可能性匹配
已经了解了文字匹配模式(/literal/)和通配符(/./)
。 这是正则表达式的两种极端情况,一种是精确匹配,而另一种则是匹配所有。 在这两种极端情况之间有一个平衡选项。
可以使用字符集
(character classes)更灵活的匹配字符。 可以把字符集放在方括号([ 和 ])之间来定义一组需要匹配的字符串
。
例如,如果想要匹配 bag、big 和 bug,但是不想匹配 bog。 可以创建正则表达式 /b[aiu]g/ 来执行此操作。 [aiu] 是只匹配字符 a、i 或者 u 的字符集。
let bigStr = "big";
let bagStr = "bag";
let bugStr = "bug";
let bogStr = "bog";
let bgRegex = /b[aiu]g/;
bigStr.match(bgRegex);
bagStr.match(bgRegex);
bugStr.match(bgRegex);
bogStr.match(bgRegex);
按顺序排列,四次 match 调用将返回值 [“big”]、[“bag”]、[“bug”] 和 null。
使用元音字符集(a、e、i、o、u)在正则表达式 vowelRegex 中匹配到字符串 quoteSample 中的所有元音。
**注意:**一定要同时匹配大小写元音。
匹配字母表中的字母
了解了如何使用字符集(character sets)来指定要匹配的一组字符串,但是有时需要匹配大量字符(例如,字母表中的每个字母)。 有一种写法可以让实现这个功能变得简短。
在字符集中,可以使用连字符(-)来定义要匹配的字符范围
。
例如,要匹配小写字母 a 到 e,你可以使用 [a-e]。
let catStr = "cat";
let batStr = "bat";
let matStr = "mat";
let bgRegex = /[a-e]at/;
catStr.match(bgRegex);
batStr.match(bgRegex);
matStr.match(bgRegex);
按顺序排列,三次 match 调用将返回值 [“cat”],[“bat”] 和 null。
匹配字符串 quoteSample 中的所有字母。
注意:一定要同时匹配大小写字母。
let quoteSample = "The quick brown fox jumps over the lazy dog.";
let alphabetRegex = /[a-z]/gi; // 修改这一行
let result = quoteSample.match(alphabetRegex); // 修改这一行
匹配字母表中的数字和字母
使用连字符(-)匹配字符范围并不仅限于字母。 它还可以匹配一系列数字。
例如,/[0-5]/ 匹配 0 和 5 之间的任意数字,包含 0 和 5。
此外,还可以在单个字符集中组合一系列字母和数字。
let jennyStr = "Jenny8675309";
let myRegex = /[a-z0-9]/ig;
jennyStr.match(myRegex);
创建一个正则表达式,使其可以匹配 h 和 s 之间的一系列字母,以及 2 和 6 之间的一系列数字。 请记得在正则表达式中包含恰当的标志。
匹配单个未指定的字符
到目前为止,已经创建了一个想要匹配的字符集合,但也可以创建一个不想匹配的字符集合。 这些类型的字符集称为否定字符集(
negated character sets)。
要创建否定字符集,需要在开始括号后面和不想匹配的字符前面放置脱字符(即^)。
例如,/[^aeiou]/gi
匹配所有非元音字符。 注意,字符 .、!、[、@、/ 和空白字符等也会被匹配,该否定字符集仅排除元音字符。
创建一个匹配所有非数字或元音字符的正则表达式。 请记得在正则表达式中包含恰当的标志。
let quoteSample = "3 blind mice.";
let myRegex = /[^aeiou0-9]/ig; // 修改这一行
let result = quoteSample.match(myRegex); // 修改这一行
匹配出现一次或多次的字符
有时,需要匹配出现一次或者连续多次的的字符
(或字符组)。 这意味着它至少出现一次,并且可能重复出现
。
可以使用 + 符号来检查情况是否如
此。 记住,字符或匹配模式必须一个接一个地连续出现。 这就是说,字符必须一个接一个地重复
。
例如,/a+/g 会在 abc 中匹配到一个匹配项,并且返回 ["a"]。 因为 + 的存在,它也会在 aabc 中匹配到一个匹配项,然后返回 ["aa"]。
如果它是检查字符串 abab,它将匹配到两个匹配项并且返回[“a”, “a”],因为a字符不连续,在它们之间有一个b字符。 最后,因为在字符串 bcd 中没有 a,因此找不到匹配项。
想要在字符串 Mississippi 中匹配到出现一次或多次的字母 s 的匹配项。 编写一个使用 + 符号的正则表达式。
let difficultSpelling = "Mississippi";
let myRegex = /s+/g; // 修改这一行
let result = difficultSpelling.match(myRegex);
匹配出现零次或多次的字符
上一次的挑战中使用了加号 + 来查找出现一次或多次
的字符。 还有一个选项可以匹配出现零次或多次的字符
。
执行该操作的字符叫做星号,即*。
let soccerWord = "gooooooooal!";
let gPhrase = "gut feeling";
let oPhrase = "over the moon";
let goRegex = /go*/;
soccerWord.match(goRegex);
gPhrase.match(goRegex);
oPhrase.match(goRegex);
按顺序排列,三次 match 调用将返回值 [“goooooooo”],[“g”] 和 null。
在这个挑战里,chewieQuote 已经被初始化为 Aaaaaaaaaaaaaaaarrrgh!。 创建一个变量为 chewieRegex 的正则表达式,使用 * 在 chewieQuote 中匹配 A 及其之后出现的零个或多个a。 你的正则表达式不需要使用修饰符,也不需要匹配引号。
// 只修改这一行下面的代码
let chewieRegex = /Aa*/g; // 修改这一行
// 只修改这一行上面的代码
let result = chewieQuote.match(chewieRegex);
用惰性匹配来查找字符
在正则表达式中,贪婪(greedy)匹配会匹配到符合正则表达式匹配模式的字符串的最长可能部分
,并将其作为匹配项返回。 另一种方案称为懒惰(lazy)匹配,它会匹配到满足正则表达式的字符串的最小可能部分
。
可以将正则表达式 /t[a-z]*i/ 应
用于字符串 “titanic”。 这个正则表达式是一个以 t 开始,以 i 结束,并且中间有一些字母的匹配模式。
正则表达式默认是贪婪匹配
,因此匹配返回为 ["titani"]
。 它会匹配到适合该匹配模式的最大子字符串。
但是,你可以使用 ? 字符来将其变成懒惰匹配
。 调整后的正则表达式 /t[a-z]*?i/ 匹配字符串 "titanic" 返回 ["ti"]
。
**注意:**应该避免使用正则表达式解析 HTML
,但是可以用正则表达式匹配 HTML 字符串
。
修复正则表达式 /<.*>/,让它返回 HTML 标签 <h1>,
而不是文本 "<h1>Winter is coming</h1>"
。 请记得在正则表达式中使用通配符 . 来匹配任意字符。
let text = "<h1>Winter is coming</h1>";
let myRegex = /<.*?>/; // 修改这一行
let result = text.match(myRegex);
在狩猎中找到一个或多个罪犯
是时候停一停来测试你的正则表达式使用能力了。 一群罪犯越狱逃跑了,但你不知道有多少人。 然而,你知道他们不在一起时会保持紧密联系。 你有责任立刻找到所有的罪犯。
这里有一个示例来提示如何做到这一点:
当字母z在一行中出现一次或连续多次时,正则表达式/z+/会匹配到它。 它会在以下所有字符串中找到匹配项:
"z"
"zzzzzz"
"ABCzzzz"
"zzzzABC"
"abczzzzzzzzzzzzzzzzzzzzzabc"
但是它不会在以下字符串中找到匹配项,因为它们中没有字母z:
""
"ABC"
"abcabc"
编写一个贪婪正则表达式,在一组其他人中匹配到一个或多个罪犯。 罪犯由大写字母C表示。
匹配字符串的开头
回顾一下之前的挑战,正则表达式可以用于查找多项匹配。 还可以查询字符串中符合指定匹配模式的字符。
在之前的挑战中,使用字符集中前插入符号(^)来创建一个否定字符集,形如 [^thingsThatWillNotBeMatched]
。 除了在字符集中使用之外,插入符号(^)用于匹配文本是否在字符串的开始位置
let firstString = "Ricky is first and can be found.";
let firstRegex = /^Ricky/;
firstRegex.test(firstString);
let notFirst = "You can't find Ricky now.";
firstRegex.test(notFirst);
第一次 test 调用将返回 true,而第二次调用将返回 false。
在正则表达式中使用脱字符来找到 Cal 在字符串 rickyAndCal 中的开始位置。
let rickyAndCal = "Cal and Ricky both like racing.";
let calRegex = /^Cal/; // 修改这一行
let result = calRegex.test(rickyAndCal);
匹配字符串的末尾
在上一个挑战中,学习了使用脱字符号来搜寻字符串的开始位置。 还有一种方法可以搜寻字符串末尾的匹配模式。
可以使用正则表达式的美元符号 $ 来搜寻字符串的结尾
。
let theEnding = "This is a never ending story";
let storyRegex = /story$/;
storyRegex.test(theEnding);
let noEnding = "Sometimes a story will have to end";
storyRegex.test(noEnding);
第一次 test 调用将返回 true, 而第二次调用将返回 false。
使用锚点字符 $ 来匹配字符串 caboose 在字符串末尾 caboose。
匹配所有的字母和数字
使用元字符,可以使用 [a-z] 搜寻字母表中的所有字母。 这种元字符是很常见的,它有一个缩写,但这个缩写也包含额外的字符。
JavaScript 中与字母表匹配的最接近的元字符是\w。 这个缩写等同于[A-Za-z0-9_]
。 此字符类匹配大写字母和小写字母以及数字。 注意,这个字符类也包含下划线字符 (_)。
let longHand = /[A-Za-z0-9_]+/;
let shortHand = /\w+/;
let numbers = "42";
let varNames = "important_var";
longHand.test(numbers);
shortHand.test(numbers);
longHand.test(varNames);
shortHand.test(varNames);
上面的 test 都会返回 true。
这些元字符缩写也被称为短语元字符 shorthand character classes。
使用元字符 \w 来计算所有引号中字母和数字字符的数量。
let quoteSample = "The five boxing wizards jump quickly.";
let alphabetRegexV2 = /\w/; // 修改这一行
let result = quoteSample.match(alphabetRegexV2).length;
匹配除了字母和数字的所有符号
已经了解到可以使用缩写 \w 来匹配字母和数字 [A-Za-z0-9_]
。 不过,有可能想要搜寻的匹配模式是非字母数字字符。
可以使用 \W
搜寻和 \w 相反的匹配模式。 注意,相反匹配模式使用大写字母。 此缩写与 [^A-Za-z0-9_] 是一样的。
let shortHand = /\W/;
let numbers = "42%";
let sentence = "Coding!";
numbers.match(shortHand);
sentence.match(shortHand);
第一次 match 调用将返回值 [“%”] 而第二次调用将返回 [“!”]。
匹配所有数字
已经了解了常见字符串匹配模式的元字符,如字母数字。 另一个常见的匹配模式是只寻找数字。
查找数字字符的缩写是 \d
,注意是小写的 d。 这等同于元字符 [0-9],它查找 0 到 9 之间任意数字的单个字符。
使用缩写 \d 来计算电影标题中有多少个数字。 书面数字(“six” 而不是 6)不计算在内。
匹配所有非数字
上一项挑战中展示了如何使用带有小写 d 的缩写 \d 来搜寻数字。 也可以使用类似的缩写来搜寻非数字,该缩写使用大写的 D。
查找非数字字符的缩写是 \D
。 这等同于字符串 [^0-9]
,它查找不是 0 - 9 之间数字的单个字符。
使用非数字缩写 \D 来计算电影标题中有多少非数字。
限制可能的用户名
用户名在互联网上随处可见。 它们是用户在自己喜欢的网站上的唯一身份。
需要检索数据库中的所有用户名。 以下是用户在创建用户名时必须遵守的一些简单规则。
用户名只能是数字字母字符。
用户名中的数字必须在最后。 数字可以有零个或多个。 用户名不能以数字开头。
用户名字母可以是小写字母和大写字母。
用户名长度必须至少为两个字符。 两位用户名只能使用字母。
修改正则表达式 userCheck 以满足上面列出的约束。