文本编辑三巨头（grep）

正则表达式

元字符

grep

案例

我在编写脚本的时候发现，三个文本编辑的命令（grep、sed、awk，被称为文本编辑三剑客，我习惯叫它三巨头）用的还挺多的，说实话我一开始学的时候也有些懵，主要是太多太杂，有那么个别些还有点难懂，最近恰好有时间，索性把三巨头相关的东西都整理出来，方便日后生疏了再回顾一下，顺便和大家一起交流学习。

在学三巨头之前，首先要知道正则表达式

正则表达式

什么是正则表达式？正则表达式又称规则表达式，通常用于判断语句中，是一种用于匹配字符串中字符组合的模式，一般由普通字符（字母、数字）与特殊字符（元字符）组成

我们之前讲过文件测试，是用 [ ]或者 test 实现的，还有学习 if 语句的时候，也是通过 [ ] 来进行条件判断。正则表达是也是用 [ ] 来做字符串匹配的，只不过，它所匹配的样式种类更多更齐全。

正则表达式直接使用的匹配规则是

[[ 变量 =~ 正则式 ]]

一个例子，我们定义一个变量 num 看看它与正则式是否匹配，输出结果是匹配

=~ 是匹配正则式的固定搭配，测试的时候不要忘了加

[0-9] 是检验变量里是否有0-9的数字

这里你可能会疑问，如果num = s2d2j93 这种数字字母穿插的，判断结果是什么呢？

答案是，仍然输出匹配，因为 [0-9] 只看你的变量中有没有数字，我们之前在编写shell脚本的时候也遇到，一个猜数字的脚本，如何避免输入除数字外的其他字符呢？

现在可以得到解答了，只需要验证变量是否 =~ ^[0-9]+$ 就可以了。

我们都知道，在grep命令中，^是以什么什么开头，而$是以什么什么结尾，这样一组合，是不是就通俗易懂了，以数字开头以数字结尾，那不就是匹配纯数字的字符串吗？

我们来正反都验证一下，结果不出我所料（doge

元字符

通过上面这个例子，想必应该对正则有了个大致的了解，其实并不困难，主要就是选项很多很杂，常见的元字符有

[ ]：定义一个字符类，匹配括号内的任意一个字符。

例如， [abc] 可以匹配 "a"、"b" 或 "c"

.：匹配除换行符之外的任何单个字符

例如， a.c 可以匹配 "abc"、"a1c"、"a@c" 等

*：匹配前面的元素零次或多次

例如， ab*c 可以匹配 "ac"、"abc"、"abbc"、"abbbc" 等

+：和 * 一样，但只能匹配前面的元素一次或多次，不包括零次

所以 ab+c 只可以匹配 "abc"、"abbc"、"abbbc" 等，不能匹配 "ac"

?：匹配前面的元素零次或一次

例如，ab?c 可以匹配 "ac" 或 "abc"

^：匹配字符串的开始。

例如， ^abc 匹配以 abc 开头的字符串。

$：匹配字符串的结束。

例如， abc$ 匹配以 abc 结尾的字符串。

[^]：定义一个否定字符类，匹配不在括号内的任意一个字符。

例如， [^abc] 匹配除了 "a"、"b" 和 "c" 之外的任意字符。

|：或操作符，匹配两者中的任意一个。

例如，正则表达式 abc|def 可以匹配 "abc" 或 "def"。

()：分组，用于将多个元素组合成一个单元，并捕获匹配的文本。

例如， (abc)+ 可以匹配 "abc"、"abcabc" 等。

\{n\}：匹配前面的元素恰好 n 次。

例如， a{3} 可以匹配 "aaa"。

\{n,\}：匹配前面的元素至少 n 次。

例如， a{3,} 可以匹配 "aaa"、"aaaa"、"aaaaa" 等。

\{n,m\}：匹配前面的元素至少 n 次，但不超过 m 次。

例如， a{3,5} 可以匹配 "aaa"、"aaaa"、"aaaaa"。

\d：匹配任意一个数字字符（0-9）。

例如， \d 可以匹配 "1"、"2"、"3" 等。

\w：匹配任意一个字母、数字或下划线字符。

例如， \w 可以匹配 "a"、"1"、"_" 等。

\s：匹配任意一个空白字符（空格、制表符、换行符等）。

例如， \s 可以匹配空格、制表符等。

\D：匹配任意一个非数字字符。

例如， \D 可以匹配 "a"、"@"、" " 等。

其实还有一部分没有列出，基本上用不到，可能用到的就这么多了，万一有遗漏我后续会补上。

正则表达式的规则就这么多，大多数情况都是搭配三巨头使用的，所以说接下来就可以开始学习三巨头了，搭配 grep、sed、awk 等命令使用的时候，含义是不变的，但是使用的符号会有点出入，所以接下来就通过大量的实例来进行讲解。

grep

首先肯定是从我们最为熟知，也是使用过的 grep 命令开始，grep命令最常用的参数可能就是

grep -v 还有 grep -i 了，这两个都是它的基本选项，我们接下来要了解它的输出控制选项，所以说要和正则表达式搭配使用呢，一个负责筛选过滤，一个负责控制输出的内容。常用的有

-E ：开启扩展的正则表达式

-c ：计算找到 '搜寻字符串' 的次数

-o ：只显示被模式匹配到的字符串

-w：匹配整个单词

-n ：输出行号

我创建了一个 123.txt 文件，用来测试各种案例，你们可以直接复制粘贴使用

#123.txt

his is a test file for grep command.
t contains various patterns and special characters.

asic characters: abc, def, ghi
2. Digits: 123, 456, 789
3. Special characters: ., *, +, ?, ^, $, [, ], {, }, |, (, )
4. Word boundaries: start, end, middle
on-word characters: @, #, %, &, !
scaped characters: \., \*, \+, \?, \^, \$, \[, \], \{, \}, \|, \(, \)
ultiple lines with the same pattern:
   pattern
 pattern
 pattern
Case sensitivity: Case, case, CASE

Whole word matching: word, sword, reword
hole line matching: This is a whole line.
ontext lines:
 This is line before the match.
his is the matching line.
This is line after the match.
ile names: file1.txt, file2.txt, file3.txt
Directory names: dir1, dir2, dir3
xclude patterns: exclude this line
Include patterns: include this line
ecursive patterns:
    ./dir1/file1.txt
    ./dir2/file2.txt
    ./dir3/file3.txt
olor highlighting: highlight this
ount matching lines: count this line
Matching groups: group1, group2, group3
on-matching groups: nongroup1, nongroup2, nongroup3
ll
lol
lool
loool
loooool
looooool
looooooool
loooooooooooooooooool