三剑客的概述:
awk、grep、sed是linux操作文本的三大利器,合称文本三剑客,也是必须掌握的linux命令之一。三者的功能都是处理文本,但侧重点各不相同,其中属awk功能最强大,但也最复杂。grep更适合单纯的查找或匹配文本,sed更适合编辑匹配到的文本,awk更适合格式化文本,对文本进行较复杂格式处理。
一:grep命令
grep命令是一种文本搜索工具,他能使用正则表达式搜索文本,并把匹配的行打印出来,grep的全称是Golobal Regular Expression Print表示全局正则表达式版本,它的使用权限是所有用户.
grep可用于shell脚本,因为grep通过返回一个状态值来说明搜索的状态,如果模板搜索成功,则返回0,如果搜索不成功,则返回1,如果搜索的文件不存在,则返回2。我们利用这些返回值就可进行一些自动化的文本处理工作。
1.1 基本语法
grep [选项] 模式 [文件...]
# 管道命令一起
命令 | grep xxxx
- 模式:你想要在文件中搜索的文本或正则表达式。
- 文件...:你想要搜索的文件列表。如果省略文件名,
grep
会从标准输入(通常是键盘输入或另一个命令的输出)中读取数据。
常用选项
常用选项 | 释义 |
---|---|
-i | 忽略大小写进行匹配。 |
-v | 反向查找,只打印不匹配的行。 |
-n | 显示匹配行的行号。 |
-r | 递归查找子目录中的文件。 |
-l | 只打印匹配的文件名。 |
-c | 只打印匹配的行数。 |
-w | 只匹配整个单词,而不是部分匹配。 |
-o | 只显示匹配的部分,而不是整行。 |
-A n | 显示匹配行及后面n行的内容。 |
-B n | 显示匹配行及前面n行的内容。 |
-C n | 显示匹配行及前后各n行的内容。 |
-e pattern | 指定多个匹配模式。 |
-E | 使用扩展正则表达式进行匹配。 |
-F | 将模式视为固定字符串而不是正则表达式。 |
1.2 使用举例
示例1
准备test
# -A2 7 的效果就是找到 7 ,然后输出 2 后面两行
[root@localhost ~]# grep -A2 7 test
# -B2 7找到 7 ,然后输出 2 前面两行
[root@localhost ~]# grep -B2 7 test
#查找test中的aaa
[root@localhost ~]# grep -c aaa test
# -i:忽略大小写
[root@localhost ~]# grep -i aaa test
# -n:显示匹配的行号
[root@localhost ~]# grep -n -i aaa test
# -c:输出匹配到的共计行数
[root@localhost ~]# grep -c aaa test
#-n:输出匹配到的这些行的内容以及它们各自的行号。
[root@localhost ~]# grep -n aaa test
# -e:实现多个匹配之间的或关系,查找包含aaa或者bbb的
[root@localhost ~]# grep -e aaa -e bbb test
grep -F
grep -F相当于fgrep命令,就是将pattern视为固定字符串。
grep
命令中的-F
选项用于将搜索模式视为固定字符串(fixed strings),而不是正则表达式(regular expressions)。这意味着grep
在搜索时不会将搜索模式中的特殊字符(如.
、*
、?
、[
、]
、^
、$
、\{
、\}
、|
、\
、(
、)
等)视为正则表达式的元字符,而是将它们视为普通字符。
使用-F
选项可以加快搜索速度,特别是当你知道搜索模式不包含任何正则表达式元字符,或者你不希望grep
对这些字符进行特殊处理时。
例如,如果你有一个文件example.txt
,内容如下:
hello.world
hello*world
hello?world
hello[world
如果你想要搜索包含hello*world
这个确切字符串的行(注意这里的*
是普通字符,不是正则表达式中的“零个或多个前面字符”的意思),你可以使用grep -F
来实现:
grep -F "hello*world" example.txt
这个命令会输出:
hello*world
如果你不使用-F
选项,grep
会将*
视为正则表达式元字符,并尝试匹配零个或多个o
字符,这可能会导致不同的结果,具体取决于文件内容。
总结来说,-F
选项让grep
将搜索模式视为纯文本字符串,不进行正则表达式的特殊字符处理。这在处理包含正则表达式元字符的文本时非常有用,尤其是当你想要搜索这些元字符本身时。
grep -f
grep
命令中的-f
选项允许你从一个文件中读取正则表达式模式,而不是直接在命令行中指定它们。这意味着你可以将多个搜索模式保存在一个文件中,然后使用grep -f
选项和该文件作为输入来搜索目标文件中的匹配项。
使用-f
选项时,你需要在文件中每行指定一个搜索模式。当grep
运行时,它会读取这个文件中的每一行,并将其视为一个搜索模式,然后在目标文件中查找这些模式的匹配项。
这个选项在处理多个搜索模式时非常有用,特别是当这些模式太复杂或太多,以至于直接在命令行中指定它们会变得不切实际时。
例如,假设你有一个名为patterns.txt
的文件,内容如下:
error
warning
notice
这个文件包含了你想要在另一个文件(比如logfile.txt
)中搜索的三个模式。你可以使用以下命令来搜索这些模式:
grep -f patterns.txt logfile.txt
这个命令会搜索logfile.txt文件中所有包含error、warning或notice的行,并将它们打印出来。
请注意,patterns.txt
文件中的每一行都被视为一个独立的正则表达式,因此你可以在其中包含正则表达式的特殊字符(尽管这可能会使模式匹配变得更加复杂)。但是,如果你只是想进行简单的文本匹配,并且不希望grep
将文件中的特殊字符视为正则表达式元字符,你可以结合使用-F
和-f
选项,但请注意,-F
选项实际上会覆盖对正则表达式元字符的特殊处理,因此它可能不是你想要的效果(除非你真的只想进行纯文本匹配)。如果你想要从文件中读取模式,但又不希望这些模式中的特殊字符被解释为正则表达式,你可能需要手动转义这些特殊字符,或者确保它们不是正则表达式的元字符。
# -v:显示不被匹配到的行
[root@localhost Desktop]# cat test | grep -v -i aa
1.3 grep egrep fgrep
-
grep:可以使用基本正则表达式进行内容查找匹配
-
egrep:可以使用扩展的正则表达式进行内容查找匹配
-
fgrep:只能查找固定内容,无法使用正则进行匹配
# 查找所有a开头结尾是z的内容
[root@localhost ~]# grep 'a.*z' data
# 查找以a开头结尾为z,或者以a开头结尾为c的内容
[root@localhost ~]# egrep 'a.*z|a.*c' data
# 只查找内容是axz的内容
[root@localhost ~]# fgrep 'a*z' data
[root@localhost ~]# grep -F 'a*z' data
二:sed命令
在Linux中,sed
(stream editor)是一种非常强大的流编辑器,它可以对文本进行过滤和转换。sed
命令读取输入流(文件、管道等),对每一行应用你指定的编辑命令,然后将结果输出到标准输出(通常是屏幕,但也可以重定向到文件)。sed
非常适合于执行文本替换、删除、插入和选择等操作。
2.1sed的基本语法:
sed [-nefri] ‘command’ 输入文本
选项说明
-n∶使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN的资料一般都会被列出到萤幕上。但如果加上 -n 参数后,则只有经过sed 特殊处理的那一行(或者动作)才会被列出来。
-e∶直接在指令列模式上进行 sed 的动作编辑;
-f∶直接将 sed 的动作写在一个档案内, -f filename 则可以执行 filename 内的sed 动作;
-r∶sed 的动作支援的是延伸型正规表示法的语法。(预设是基础正规表示法语法)
-i∶直接修改读取的档案内容,而不是由屏幕输出。
动作说明
a ∶新增, a 的后面可以接字串,而这些字串会在新的一行出现(目前的下一行)~
c ∶取代, c 的后面可以接字串,这些字串可以取代 n1,n2 之间的行!
d ∶删除,因为是删除啊,所以 d 后面通常不接任何内容;
i ∶插入, i 的后面可以接字串,而这些字串会在新的一行出现(目前的上一行);
p ∶列印,亦即将某个选择的资料印出。通常 p 会与参数 sed -n 一起运作~
s ∶取代,可以直接进行取代的工作哩!通常这个 s 的动作可以搭配正规表示法!例如 1,20s/old/new/g
2.2 使用举例
定义文件test,内容如下
HELLO LINUX!
Linux is a free unix-type opterating system.
This is a linux testfile!
Linux test
2.2.1:增加内容
增加一行
在test输出的第一行后面追加一句my name is dijia
[root@localhost sedTest]# sed '1a my name is dijia' test
HELLO LINUX!
my name is dijia
Linux is a free unix-type opterating system.
This is a linux testfile!
注意:只是将文字处理了,没有写入到文件里,文件里还是之前的内容。
查看文件的内容:
[root@localhost sedTest]# cat test
HELLO LINUX!
Linux is a free unix-type opterating system.
This is a linux testfile!
发现文件的内容并没有发生任何的变化
增加多行
在一行到第三行的后面追加上my name is dijia
[root@localhost sedTest]# sed '1,3a my name is dijia' test
HELLO LINUX!
my name is dijia
Linux is a free unix-type opterating system.
my name is dijia
This is a linux testfile!
my name is dijia
2.2.2:插入内容
在最后一行插入byebye
[root@localhost sedTest]# sed '$a byby' test
HELLO LINUX!
Linux is a free unix-type opterating system.
This is a linux testfile!
Linux test
byby
在这之前都是修改的输出内容,如果要修改文件中的真实内容加上一个 -i 就可以
如:
[root@localhost sedTest]# sed - i '$a byby' test
HELLO LINUX!
Linux is a free unix-type opterating system.
This is a linux testfile!
Linux test
byby
2.2.3:删除内容
删除的字符是d,用法跟前面也很相似,对匹配到的数据行,进行删除。
删除第一行
Linux test[root@localhost sedTest]# sed 1d test
Linux is a free unix-type opterating system.
This is a linux testfile!
删除最后一行
[root@localhost sedTest]# sed '$d' test
HELLO LINUX!
Linux is a free unix-type opterating system.
This is a linux testfile!
删除1到3行
[root@localhost sedTest]# sed '1,3d' test
Linux test[root@localhost sedTest]#
删除第二行到最后一行
[root@localhost sedTest]# sed '1,3d' test
Linux test[root@localhost sedTest]#
删除Linux打头的
[root@localhost sedTest]# sed '/Linux/d' test
HELLO LINUX!
This is a linux testfile!
2.2.4:替换内容
将含有Linux的哪一行替换为dijia
Linux test[root@localhost sedTest]# sed '/Linux/c dijia' test
HELLO LINUX!
dijia
This is a linux testfile!
dijia
字符替换
s替换指定字符
语法: sed 's/原来的字符/新的字符/g' 文件名
将Linux的字符替换为dijia
[root@localhost sedTest]# sed 's/Linux/dijia/g' test
HELLO LINUX!
dijia is a free unix-type opterating system.
This is a linux testfile!
dijia test[root@localhost sedTest]#
给每一行内容前都加上###
[root@localhost sedTest]# sed 's/^/###/g' test
###HELLO LINUX!
###Linux is a free unix-type opterating system.
###This is a linux testfile!
###Linux test[root@localhost sedTest]#
给每一行内容后都加上###
[root@localhost sedTest]# sed 's/$/###/g' test
HELLO LINUX! ###
Linux is a free unix-type opterating system. ###
This is a linux testfile! ###
Linux test###[root@localhost sedTest]#
这个其实就是正则表达式的语法,其他类似语法还有:
^ 表示一行的开头。如:/^#/ 以#开头的匹配。 $ 表示一行的结尾。如:/}$/ 以}结尾的匹配。 \< 表示词首。 如:\<abc 表示以 abc 为首的詞。This is a cat abcTest abcQQQ \> 表示词尾。 如:abc\> 表示以 abc 結尾的詞。 . 表示任何单个字符。 * 表示某个字符出现了0次或多次。 [ ] 字符集合。 如:[abc] 表示匹配a或b或c,还有 [a-zA-Z] 表示匹配所有的26个字符。如果其中有^表示反, 如 [^a] 表示非a的字符
2.2.5:多个匹配
用-e命令可以执行多次匹配,相当于顺序依次执行两个sed命令:
同时给每行内容的前后都加上###
[root@localhost sedTest]# sed -e 's/^/###/g' -e 's/$/###/g' sed-1
###HELLO LINUX! ###
###Linux is a free unix-type opterating system. ###
###This is a linux testfile! ###
###Linux test###[root@localhost sedTest]# ^C
2.2.6:日志截取
定位日志
在系统应用集中部署的时候,很多日志因为太多难以定位,获取某段时间的日志是对运维人员非常关键的事情。
sed查看某时间的系统日志:
sed -n '/2024-03-17 09:25:55/,/2024-03-18 09:25:55/p' logfile
sed查看某时间段到现在的系统日志:
sed -n '/2024-03-17 09:25:55/,$p' logfile
三:awk命令
AWK 是一种处理文本文件的语言,是一个强大的文本分析工具。
之所以叫 AWK 是因为其取了三位创始人 Alfred Aho,Peter Weinberger, 和 Brian Kernighan 的 Family Name 的首字符
linux中有三剑客之称: 三剑客之首就是 AWK
三剑客 功能:
grep : 过滤文本
sed : 修改文本
awk : 处理文本
awk只要是用来格式化文本
3.1 基本语法
awk [参数] [处理内容] [操作对象]
参数说明
参数 | 说明 |
---|---|
-F separator | 指定字段分隔符。 |
-f file | 从指定的文件中读取程序 |
-v var=value | 定义awk程序中的一个变量及其默认值 |
-mf N | 指定要处理的数据文件中的最大字段数 |
-mr N | 指定数据文件中的最大数据行数 |
-W keyword | 指定awk的兼容模式或警告等级 |
4.2 使用举例
4.2.1 从命令行读取程序脚本
awk 动作 文件名
准备一个文件test
## 4.2 使用举例
### 4.2.1 从命令行读取程序脚本
```
awk 动作 文件名
```
准备一个文件test
~~~shell
2 this is a test
3 Are you like awk
This's a test
10 There are orange,apple,mongo
1 zs 男 A11 80;90;100
2 ls 男 A12 80;50;60
3 ww 女 A13 30;20;40
4 aa 女 A14 50;20;40
5 zl 男 A15 50;60;30
~~~
打印第二行内容
[root@localhost awkTest]# awk '{print $2}' test
this
Are
a
There
zs
ls
ww
aa
zl
打印第一列和第四列的内容
[root@localhost awkTest]# awk '{print $1,$4}' test
2 a
3 like
This's
10 orange,apple,mongo
1 A11
2 A12
3 A13
4 A14
5 A15
[root@localhost awkTest]#
打印以逗号分隔的第一列值和第二列值
[root@localhost awkTest]# awk -F ' ' '{print $1,$2}' test
2 this
3 Are
This's a
10 There
1 zs
2 ls
3 ww
4 aa
5 zl
匹配项中可以用正则表达式,比如:
查找以This开头的行
[root@localhost ~]# awk '/^This/' test3
查找以awk为结束的行
[root@localhost ~]# awk '/awk$/' test
匹配的就是严格以This开头的内容。
使用数据字段变量
awk会将如下变量分配给它在文本行中发现的数据字段(列):
-
$0代表整个文本行;
-
$1代表文本行中的第1个数据字段;
-
$2代表文本行中的第2个数据字段;
-
$n代表文本行中的第n个数据字段。
-
!: 逻辑非
-
~ : 进行正则匹配(类似于关系表达式)
查找不包含is关键字的内容
[root@localhost awkTest]# awk '$0 !~ /is/' test
3 Are you like awk
10 There are orange,apple,mongo
1 zs 男 A11 80;90;100
2 ls 男 A12 80;50;60
3 ww 女 A13 30;20;40
4 aa 女 A14 50;20;40
5 zl 男 A15 50;60;30
查找包含is关键字的内容
[root@localhost awkTest]# awk '$0 ~ /is/' test
2 this is a test
This's a test
4.2.2 变量
wk中有不少内置的变量,比如$NF代表的是分割后的字段数量,相当于取最后一个。
NF: number filed 当前行分割后的字段个数。打印的时候,是取出最后一列
NR: number row 表示当前第几行
[root@localhost awkTest]# awk '{print $NF}' test
test
awk
test
orange,apple,mongo
80;90;100
80;50;60
30;20;40
50;20;40
50;60;30
输出当前行有几列,以及当前是第几行 每行内容后的两个数字,一共有几列,是第几行
[root@localhost awkTest]# awk '{print $0,NF,NR}' test
2 this is a test 5 1
3 Are you like awk 5 2
This's a test 3 3
10 There are orange,apple,mongo 4 4
1 zs 男 A11 80;90;100 5 5
2 ls 男 A12 80;50;60 5 6
3 ww 女 A13 30;20;40 5 7
4 aa 女 A14 50;20;40 5 8
5 zl 男 A15 50;60;30 5 9
其他的内置变量还有:
变量名 | 说明 |
---|---|
FILENAME:当前文件名 | |
FS | 字段分隔符,默认是空格和制表符。 |
RS | 行分隔符,用于分割每一行,默认是换行符。 |
OFS | 输出字段的分隔符,用于打印时分隔字段,默认为空格。 |
ORS | 输出记录的分隔符,用于打印时分隔记录,默认为换行符。 |
OFMT | 数字输出的格式,默认为%.6g。 |
执行输出结果的各个列,用指定符号分隔
[root@localhost awkTest]# awk '{print $1,$2,$3}' OFS="-" test
2-this-is
3-Are-you
This's-a-test
10-There-are
1-zs-男
2-ls-男
3-ww-女
4-aa-女
5-zl-男
4.2.3 函数
awk还提供了一些内置函数,方便对原始数据的处理。主要如下:
toupper():字符转为大写。
tolower():字符转为小写。
length():返回字符串长度。
substr():返回子字符串。
sin():正弦。
cos():余弦。
sqrt():平方根。
rand():随机数。
将每行内容的最后一列转为大写形式输出
[root@localhost awkTest]# awk '{print toupper($NF)}' test
TEST
AWK
TEST
ORANGE,APPLE,MONGO
80;90;100
80;50;60
30;20;40
50;20;40
50;60;30
将当前行的第一列转为大写内容输出,并输出当前行的长度
[root@localhost ~]# awk '{print toupper($1),length($0)}' test
2 16
3 18
THIS'S 13
10 31
4.2.3 条件
awk允许指定输出条件,只输出符合条件的行。输出条件要写在动作的前面:
awk '条件 动作' 文件名
还是刚才的例子,用逗号分隔之后有好几个空白行,我们加上限制条件,匹配后为空的不显示:
[root@localhost awkTest]# awk -F, '$2!=""{print $2}' test
apple
4.2.3.1 if 语句
awk提供了if结构,用于编写复杂的条件。
将第一列内容大于2的行输出:
[root@localhost awkTest]# awk '{ if ( $1 > 2) print $0}' test
3 Are you like awk
This's a test
10 There are orange,apple,mongo
3 ww 女 A13 30;20;40
4 aa 女 A14 50;20;40
5 zl 男 A15 50;60;30
4.2.3.2 begin 语句 end 语句
语法格式:
awk 'BEGIN{ commands } pattern{ commands } END{ commands }'
多行操作
准备文件test02
111 222 333
444 555 666
777 888 999
[root@localhost awkTest]# awk 'BEGIN{print "开始"} {print $1 "-" $2 "-" $3} END{print "结束"}' test02
开始
111-222-333
444-555-666
777-888-99
结束
4.2.3.2 从文件中读取
假设有这么一个文件(学生成绩表):
[root@localhost ~]# cat score.txt
Marry 2143 78 84 77
Jack 2321 66 78 45
Tom 2122 48 77 71
Mike 2537 87 97 95
Bob 2415 40 57 62
我们的 awk 脚本如下:
#!/bin/awk -f
#运行前
BEGIN {
math = 0;
english = 0;
computer = 0;
printf "NAME NO. MATH ENGLISH COMPUTER TOTAL\n"
printf "---------------------------------------------\n"
}
#运行中
{
math+=$3
english+=$4
computer+=$5
printf "%-6s %-6s %4d %8d %8d %8d\n", $1, $2, $3,$4,$5, $3+$4+$5
}
#运行后
END {
printf "---------------------------------------------\n"
printf " TOTAL:%10d %8d %8d \n", math, english, computer
printf "AVERAGE:%10.2f %8.2f %8.2f\n", math/NR, english/NR, computer/NR
}
我们来看一下执行结果:
[root@localhost awkTest]# awk -f cal.awk score.txt
NAME NO. MATH ENGLISH COMPUTER TOTAL
---------------------------------------------
Marry 2143 78 84 77 239
Jack 2321 66 78 45 189
Tom 2122 48 77 71 196
Mike 2537 87 97 95 279
Bob 2415 40 57 62 159
---------------------------------------------
TOTAL: 319 393 350
AVERAGE: 63.80 78.60 70.00
[root@localhost awkTest]#
总结
grep: 主要用户行内容的检索,通过正则表达式进行内容匹配,不能修改匹配的内容
sed: 可以进行内容匹配,对于匹配的内容可以进行修改
awk:针对指定行内容进行复杂处理,一般用于报表生成