在Linux操作系统中,grep、sed、awk被称为文本操作“三剑客”,上三期中,我们将详细介绍grep、sed、awk的基本使用方法,希望能够帮助到有需要的朋友。
1、前言
awk作为一门编程语言还有很多内容,我们继续学习awk。
网上有很多教程,讲的都很棒的,但是也讲得很迷糊。
关注我,我也是在摸索中学习,尽量讲清晰一些,希望您在看的过程中,能够有所发现。
首先,上官方手册:Gawk - GNU Project - Free Software Foundation (FSF)
工作流程如下图:BEGIN块开始,循环执行BODY块,最后执行END块。
大家记住这张图,下面我们来讲常用的匹配模式。
主要有以下几种:
- awk保留字
- 关系运算符
- 匹配操作符
- 正则表达式
2、awk保留字
保留字 | 描述 |
BEGIN | 在处理文件之前执行一次的特殊模式。常用于初始化操作,如设置变量、打印标题等。 |
END | 在处理文件之后执行一次的特殊模式。常用于收尾工作,如统计结果、输出总结信息等。 |
NR | 内置变量,表示当前记录的编号。记录是以换行符分隔的文本行。常用于控制循环或条件判断,如打印第一行或最后一行,或执行基于记录编号的操作。 |
NF | 内置变量,表示当前记录的字段数。字段是以空格或制表符分隔的文本列。常用于指定操作的字段数量,如打印指定字段,或执行基于字段数的条件判断。 |
FS | 内置变量,表示输入字段分隔符。默认为空格或制表符,可以通过赋值改变其值。常用于处理不同格式的文本文件,如逗号分隔的CSV文件,冒号分隔的passwd文件等。 |
OFS | 内置变量,表示输出字段分隔符。默认为与FS相同的值,可以通过赋值改变其值。常用于控制输出格式,如指定输出结果的分隔符。 |
$0 | 内置变量,表示当前记录的整体内容。常用于对整行进行操作,如替换、删除、打印等。 |
$1...$n | 一组内置变量,分别表示当前记录的各个字段。常用于对指定字段进行操作,如计算、比较、拼接等。 |
3、关系运算符
关系运算符是指用来比较两个值的大小或相等性的运算符,它们返回一个布尔值(真或假)。awk支持以下关系运算符:
关系运算符 | 描述 |
== | 等于 |
!= | 不等于 |
< | 小于 |
<= | 小于等于 |
> | 大于 |
>= | 大于等于 |
关系运算符可以用来构造条件表达式,比如筛选出某个范围内的数据,判断某个值是否存在等。
4、匹配操作符
匹配操作符是指用来检查一个值是否匹配一个模式的运算符,它们返回一个布尔值(真或假)。awk支持以下匹配操作符:
- ~ | 匹配 |
!~ | 不匹配 |
模式可以是一个字符串或一个正则表达式。匹配操作符可以用来过滤出符合某种规则的数据,比如包含某个关键字,以某个字符开头或结尾等。
5、正则表达式
元素 | 描述 |
字符类 | 用方括号括起来的一组字符,表示匹配其中任意一个字符。比如[abc]表示匹配a或b或c。 |
范围类 | 用方括号括起来的两个字符之间加上连字符,表示匹配该范围内的任意一个字符。比如[a-z]表示匹配小写字母。 |
反向类 | 在字符类或范围类前面加上^,表示匹配除了该类之外的任意一个字符。比如[^0-9]表示匹配非数字。 |
预定义类 | 用反斜杠加上一个字母,表示匹配某种类型的字符。比如\d表示匹配数字,\w表示匹配字母或数字或下划线。 |
量词 | 用花括号括起来的一个或两个数字,表示匹配前面的元素的重复次数。比如a{3}表示匹配三个a,a{2,4}表示匹配两个到四个a。 |
贪婪量词 | 在量词后面加上?,表示匹配前面的元素的最小重复次数。比如a{2,4}?表示匹配两个a。 |
通配符 | 用点号.表示匹配任意一个字符(除了换行符)。 |
边界符 | 用反斜杠加上一个大写字母,表示匹配某种位置。比如\b表示匹配单词边界,\B表示匹配非单词边界。 |
分组 | 用圆括号括起来的一部分正则表达式,表示将其作为一个整体进行匹配或引用。比如(ab)+表示匹配ab的一次或多次重复,\1表示引用第一个分组的内容。 |
选择 | 用竖线|分隔的两个或多个正则表达式,表示匹配其中任意一个。比如a|b|c表示匹配a或b或c。 |
正则表达式可以用来描述各种复杂的文本模式,比如邮箱地址,手机号码,日期格式等。
示例代码:
# 示例代码一:使用awk打印包含特定关键字的行
awk '/关键字/' 文件名
# 示例代码二:使用awk打印第一列等于指定值的行
awk '$1 == "指定值"' 文件名
# 示例代码三:使用awk打印字段数大于等于3的行
awk 'NF >= 3' 文件名
# 示例代码四:使用awk打印以特定字符串开头的行
awk '$0 ~ /^特定字符串/' 文件名
# 示例代码五:使用awk打印指定字段的和
awk '{sum += $1} END {print sum}' 文件名
# 示例代码六:使用awk打印匹配正则表达式的行
awk '/正则表达式/' 文件名
# 示例代码七:使用awk自定义分隔符,并打印指定字段
awk -F ':' '{print $1}' 文件名
# 示例代码八:使用awk在匹配的行前后添加文字
awk '/匹配模式/ {print "前缀" $0 "后缀"}' 文件名
# 示例代码九:使用awk按照指定条件排序
awk '{print $2, $1}' 文件名 | sort
# 示例代码十:使用awk统计特定字段的出现次数
awk '{count[$1]++} END {for (word in count) print word, count[word]}' 文件名
如果您觉得有些用处,欢迎在评论区留言,关注。谢谢您的阅读!
往期学习笔记:
Windows系统开启Linux子系统(Ubuntu)
Linux常用命令(目录操作命令)
Linux常用命令:文件的创建、复制、移动、查找和删除命令
Linux常用命令:文本文件的查看与编辑
Linux常用命令:文本文件的拼接与分割
Linux常用命令:文件的权限管理
Linux常用命令:文件的下载、压缩与解压
Linux常用命令:常见的操作符
Linux常用命令:系统操作命令
Linux文本处理三剑客:grep
Linux文本处理三剑客:sed
Linux文本处理三剑客:awk