Shell脚本文本处理三剑客(grep、awk、sed)和正则表达式

news2024/11/24 6:25:18

一、正则表达式

1.正则表达式基础

正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串,将匹配的子串替换或者从某个串中取出符号某个条件的子串等,在linux中代表自定义的模式模板,linux工具可以用正则表达式过滤文本。linux工具能够在处理数据时使用正则表达式对数据进行模式匹配,如果数据符号匹配的要求,那么就会进入下一步处理,如果数据不符合匹配的要求,就会被过滤掉。

正则表达式(正规表达式、常规表达式):

1.使用字符串来描述、匹配一系列符号某个规则的字符串

2.普通字符包括大小写字母、数字、标点符号及一些其他符号组成,元字符是指在正则表示式中具有特殊意义的专用字符

2.元字符

基础正则表达式支持的工具:grep、egrep、sed、awk

字符功能
\转义,把一些特殊的符号转换成普通的符号字符,还可以把一些普通字符转换成特殊功能,例:\!、\n、\$等
^表示匹配字符串开始的位置,匹配行首
$表示匹配字符串末尾的位置,匹配行尾
.匹配任意的单个字符
*

匹配前面子表达式0次或多次,贪婪模式尽可能长

.*表示任意长度的任一字符,不包括0次
\?匹配其前面的字符0或1次,可有可无
\+匹配其前面字符最少1次,有且大于等于1次
\{n\}匹配前面的子表达式n次
\{n,\}匹配前面的子表达式不少于n次
\{,n\}匹配前面的子表达式不多于n次
\{n,m\}匹配前面的子表达式n到m次(m>=n)
\w匹配包括下划线的任何单词字符
\W匹配任何非单词字符。等价于"[^A-Za-z0-9_]"。
\d匹配一个数字字符
\D匹配一个非数字字符。等价于[^0-9]。
\s空白符
[:alpha:]字母,即A-Z,a-z
[:alnum:]字母和数字
[:lower:]小写字母,即a-z
[:upper:]大写字母,即A-Z
[:blank:]空白字符(空格和制表符)
[:space:]包括空格、制表符、换行符、回车符等各类型空白
[:print:]可打印字符
[:punct:]标点符号

3.扩展正则表达式元字符

支持的工具:egrep、awk、grep -E、sed -r

字符功能
+表示匹配前面的子表达式1次以上
表示匹配前面的子表达式0次或1次
()将括号里的内容看成一个整体
|以或的方式匹配字符串

+:表示匹配前面的子表达式1次以上

?:表示匹配前面的子表达式0或1次

():将括号里的内容看成一个整体

|:以或的方式匹配字符串

二、grep命令

grep(Global Regular Expression Print):表示全局正则表达式,使用权限是所有用户,grep命令是文本搜索工具,能使用正则表达式搜索文本,并把匹配的行打印出来

选项功能
-m匹配几次后停止
-v反选
-i忽略字符大小写
-n显示匹配行号
-c统计匹配行数
-o仅显示匹配到的字符串
-q静默模式
-A后几行
-B前几行
-C前后各几行
-e多个选项之间“或者”关系
-w匹配整个单词
-E启用扩展正则表达式=egrep
-F不支持正则表达式=fgrep
-f处理两个文件的相同内容,以第一个文件作为匹配条件
-r递归,但不处理软链接
-R递归,处理软链接

统计lsblk命令显示中磁盘总个数:

在大量文件中快速过滤/etc文件夹下包含root单词的所有文件:

1.^:表示匹配字符串开始的位置,匹配行首

2.$:表示匹配字符串末尾的位置,匹配行尾

3.*:匹配前面子表达式0次或多次,贪婪模式尽可能长

4..:匹配除\n之外的任意的一个字符

5..*:表示任意长度的任一字符,不包括0次

6.\{n\}  匹配前面的子表达式n次

三、sed命令

1.sed基础

1.sed编辑器是一种流编辑器,流编辑器会在编辑器处理数据之前基于预先提供的一组规则来编辑数据流

2.sed编辑器可以根据命令来处理数据流中的数据,这些命令要么从命令行中输入,要存储在一个命令文本文件中

2.sed编辑器的工作流程

sed的工作流程主要包括读取、执行和显示三个过程:

1.读取:sed从输入流(文件、管道、标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间,pattern space)

2.执行:默认情况下,所有的sed命令都在模式空间中顺序地执行,除非指定了行的地址,否则sed命令将会在所有的行上依次执行

3.显示:发送修改后的内容到屏幕,在发送数据后,模式空间将会被清空,在所有的文件内容都被处理完成之前,上述过程将重复执行,直到被全部处理完成

注:默认情况下所有sed命令都是在模式空间内执行的,因此输入的文件并不会发生任何变化,
除非是用重定向存储输出或者sed -i

3.sed命令选项

选项功能
-n不输出模式空间内容,即不自动打印,加p恢复自动打印
-e多点编辑
-f从指定文件中读取编辑脚本
-r  -E使用扩展正则表达式
-i备份文件并原处编辑

4.sed命令操作

操作功能
s替换,替换指定字符
d删除,删除选定的行
a增加,在当前行下面增加一行指定内容
i插入,在选定行上面插入一行指定内容
c替换,将选定行替换为指定内容
Y字符转换,转换前后的字符长度必须相同
p打印,如果同时指定行,表示打印指定行;如果不指定行,则表示打印所有内容;如果有非打印字符,则以ASCII码输出。其通常与"-n"选项一起使用
=打印行号
l打印数据流中的文本和不可打印的ASCII字符(比如结束符$、制表符\t)

5.sed打印内容

1.打印输入的全部内容

2.查看文件,打印文件中全部内容

3.打印指定行内容

4.打印指定多行内容

5.打印多(3)行后退出

6.打印最后一行,使用通配符$(最后)

7.支持正则表达式,打印范围内容

8.过滤关键字

9.从第n行开始匹配

10.找到第n个关键字为止

11.打印文本的奇数行和偶数行

6.sed删除内容

1.删除指定行

2.删除指定的多行

3.删除文本中的空行

4.删除以指定字符结尾的行及取反

5.先备份内容再删除

7.插入内容

1.在指定行后插入

2.插入空行,修改文件的换行,要多加一个\

8.替换行内容

9.取反(使用!)

10.搜索替代

替换标记作用
数字表明新字符串将替换第几处匹配的地方
g表明新字符串将会替换所有匹配的地方
p打印与替换命令匹配的行,与-n一起使用
w文件将替换的结果写到文件中

1.修改selinux开机不自启配置文件

2.修改多行,使用r以及-e

3.修改全局,后面加g

4.查找几点到几点之间的日志

11.分组调用

1.调用分组段

2.提取IP地址

四、awk命令

1.awk基础

awk是一种处理文本文件的语言,是一个强大的文本分析工具,可以在无交互的模式下实现复杂的文本操作,相较于sed常作用于一整个行的处理,awk则比较倾向于一行当中分成数个字段来处理,因为awk相当适合小型的文本数据

2.awk格式及原理

awk命令逐行读取文本,默认以空格或tab键为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中,并按模式或者条件执行编辑命令。sed命令常用于一整行的处理,而awk比较倾向于将一行分成多个“字段”然后再进行处理,awk信息的读入也是逐行读取的,执行结果可以通过print的功能将字段数据打印显示

命令格式:

awk  [选项]  '模式条件{操作}'  文件1  文件2

awk  -f |-v  脚本文件  文件1   文件2

3.awk常见内建变量

变量功能
FS列分隔符,指定每行文本的字段分隔符,默认为空格或制表位,与-F作用相同
NF当前处理的行的字段个数
NR当前处理的行的行号(序数)
$0当前处理的行的整行内容
$n当前处理行的第n个字段(第n列)
FILENAME被处理的文件名
RS行分隔符。awk从文件上读取资料时,将根据RS的定义把资料切割成许多条记录,而awk一次仅读入一条记录,以进行处理。预设值是’\n’
$NF最后一段
$(NF-1)倒数第二段

4.awk打印文本内容:

awk可以自动将多个空格压缩成一个空格

打印字符串需要加双引号

2.打印磁盘已经使用情况

df  |awk  '{print $5}'

3.打印字符串

awk  '{print "hello eva"}'

4.打印字符串确定文件有多少行

5.awk根据$n已经NR提取字段

$n代表提取第几列

1.提取ip地址

ifconfig ens33 |sed -n '2p' |awk '{print $2}'

ifconfig ens33 |awk 'NR==2{print $2}'

2.提取ipv6地址

ifconfig ens33 |sed -n '3p' |awk '{print $2}'

ifconfig ens33 |awk 'NR==3{print $2}'

6.awk根据选项-F指定分隔符

1.打印/etc/passwd所有用户名

cat /etc/passwd |awk -F ":" '{print $1}'

cat /etc/passwd |awk -F:  '{print $1}'

2.打印多列内容

打印时逗号可以表示空格,如果使用:或+,需要将特殊符号加上双引号当成字符串打印

cat /etc/passwd |awk -F":" '{print $1,$2}'

cat /etc/passwd |awk -F: '{print $1":"$2}'

cat /etc/passwd |awk -F: '{print $1"+"$2}'

3.awk打印磁盘已经使用情况,去掉%

df |awk '{print $5}' |awk -F% '{print $1}'

df |awk -F "[ % ]+" '{print $5}'

df |awk -F "( |% )+" '{print $5}'

4.取出文本中的ip地址及时间

cat test.txt |sed '2d' |awk -F"[[ ]" '{print $5"\t"$1}'

cat test.txt |sed '2d' |awk -F"[[ ]" '{print $5,$1}'

5.取出文本中的主机并放回

7.awk根据关键字提取所在行

1.提取/etc/passwd以root开头的行

cat /etc/passwd |awk -F":" '/^root/{print}'

.提取/etc/passwd root所在的行

cat /etc/passwd |awk -F: '/root/{print}'

3.提取/etc/passwd nologin结尾的行

cat /etc/passwd |awk -F":" '/nologin$/{print}'

cat /etc/passwd |awk -F":" '/\/sbin\/nologin$/{print}'

8.FS:指定每行文本的字段分隔符,默认为空格或制表符,与-F相同

9.NF:当前处理行的整行内容

1.当前处理的行的字段个数

cat /etc/passwd |awk -F: '{print NF}'

2.打印出每行最后一个字段

cat /etc/passwd |awk -F: '{print $NF}'

3.打印出每行倒数第二个字段

cat /etc/passwd |awk -F: '{print $(NF-1)}'

df|awk '{print $(NF-1)}'

10.NR:当前处理行的行号

1.当前处理的行的行号

2.NR==n代表行号等于什么

3.NR%2==0取偶数行

4.NR%2==1取奇数行

5.NR==1,NR==4取区间行

6.取UID数值范围$n>1000

11.例子

1.统计/etc/fstab文件中每个文件系统类型出现的次数

2.统计/etc/fstab文件中每个单词出现的次数

3.将某日志文件访问用户的IP地址,在第三列冒号隔开,统计出访问量前十的IP地址

4.提取出字符串uf5951df1s56f1wf1w9f1w1f651f61w中所有的数字

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1794824.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Mybatis】INSERT INTO 遇到NULL怎么处理?

目录标题 背景-使用Mybatis手写批量插入Insert方法测试核心代码,author字段为null,插入条件怎么写? MybatisPlus解决方案自动填充字段 Mybatis解决方案if标签处理 问题:如果不在工程里面设置默认值?如何直接使用数据库…

c语言速成系列指针上篇

那么这一篇文章带大家学习一下c语言的指针的概念、使用、以及一些注意事项。 指针的概念 指针也就是内存地址,指针变量是用来存放内存地址的变量。就像其他变量或常量一样,您必须在使用指针存储其他变量地址之前,对其进行声明。 大白话讲解…

【Python报错】已解决ValueError: cannot reindex from a duplicate axis

成功解决“ValueError: cannot reindex from a duplicate axis”错误的全面指南 在数据处理和分析的过程中,尤其是在使用Pandas这样的强大工具时,我们有时会遇到一些错误信息。其中,“ValueError: cannot reindex from a duplicate axis”错误…

RabbitMQ启动报错:Error during startup: {error, {schema_integrity_check_failed,

报错信息如下: Error during startup: {error,{schema_integrity_check_failed,[{table_attributes_mismatch,rabbit_user,[username,password_hash,tags,hashing_algorithm,limits],[username,password_hash,tags,hashing_algorithm]},{table_attributes_mismatch…

【LeetCode】二叉树oj专题

如有不懂的地方,可查阅往期相关文章! 个人主页:小八哥向前冲~ 所属专栏:数据结构【c语言】 目录 单值二叉树 对称二叉树 计算二叉树的深度 二叉树的前序遍历 相同二叉树 另一棵树的子树 二叉树的构建和遍历 翻转二叉树 判…

使用python优雅的将PDF转为Word

使用python优雅的将PDF转为Word 先装这个优雅的库 pip install pdf2docx然后运行下面优雅的代码,将pdf路径和docx路径修改 from pdf2docx import Converter # path pdf_file C:\\Users\\phl\\Desktop\\软件工程期末\\软件工程模拟试题5.pdf docx_file C:\\User…

UML交互图-序列图

概述 序列图又称为时序图、活动序列图,它是一种详细表示对象之间及对象与参与者实例之间交互的图,它由一组协作的对象(或参与者实例)及它们之间可发送的消息组成,它强调消息之间的时间顺序。 序列图主要用于按照交互发生的一系列顺序,显示对…

查看Linux端口占用和开启端口命令

查看端口的使用的情况 lsof 命令 比如查看80端口的使用的情况 lsof -i tcp:80列出所有的端口 netstat -ntlp查看端口的状态 /etc/init.d/iptables status开启端口以开启端口80为例。 1 用命令开启端口 iptables -I INPUT -p tcp --dport 80 -j accpet --写入要开放的端口/…

力扣 503. 下一个更大元素 II

题目来源:https://leetcode.cn/problems/next-greater-element-ii/description/ C题解:因为是循环数组,所以对数组进行了两次遍历,相当于循环。使用了栈,一个存放元素,一个存放索引,用来更新res…

微服务学习Day8-Sentinel

文章目录 Sentinel雪崩问题服务保护框架Sentinel配置 限流规则快速入门流控模式流控效果热点参数限流 隔离和降级FeignClient整合Sentinel线程隔离(舱壁模式)熔断降级 授权规则及规则持久化授权规则自定义异常结果持久化 Sentinel 雪崩问题 服务保护框架…

【大学物理】波动光学速成

考点1 光的干涉条件 考点2 杨氏双缝干涉 s1为单峰屏,s2为双缝屏 s为点光源,s1,s2为波阵面上两点,为新的子波波源 p的坐标为x 劳埃德镜实验:半波损失 菲涅耳双镜实验 考点3 光程 考点4 等倾干涉

在vue项目中使用markdown-it回显markdown文本

前言 其实有很多插件都是可以用来回显markdown文本的,这个插件也是其中之一。 文档地址:markdown-it | markdown-it 中文文档 这个文档在vue2和vue3里面都可以使用,所以还是比较推荐的 使用 安装 npm install markdown-it --save 应用 <template><div><…

Django的PATH路径转换器

本书1-7章样章及配套资源下载链接: https://pan.baidu.com/s/1OGmhHxEMf2ZdozkUnDkAkA?pwdnanc 源码、PPT课件、教学视频等&#xff0c;可以从前言给出的下载信息下载&#xff0c;大家可以评估一下。 在Django框架中&#xff0c;默认内置了一组PATH路径转换器&#xff0c;具…

win10下,python3.7安装xlrd和xlwt

win10下&#xff0c;执行import xlwt&#xff0c;结果报错 No module named xlwt。 原因&#xff1a;使用的python没有安装xlwt包。 解决方法&#xff1a; 1&#xff09;打开一个命令窗口&#xff0c;执行&#xff1a;where python&#xff0c;可以看到使用的python路径及版…

保利威观看页SDK 官方VUE开源项目 polyv-web-live-watch-sdk

一、安装:node、npm 二、下载源码 polyv-web-live-watch-sdk: 保利威直播观看 SDK 官方文档:保利威帮助中心 进入项目根目录 npm ci #安装依赖,如果 CI 失败,请试一下 npm ci --no-cache --registry=https://registry.npmmirror.com/ npm run dev #启动项目 执行完成后…

【启明智显技术分享】sigmastar ssd202d双网口开发板多串口调试说明

提示&#xff1a;作为Espressif&#xff08;乐鑫科技&#xff09;大中华区合作伙伴及sigmastar&#xff08;厦门星宸&#xff09;VAD合作伙伴&#xff0c;我们不仅用心整理了你在开发过程中可能会遇到的问题以及快速上手的简明教程供开发小伙伴参考。同时也用心整理了乐鑫及星宸…

Hyper-SD: diffusion实时出图,一步搞定,字节出品

Hyper-SD: diffusion实时出图&#xff0c;一步搞定&#xff0c;字节出品 先看效果 Real-Time Generation Demo of Hyper-SD. Abstract 近来&#xff0c;一系列面向扩散模型&#xff08;Diffusion Models&#xff0c;DM&#xff09;的迭代紧凑式传播推断算法陆续出现&#xf…

Python使用trule库画小猪佩奇

在这篇博客中&#xff0c;我将向大家展示如何使用Python的Turtle模块来绘制一个可爱的小猪佩奇。这个项目不仅可以帮助你熟悉Turtle绘图&#xff0c;还可以让你在编程的过程中享受到绘画的乐趣。 并非百分百原创&#xff0c;有部分参考其他博主&#xff0c;请理性对待&#xff…

安防视频融合汇聚平台EasyCVR如何实现视频画面自定义标签?

安防视频融合汇聚平台EasyCVR兼容性强&#xff0c;可支持Windows系统、Linux系统以及国产化操作系统等&#xff0c;平台既具备传统安防视频监控的能力&#xff0c;也具备接入AI智能分析的能力&#xff0c;可拓展性强、视频能力灵活&#xff0c;能对外分发RTMP、RTSP、HTTP-FLV、…

最新版点微同城源码34.7+全套插件+小程序前后端

带全套插件 自己耐心点配置一下插件 可以H5可以小程序 一款专属的同城服务平台对于企业和个人而言&#xff0c;无疑是拓展业务、提升服务品质的重要一环。点微同城源码搭配全套插件&#xff0c;以及完善的小程序前后端&#xff0c;将为您的业务发展提供强大支持 源码免费下载…