【Linux命令行与Shell脚本编程】第十九章 正则表达式

news2024/12/27 13:06:23

Linux命令行与Shell脚本编程 第十九章 正则表达式


文章目录

  • Linux命令行与Shell脚本编程 第十九章 正则表达式
  • 九.正则表达式
    • 9.1.正则表达式基础
      • 9.1.1.正则表达式的类型
      • 9.2.定义BRE模式
        • 9.2.1.普通文本
        • 9.2.2.特殊字符
      • 9.2.3.锚点字符
        • 锚定行首^
        • 锚定行尾$
        • 组合锚点
      • 9.2.4.点号字符\.
      • 9.2.5.字符组[]
      • 9.2.6.排除字符组
      • 8.2.7.区间
      • 9.2.8.特殊字符组
      • 9.2.9.星号*
    • 9.3.扩展正则表达式
      • 9.3.1.问号?
      • 9.3.2.加号+
      • 9.3.3.花括号\{\}
      • 9.3.4.竖线符号\|
      • 9.3.5.表达式分组
    • 9.4.实战
      • 9.4.1.目录文件计数


九.正则表达式

  • 正则表达式基础
  • 定义BRE模式
  • 扩展正则表达式

在sed和gawk中创建正则表达式,以得到所需的数据。

9.1.正则表达式基础

正则表达式是一种可供Linux工具过滤文本的自定义模板,使用元字符来描述数据流中的一个或多个字符.
Linux工具(比如sed或gawk)会在读取数据时使用正则表达式对数据进行模式匹配。如果数据匹配模式,它就会被接受并进行处理。
正则表达式包含文本和/或特殊字符.

9.1.1.正则表达式的类型

不同的应用程序可能使用不同类型的正则表达式。
编程语言(Java、Python)、Linux工具(sed、gawk和grep)以及主流应用程序(MySQL数据库服务器)。

正则表达式由正则表达式引擎实现。这种底层软件,负责解释正则表达式并用这些模式进行文本匹配。

Linux 中流行的两种:

  • POSIX基础正则表达式(basic regular expression,BRE)引擎。
  • POSIX扩展正则表达式(extended regular expression,ERE)引擎。

大多数Linux工具至少符合POSIX BRE引擎规范。但有些工具(比如sed)仅符合BRE引擎规范的一个子集。
(出于速度方面的考虑导致,sed希望尽可能快地处理数据流中的文本)

POSIX ERE引擎多见于依赖正则表达式过滤文本的编程语言中。为常见模式(比如数字、单词以及字母或数字字符)提供了高级模式符号和特殊符号。
gawk就是使用ERE引擎来处理正则表达式。

9.2.定义BRE模式

最基本的BRE模式是匹配数据流中的文本字符.

9.2.1.普通文本

正则表达式对大小写敏感.
正则表达式并不关心模式在数据流中出现的位置,也不在意模式出现了多少次。
只要能匹配文本字符串中任意位置的模式,正则表达式就会将该字符串传回Linux工具。

在正则表达式中,空格和其他的字符没有区别.如果在正则表达式中定义了空格,那么必须出现在数据流中。甚至可以创建匹配多个连续空格的正则表达式.

$ cat data1
This is a normal line of text.
This is  a line with too many spaces.
$ sed -n '/  /p' data1
This is  a line with too many spaces.

9.2.2.特殊字符

正则表达式中的一些字符具有特别的含义:

  • .
  • *
  • []
  • ^
  • $
  • {}
  • \
  • +
  • ?
  • |
  • ()

不能在匹配普通文本的模式中单独使用这些字符.
如果要将某个特殊字符视为普通字符,则必须将其转义.使用特殊转移字符反斜线(\)。

尽管正斜线 / 不属于正则表达式的特殊字符,但如果出现在sed或gawk的正则表达式中,就会出现错误,所以正斜线也需要进行转义.

9.2.3.锚点字符

默认情况下,当指定一个正则表达式模式时,只要模式出现在数据流中的任何地方,它就能匹配.有两个特殊字符可以用来将模式锁定在数据流中的行首或行尾。

锚定行首^

脱字符(^)可以指定位于数据流中文本行行首的模式。如果模式出现在行首之外的位置,则正则表达式无法匹配。
使用脱字符,就必须将其置于正则表达式之前

$ echo "The book store" | sed -n '/^book/p'
$
$ echo "Books are great" | sed -n '/^Book/p'
Books are great

如果将脱字符放到正则表达式开头之外的位置,那么就跟普通字符一样,没有特殊含义

$ echo "This ^ is a test" | sed -n '/s ^/p'
This ^ is a test

如果正则表达式模式中只有脱字符,就不必用反斜线来转义。但如果在正则表达式中先指定脱字符,随后还有其他文本,就必须在脱字符前用转义字符.

$ echo "This is ^ a test" | sed -n '/^ a test/p'
$ echo "This is ^ a test" | sed -n '/\^ a test/p'
This is ^ a test

锚定行尾$

与在行首查找模式相反的情况是在行尾查找。特殊字符美元符号($)定义了行尾锚点。将这个特殊字符放在正则表达式之后则表示数据行必须以该模式结尾.

$ echo "This is a good book" | sed -n '/book$/p'
This is a good book

组合锚点

组合使用行首锚点和行尾锚点。

$ cat data4
this is a test of using both anchors
I said this is a test
this is a test
I'm sure this is a test.
$ sed -n '/^this is a test$/p' data4
this is a test

将这两个锚点直接组合,之间不加任何文本,可以过滤掉数据流中的空行。
组合 删除命令d就可以删除掉文本中的空行.

$ cat data5
This is one test line.

This is another test line.
$ sed '/^$/d' data5
This is one test line.
This is another test line.

9.2.4.点号字符.

点号字符可以匹配除换行符之外的任意单个字符。(空格也是字符,可以匹配)
点号字符必须匹配一个字符,如果在点号字符的位置没有可匹配的字符,那么模式不成立。

$ cat data6
This is a test of a line.
The cat is sleeping.
That is a very nice hat.
This test is at line four.
at ten o'clock we'll go home.
$ sed -n '/.at/p' data6
The cat is sleeping.
That is a very nice hat.
This test is at line four.

9.2.5.字符组[]

想要限定要匹配的具体字符使用字符组.
可以在正则表达式中定义用来匹配某个位置的一组字符。如果字符组中的某个字符出现在了数据流中,那就能匹配该模式。

方括号 [] 用于定义字符组。
在不太确定某个字符的大小写时非常适合使用字符组.

$ echo "Yes" | sed -n '/[Yy]es/p'
Yes
$ echo "yes" | sed -n '/[Yy]es/p'
yes

在一个正则表达式中可以使用多个字符组.
可以将多个字符组组合在一起,以检查数字是否具备正确的格式.

$ cat data8
60633
46201
223001
4353
22203
$ sed -n '
> /^[0123456789][0123456789][0123456789][0123456789][0123456789]$/p
> ' data8
60633
46201
22203

9.2.6.排除字符组

在正则表达式中,可以反转字符组的作用:匹配字符组中没有的字符。在字符组的开头添加脱字符^:

$ sed -n '/[^ch]at/p' data6
This test is at line four.

即使是排除型,字符组仍必须匹配一个字符,以at为起始的行还是不能匹配模式!!!

8.2.7.区间

可以用单连字符在字符组中表示字符区间。只需指定区间的第一个字符、连字符以及区间的最后一个字符。
根据Linux系统使用的字符集,字符组会包括在此区间内的任意字符。

$ sed -n '/^[0-9][0-9][0-9][0-9][0-9]$/p' data8
60633
46201
45902

同样的方法也适用于字母:

$ sed -n '/[c-h]at/p' data6
The cat is sleeping.
That is a very nice hat.

可以在单个字符组内指定多个不连续的区间:

$ sed -n '/[a-ch-m]at/p' data6
The cat is sleeping.
That is a very nice hat.

9.2.8.特殊字符组

BRE还提供了一些特殊的字符组,用来匹配特定类型的字符。

字符组描述
[[:alpha:]]匹配任意字母字符,无论大小写
[[:alnum:]]匹配任意字母和数组字符,0-9、a-z、A-Z
[[:blank:]]匹配空格和制表符
[[:digit:]]匹配0-9的数字
[[:lower:]]匹配a-z的字母
[[:upper:]]匹配A-Z的字母
[[:print:]]匹配任意可打印字符
[[:punct:]]匹配标点符号
[[:space:]]匹配任意空白字符:空格、制表符、换行符、分页符、垂直制表符、回车符

特殊字符组在正则表达式中的用法和普通字符组一样:

$ echo "abc" | sed -n '/[[:digit:]]/p'
$ echo "abc" | sed -n '/[[:alpha:]]/p'
abc
$ echo "abc123" | sed -n '/[[:digit:]]/p'
abc123
$ echo "This is a test" | sed -n '/[[:punct:]]/p'
$ echo "This is, a test" | sed -n '/[[:punct:]]/p'
This is, a test

9.2.9.星号*

在字符后面放置星号,表明该字符必须在匹配模式的文本中出现0次或多次.

$ echo "ik" | sed -n '/ie*k/p'
ik
$ echo "iek" | sed -n '/ie*k/p'
iek
$ echo "ieek" | sed -n '/ie*k/p'
ieek
$ echo "ieeek" | sed -n '/ie*k/p'
ieeek
$ echo "ieeeek" | sed -n '/ie*k/p'
ieeeek

某些单词在英美中不同,借助 星号可以匹配:

$ echo "I'm getting a color TV" | sed -n '/colou*r/p'
I'm getting a color TV
$ echo "I'm getting a colour TV" | sed -n '/colou*r/p'
I'm getting a colour TV
$

将点号字符和星号字符组合起来。这个组合能够匹配任意数量的任意字符:

$ echo "this is a regular pattern expression" | sed -n '
> /regular.*expression/p'
this is a regular pattern expression

星号用于字符组时,指定可能在文本中出现0次或多次的字符组或字符区间:

$ echo "bt" | sed -n '/b[ae]*t/p'
bt
baaeeet
$ echo "baeeaeeat" | sed -n '/b[ae]*t/p'
baeeaeeat
$ echo "baakeeet" | sed -n '/b[ae]*t/p'

9.3.扩展正则表达式

POSIX ERE模式提供了一些可供Linux应用程序和工具使用的额外符号。gawk支持ERE模式,sed不支持。

可用于gawk脚本中的常见ERE模式符号。

9.3.1.问号?

问号表明字符可以出现0次或1次,不会匹配多次出现的该字符.用法与星号类似,可以作用与字符组.

$ echo "bt" | gawk '/be?t/{print $0}'
bt
$ echo "bet" | gawk '/be?t/{print $0}'
bet
$ echo "beet" | gawk '/be?t/{print $0}'

9.3.2.加号+

加号表明前面的字符可以出现1次或多次,必须至少出现1次。用法与星号类似,可以作用与字符组.

$ echo "bt" | gawk '/b[ae]+t/{print $0}'
$
$ echo "bat" | gawk '/b[ae]+t/{print $0}'
bat
$ echo "bet" | gawk '/b[ae]+t/{print $0}'
bet
$ echo "beat" | gawk '/b[ae]+t/{print $0}'
beat
$ echo "beet" | gawk '/b[ae]+t/{print $0}'
beet
$ echo "beeat" | gawk '/b[ae]+t/{print $0}'
beeat

9.3.3.花括号{}

ERE中的花括号允许为正则表达式指定具体的可重复次数,称为区间。

可以用两种格式来指定区间:

  • m:正则表达式恰好出现m次。
  • m, n:正则表达式至少出现m次,至多出现n次。

默认情况下,gawk也不识别正则表达式区间,必须指定gawk的命令行选项–re-interval。

$ echo "bt" | gawk --re-interval '/be{1}t/{print $0}'
$
$ echo "bet" | gawk --re-interval '/be{1}t/{print $0}'
bet
$ echo "beet" | gawk --re-interval '/be{1}t/{print $0}'
$
$ echo "bt" | gawk --re-interval '/be{1,2}t/{print $0}'
$
$ echo "bet" | gawk --re-interval '/be{1,2}t/{print $0}'
bet
$ echo "beet" | gawk --re-interval '/be{1,2}t/{print $0}'
beet
$ echo "beeet" | gawk --re-interval '/be{1,2}t/{print $0}'
$
$ echo "bt" | gawk --re-interval '/b[ae]{1,2}t/{print $0}'
$
$ echo "beet" | gawk --re-interval '/b[ae]{1,2}t/{print $0}'
beet
$ echo "beeat" | gawk --re-interval '/b[ae]{1,2}t/{print $0}'
$

9.3.4.竖线符号|

竖线符号允许在检查数据流时,以逻辑OR方式指定正则表达式引擎要使用的两个或多个模式。任何一个模式匹配了数据流文本,就视为匹配。
竖线符号两侧的子表达式可以采用正则表达式可用的任何模式符号(包括字符组)

$ echo "The cat is asleep" | gawk '/cat|dog/{print $0}'
The cat is asleep
$ echo "The dog is asleep" | gawk '/cat|dog/{print $0}'
The dog is asleep
$ echo "The sheep is asleep" | gawk '/cat|dog/{print $0}'

9.3.5.表达式分组

用圆括号对正则表达式进行分组。分组之后,每一组会被视为一个整体,可以像对普通字符一样对该组应用特殊字符。

$ echo "Sat" | gawk '/Sat(urday)+/{print $0}'
$ echo "Saturday" | gawk '/Sat(urday)+/{print $0}'
Saturday

将分组和竖线符号结合起来创建可选的模式匹配组:

$ echo "cat" | gawk '/(c|b)a(b|t)/{print $0}'
cat
$ echo "cab" | gawk '/(c|b)a(b|t)/{print $0}'
cab
$ echo "bat" | gawk '/(c|b)a(b|t)/{print $0}'
bat
$ echo "bab" | gawk '/(c|b)a(b|t)/{print $0}'
bab
$ echo "tab" | gawk '/(c|b)a(b|t)/{print $0}'
$

9.4.实战

9.4.1.目录文件计数

对PATH环境变量中各个目录所包含的文件数量进行统计.

PATH中的各个路径由冒号分隔。要获取可在脚本中使用的目录列表,须用空格替换冒号.

$ echo $PATH | sed 's/:/ /g'
/usr/local/sbin /usr/local/bin /usr/sbin /usr/bin /sbin /bin
/usr/games /usr/local/games

分离出目录之后,可以使用标准for语句遍历每个目录:

mypath=`echo $PATH | sed 's/:/ /g'`
for directory in $mypath
do
...
done

对于单个目录,可以用ls命令列出其中的文件,再用另一个for语句来遍历每个文件,对文件计数器增值。

$ cat countfiles
#!/bin/bash
# count number of files in your PATH
mypath=$(echo $PATH | sed 's/:/ /g')
count=0
for directory in $mypath
do
    check=$(ls $directory)
    for item in $check
    do
        count=$[ $count + 1 ]
    done
    echo "$directory - $count"
    count=0
done
$ ./countfiles /usr/local/sbin - 0
/usr/local/bin - 2
/usr/sbin - 213
/usr/bin - 1427
...
/usr/local/games - 0

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/861389.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

全栈开发流程——数据表的分析与创建详解实战演示(一)

作者介绍 「作者主页」:雪碧有白泡泡 「个人网站」:雪碧的个人网站 「推荐专栏」: ★java一站式服务 ★ ★ React从入门到精通★ ★前端炫酷代码分享 ★ ★ 从0到英雄,vue成神之路★ ★ uniapp-从构建到提升★ ★ 从0到英雄&…

【Linux】UDP协议——传输层

目录 传输层 再谈端口号 端口号范围划分 认识知名端口号 两个问题 netstat与iostat pidof UDP协议 UDP协议格式 UDP协议的特点 面向数据报 UDP的缓冲区 UDP使用注意事项 基于UDP的应用层协议 传输层 在学习HTTP等应用层协议时,为了便于理解&#xff…

Al Go: 蒙特卡洛树搜索(MCTS)简介

目录 1. 前言 1.1 Minimax 1.2 剪枝 1.3 蒙特卡洛树搜索 1.4 为什么随机走子会可行呢? 2. vanilla Monte Carlo tree search 3. UCT-based trade-off between exploitation and exploration 4. MCTS基本算法流程 5. Efficiency Through Expert Policies 6…

Spring整合MyBatis(详细步骤)

Spring与Mybatis的整合&#xff0c;大体需要做两件事&#xff0c; 第一件事是:Spring要管理MyBatis中的SqlSessionFactory 第二件事是:Spring要管理Mapper接口的扫描 具体的步骤为: 步骤1:项目中导入整合需要的jar包 <dependency><!--Spring操作数据库需要该jar包…

【雕爷学编程】Arduino动手做(04)---震动模块之常闭型SW-420传感器与SW-520D倾斜模块的应用

37款传感器与模块的提法&#xff0c;在网络上广泛流传&#xff0c;其实Arduino能够兼容的传感器模块肯定是不止37种的。鉴于本人手头积累了一些传感器和执行器模块&#xff0c;依照实践出真知&#xff08;一定要动手做&#xff09;的理念&#xff0c;以学习和交流为目的&#x…

使用 Python 中的 Langchain 从零到高级快速进行工程

大型语言模型 (LLM) 的一个重要方面是这些模型用于学习的参数数量。模型拥有的参数越多,它就能更好地理解单词和短语之间的关系。这意味着具有数十亿个参数的模型有能力生成各种创造性的文本格式,并以信息丰富的方式回答开放式和挑战性的问题。 ChatGPT 等法学硕士利用 T

代码质量检查工具SonarQube

Devops流水线之SonarQube 文章目录 Devops流水线之SonarQube1. 软件功能介绍及用途2. 软件环境搭建与使用2.1 使用方法2.2 SonarQube相关属性说明2.3 Sonar配置文件内容说明 3. 使用环节4. 检查方法 1. 软件功能介绍及用途 SonarQube是一个用于代码质量管理的开源平台&#xf…

一百四十九、Kettle——Linux上安装的kettle8.2创建共享资源库时遇到的问题(持续更新中)

一、目的 在kettle8.2在Linux上安装好可以启动界面、并且可以连接MySQL、Hive、ClickHouse等数据库后开始创建共享资源库&#xff0c;但是遇到了一些问题 二、Linux系统以及kettle版本 &#xff08;一&#xff09;Linux&#xff1a;CentOS 7 英文的图形化界面模式 &#…

竞赛项目 深度学习的水果识别 opencv python

文章目录 0 前言2 开发简介3 识别原理3.1 传统图像识别原理3.2 深度学习水果识别 4 数据集5 部分关键代码5.1 处理训练集的数据结构5.2 模型网络结构5.3 训练模型 6 识别效果7 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 深度学习…

无涯教程-Perl - index函数

描述 此函数返回STR中第一次出现的SUBSTR的位置,该位置从开头(从零开始)开始,或者从POSITION(如果指定)开始。 语法 以下是此函数的简单语法- index STR, SUBSTR, POSITIONindex STR, SUBSTR返回值 失败时此函数返回-1,否则返回匹配字符串的位置(第一个字符从零开始)。 例…

Mongoose http server 例子

今天抽了点时间看了一下 mongoose的源码&#xff0c; github 地址&#xff0c;发现跟以前公司内部使用的不太一样&#xff0c;这里正好利用其 http server 例子来看一下。以前的 http message 结构体是这样的&#xff1a; /* HTTP message */ struct http_message {struct mg_…

进程的退出

进程的退出分为正常退出和异常退出&#xff1a; 正常退出 Main函数调用return进程调用exit()&#xff0c;标准c库进程调用_exit()或_Exit()&#xff0c;属于系统调用进程最后一个线程返回&#xff08;之后学到&#xff09;最后一个线程调用pthread_exit&#xff08;之后学到&…

MySQL事务:ACID特性实现原理

事务是MySQL等关系型数据库区别于NoSQL的重要方面&#xff0c;是保证数据一致性的重要手段。本文将首先介绍MySQL事务相关的基础概念&#xff0c;然后介绍事务的ACID特性&#xff0c;并分析其实现原理。 MySQL博大精深&#xff0c;文章疏漏之处在所难免&#xff0c;欢迎批评指…

基于Elman神经网络的电力负荷预测

1 案例背景 1.1 Elman神经网络概述 根据神经网络运行过程中的信息流向,可将神经网络可分为前馈式和反馈式两种基本类型。前馈式网络通过引入隐藏层以及非线性转移函数可以实现复杂的非线性映射功能。但前馈式网络的输出仅由当前输人和权矩阵决定,而与网络先前的输出结果无关。…

Postman中,既想传递文件,还想传递多个参数(后端)

需求:既想传文件又想传多个参数可以用以下方式实现

2023年的深度学习入门指南(25) - 通义千问7b

2023年的深度学习入门指南(25) - 通义千问7b 最近发生的两件事情都比较有意思&#xff0c;一个是连续开源了7b和13b模型的百川&#xff0c;对其53b闭源了&#xff1b;另一个是闭源项目通义千问开源了自己的7b模型。 下面我们就来研究下通义千问7b. 使用通义千问7b 首先安装…

LeetCode 31题:下一个排列

目录 题目 思路 代码 题目 整数数组的一个 排列 就是将其所有成员以序列或线性顺序排列。 例如&#xff0c;arr [1,2,3] &#xff0c;以下这些都可以视作 arr 的排列&#xff1a;[1,2,3]、[1,3,2]、[3,1,2]、[2,3,1] 。 整数数组的 下一个排列 是指其整数的下一个字典序…

sql高频面试题-去除最高最低的平均

面试或者笔试的过程中会设定各种各样的场景&#xff0c;在这些场景下考查我们SQL的查询能力&#xff0c;但是万变不离其宗&#xff0c;业务场景只是一个表现形式&#xff0c;抽象为SQL问题后其实基本上就是几类问题&#xff1a;计算累计、连续&#xff0c;分类TopN等。只要掌握…

浅谈智能配电房在海岛中的应用 安科瑞 顾语欢

摘要&#xff1a;以海陵岛旅游区海岛智能配电房设计方案为研究对象,从功能设计、逻辑设计和拓扑设计三方面进行 分析,得出契合海陵岛实际和海岛特点的智能配电房方案设计。通过对设计方案研究,总结提炼了海岛智 能配电房组成要素,为进一步提炼统一规范的智能配电房技术标准打下…

Spring Gateway+Security+OAuth2+RBAC 实现SSO统一认证平台

背景&#xff1a;新项目准备用SSO来整合之前多个项目的登录和权限&#xff0c;同时引入网关来做后续的服务限流之类的操作&#xff0c;所以搭建了下面这个系统雏形。 关键词&#xff1a;Spring Gateway, Spring Security, JWT, OAuth2, Nacos, Redis, Danymic datasource, Jav…