shell学习4

news2026/2/7 16:08:44

一、统计文本中的词频

二、压缩javascript

三、打印文件的或行中的第n个单词或列---awk

3.1 利用awk打印文件中每行中的第五个单词。

3.2 利用awk打印当前目录下的文件的权限和文件名

3.3 利用awk打印从M行到N行这个范围内的所有文本

3.4 利用awk 部分提取文件中的内容

3.5 利用awk 逆序打印

四、解析文本中的电子邮件地址和URL---egrep

五、在文件中移除包含某个单词的句子---sed

5.1 删除包含“mobile phones” 的句子

5.2 对目录中的所有文件进行文本替换

一、统计文本中的词频

#!/bin/bash
if [ $# -ne 1 ];
then
echo "用法错误，请按照这样使用：./ceshi.sh word.txt";
exit -1
fi
filename=$1 
egrep -o "\b[[:alpha:]]+\b" $filename | \  
awk '{ count[$0]++ }
END{ printf("%-14s%s\n","Word","Count") ;
for(ind in count)
{ printf("%-14s%d\n",ind,count[ind]); }
}'

①[ $# -ne 1 ] : 如果传递给脚本的参数不是1

②$1传递给脚本的第一个参数,$0就是脚本本身

③-o 表示只匹配本身。

egrep -o "\b[[:alpha:]]+\b" $filename 只用于输出单词。用 -o 选项打印出由换行符分隔的匹配字符序列。这样我们就可以在每行中列出一个单词。
\b 是单词边界标记符。 [:alpha:] 是表示字母的字符类。 awk 命令用来避免对每一个单词
进行迭代。因为 awk 默认会逐行执行 {} 块中的语句，所以我们就不需要再为同样的事编写循环了。
借助关联数组，当执行 count[$0]++ 时，单词计数就增加。最后，在 END{} 语句块中通过迭代所有的单词，就可以打印出单词及它们各自出现的次数。

二、压缩javascript

cat sample.js |  tr -d '\n\t' |  tr -s ' ' |  sed 's:/\*.*\*/::g' |  sed 's/ \?\([{}();,:]\) \?/\1/g'

tr -s 删除所有重复出现的字符序列

tr -d 删除字符串中出现的所有字符

tr -d '\n\t' ：移除 '\n' 和 '\t'
tr -s ' '：移除多余的空格

sed 's:/\*.*\*/::g':移除注释

因为我们需要使用 /* 和 */ ，所以用 : 作为 sed 的定界符，这样就不必对 / 进行转
义了。
* 在 sed 中被转义为 \* 。
.* 用来匹配 /* 与 */ 之间所有的文本。

sed 's/ \?$[{}();,:]$ \?/\1/g' ：移除 { 、 } 、 ( 、 ) 、 ; 、 : 以及 , 前后的空格。(去掉标红符号前后的空格)

 sed 代码中的 / \?$[{ }();,:]$ \?/ 用于匹配， /\1/g 用于替换。
 $[{ }();,:]$ 用于匹配集合 [ { }( ) ; , : ] （出于可读性方面的考虑，
在这里加入了空格）中的任意一个字符。 $ 和 $ 是分组操作符，用于记忆所匹配的
内容，以便在替换部分中进行向后引用。对 ( 和 ) 转义之后，它们便具备了另一种特
殊的含义，进而可以将它们作为分组操作符。位于分组操作符前后的 \? 用来匹配
可能出现在字符集合前后的空格。
 在命令的替换部分，匹配字符串（也就是一个可选的空格、一个来自字符集的字
符再加一个可选的空格）被匹配的子字符串所替换。对于匹配的子字符串使用了
向后引用，并通过分组操作符 () 记录了匹配内容。可以用符号 \1 向后引用分组
所匹配的内容。

三、打印文件的或行中的第n个单词或列---awk

3.1 利用awk打印文件中每行中的第五个单词。

3.2 利用awk打印当前目录下的文件的权限和文件名

3.3 利用awk打印从M行到N行这个范围内的所有文本

3.4 利用awk 部分提取文件中的内容

3.5 利用awk 逆序打印

NR:是总共读取了多少行

这个 awk 脚本非常简单。我们将每一行都存入一个关联数组中，用行号作为数组索引（行
号由 NR 给出），最后由 awk 执行 END 语句块。为了得到最后一行的行号，在 { } 语句块中使用
lno=NR 。因此，这个脚本从最后一行一直迭代到第0行，将存储在数组中的各行以逆序方式
打印出来。

四、解析文本中的电子邮件地址和URL---egrep

电子邮件：

URL:

因为用到了扩展正则表达式（例如+），所以得使用 egrep 命令

. 匹配任意一个字符

\. 用来匹配点字符，而不是任何字符的通配符。

[a-zA-Z]{2,4} 表示字母的长度应该在2到4之间（包括2和4）。eg:cn、com、edu

五、在文件中移除包含某个单词的句子---sed

5.1 删除包含“mobile phones” 的句子

文本内容要保证在在同一行。

该正则表达式的格式为： 's/ 匹配模式/替代字符串 /g' 。

这里的匹配模式是用来匹配整句文本的正则表达式。文件中的每一句话第一个字符都是空
格，句与句之间都以“ . ”来分隔。因此我们需要匹配内容的格式就是：空格+若干文本+需要匹
配的字符串+若干文本+句点。一个句子除了作为定界符的句点之外，可以包含任意字符。因此我
们要使用 [^.] 。 [^.]* 可以匹配除句点之外的任何字符的组合。用来匹配文本的“mobile phone”
被放置在两个 [^.]* 之间。每一个匹配的句子均被 // 替换（注意， / 与 / 之间没有任何内容）。