linux bash shell 统计一个文本中单词频率的脚本详解

#!/bin/bash

end=$1

cat $2|
tr -cs "[a-z][A-Z]" "
" |
	tr A-Z a-z |
		sort |
			uniq -c |
				sort -k1nr -k2 |
					head -n$end

这段bash脚本接收两个参数，分别是 $1和$2，$1表示显示频率最高的$1个单词（即结果中的前$1行），而$2则表示要分析的文件路径。

接下来就是一系列命令了，这些命令用 | 符号分割开，该符号表示重定向，把上一个命令的结果传递给下一个命令。

cat 命令打开文件

tr 命令：tr是transform的缩写，该命令是著名的流处理命令sed的简化版，也是用来对文档进行转换的。

tr -cs “[a-z][A-Z]" " " -c表示取“[a-z][A-Z]"的补集（complement），-s 表示把连续的匹配压缩成一个” “，所以整个命令就是把除了字母外的其他字符一律压缩成换行符，如果有连续的匹配，则只转换成一个换行符。

tr A-Z a-z 把大写统一转换成小写。

sort 排序按字母顺序

uniq 去重该命令必须对排序好的文档进行，-c 表示打印出字母的重复次数

然后再次 sort ，这次sort比较复杂，因为在uniq命令后输出结果已经变成了如下形式：

n word (单词的重复次数+空格+单词)

所以 -k1nr表示对第一列(-k1)的数字形式(-n)的变量进行逆序(-r 从大到小)排列 , -k2表示在前面的排序基础上对重复次数一致的单词进行按字母顺序的排列。

最后是head -n$1，表示只显示结果的前$1行。

如果要显示第5行到第10行,则可以使用sed 命令把head -n$1 替换成 sed -n '5,10p‘