linux之awk命令详解

AWK是一种优良的文本处理工具。它不仅是 Linux 中也是任何环境中现有的功能最强大的数据处理引擎之一。

AWK 提供了极其强大的功能：可以进行样式装入、流控制、数学运算符、进程控制语句甚至于内置的变量和函数。
它具备了一个完整的语言所应具有的几乎所有精美特性。实际上 AWK 的确拥有自己的语言：AWK 程序设计语言，
它允许您创建简短的程序，这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表，还有无数其他的功能。
最简单地说， AWK 是一种用于处理文本的编程语言工具。AWK 在很多方面类似于 shell 编程语言，

尽管操作可能会很复杂，但命令的语法始终是：
awk '{pattern + action}' 或者 awk 'pattern {action}'

其中 pattern 表示 AWK 在数据中查找的内容，而 action 是在找到匹配内容时所执行的一系列命令。花括号 ({}) 不需要在程序中始终出现，但它们用于根据特定的模式对一系列指令进行分组。

awk提供了一个完整的编程模型。

awk程序由一个主输入循环维持。并且反复执行。直到终止条件被触发。

但是这些处理都是由awk自己完成的。我们只需要编写循环中的处理。

会循环的处理pattern匹配的每一条数据，直到处理完毕。

awk中还定义了两个特殊的字段。BEGIN和END。BEGIN用于在主输入循环之前执行。即在未读取输入文件之前执行。END则相反，

用于在主输入循环之后执行。即在读取输入文件执行完毕后执行。

awk的调用方法也分为三种：

①awk [-F 域分隔符] 'awk程序段' 输入文件

②awk -f awk脚本文件输入文件

③./awk脚本文件输入文件（awk脚本需要以'#!'开头加上awk的路径，并且设置为可执行）

可以看到，第一种方式中，可以通过-F来指定域分隔符。那这是什么意思呢？

在awk中认为输入文件是结构化的，awk将每个输入文件行定义为记录。行中的每个字符串定义为域，域之间用空格，tab键或其他字符进行分割，分割的符号叫做分隔符。多个连续的空格或tab键被当作一个分隔符来处理。

在awk中定义了一个域操作符$来指定执行动作的域。域操作符后面跟数字或变量来标识域的位置。域的编号从1开始，0表示所有的域。

比如：zhangsan 男 24 江西 138xxxxxxxx

上面这条记录中，$0就代表了整条记录，$1就代表[zhangsan]，$2就代表[男]。

尽管-F可以改变分隔符，但是在awk中还提供了一种更方便的方式来改变分隔符。就是awk环境变量FS。

我们可以通过在BEGIN字段中设置FS的值来改变分隔符。

下面就来简单体验下awk的简单使用：

[fuwh@localhost 12:42 ~/stu]$ cat tx
fuwh men:jiangxi
zhangsan girl:shanghai
[fuwh@localhost 12:45 ~/stu]$ awk '{print $2}' tx
men:jiangxi
girl:shanghai
[fuwh@localhost 12:46 ~/stu]$ awk -F":" '{print $2}' tx
jiangxi
shanghai
[fuwh@localhost 12:47 ~/stu]$ awk 'BEGIN {FS=":"} {print $1}' tx
fuwh men
zhangsan girl
[fuwh@localhost 12:48 ~/stu]$

awk既然也是一种编程语言，那里面肯定也是有很多普通语言所具有的运算符，循环，判断之类的。

在awk中awk程序段都是由模式和动作组成的。模式是一组用于测试输入行是否需要执行动作的规则，动作包含语句，函数和表达式的执行过程，在模式匹配中，经常需要用到正则表达式。awk支持'?'和'+'这两个元字符。

关系和布尔运算符

关系运算符主要用于awk模式匹配

<：小于

>：大于

<=：小于或等于

>=：大于或等于

==：等于

!=：不等于

~：匹配正则表达式

！~：不匹配正则表达式

布尔运算：

||：逻辑或

&&：逻辑与

!：逻辑非

例子：

[fuwh@localhost 13:31 ~/stu]$ cat tx
fuwh:men:jiangxi
zhangsan:girl:shanghai
lisi:girl:beijing
wangwu:feman:shenzhen
[fuwh@localhost 13:31 ~/stu]$ awk 'BEGIN{FS=":"} {if($2=="men"||$2~/girl/) print $3}' tx
jiangxi
shanghai
beijing
[fuwh@localhost 13:34 ~/stu]$

表达式

在awk中也可以定义变量，一个表达式可以包含赋值，运算符等等。

+：加

-：减

*：乘

/：除

%：模

^或**：乘方

++x：自增，在返回x之前

x++：自增，在返回x之后

例子：

[fuwh@localhost 14:06 ~/stu]$ cat tx
fuwh:men:jiangxi
zhangsan:girl:shanghai
lisi:girl:beijing
wangwu:feman:shenzhen
[fuwh@localhost 14:10 ~/stu]$ awk 'BEGIN{FS=":"} {if($2=="girl") x++} END{print "女生个数:" x}' tx
女生个数:2
[fuwh@localhost 14:10 ~/stu]$

系统变量

在awk中，还内建了许多变量，用来设置环境信息。叫做系统变量。

系统变量分为两种：一种是用于改变awk的默认值，如域分隔符FS，第二种用于定义系统值。在处理文本的时候可以读取这些系统值，如记录中的域数量，当前记录数，当前文件名之类的。

下面是一些常见的环境变量及其意义：

$n：当前记录的第n个域，域间由FS分割
$0：记录所有的域

ARGC：命令行参数的数量

ARGIND：命令行中当前文件的位置(以0开始标号)

ARGV：命令行参数的数组

CONVFMT：数字转换格式

ENVIRON：环境变量关联数组

ERRNO：最后一个系统错误的描述

FIELDWIDTHS：字段宽度列表，以空格键分割

FILENAME：当前文件名

FNR：浏览文件的记录数

FS：字段分隔符，默认是空格键

IGNORECASE：布尔变量，如果威震，则进行忽略大小写的匹配

NF：当前记录中的域数量

NR：当前记录数

OFMT：数字的输出格式

OFS：输出域分隔符，默认是空格键

ORS：输出记录分隔符，默认是换行符

RLENGTH：由match函数所匹配的字符串长度

RS：记录分隔符默认是空格键

RSTART：由match函数所匹配的字符串的第一个位置

SUBSEP：数组下标分隔符，默认是34

例子：

[fuwh@localhost 14:31 ~/stu]$ cat tx
fuwh:men:jiangxi
zhangsan:girl:shanghai
lisi:girl:beijing
wangwu:feman:shenzhen
[fuwh@localhost 14:31 ~/stu]$ awk 'BEGIN{FS=":"} {print "第"NR"条记录"} END{print FILENAME "共"FNR"条记录，每条有"NR"个域"}' tx
第1条记录
第2条记录
第3条记录
第4条记录
tx共4条记录，每条有4个域
[fuwh@localhost 14:32 ~/stu]$

格式化输出

前面我们都是用print进行输出，但是，在awk中，还提供了printf这个输出来进行格式化的输出工作。

基本语法：

printf (格式控制符,参数)

printf的语句分为两部分，第一部分是格式控制符，都以%开始，用以描述格式规范，第二部分是参数列表，比如变量名列表。与格式控制符相对应。

格式控制符又可以分为修饰符和格式符两种。

修饰符：

-：左对齐

width：域的步长

-prec：小数点右边的位数

格式符：

%c：ASCII字符

%d：整型数

%e：浮点数，科学计数法

%f：浮点数

%o：八进制数

%s：字符串

%x：十六进制数

例子：

[fuwh@localhost 14:35 ~/stu]$ cat tx
fuwh:men:jiangxi
zhangsan:girl:shanghai
lisi:girl:beijing
wangwu:feman:shenzhen
[fuwh@localhost 14:46 ~/stu]$ awk 'BEGIN{FS=":"}{printf("%s	%s人
",$1,$3) }' tx
fuwh    jiangxi人
zhangsan        shanghai人
lisi    beijing人
wangwu  shenzhen人
[fuwh@localhost 14:47 ~/stu]$

内置字符串函数

在awk中提供了强大的内置字符串函数，用于实现文本的字符串替换、查找以及分割等功能。

gsub(r,s)：在输入文件中用s替换r

gsub(r,s,t)：在t中用s替换r

index(s,t)：返回s中字符串第一个t的位置

length(s)：返回s的长度

match(s,t)：测试s是否包含匹配t的字符串

split(s,t)：在t上将r分成序列s

sub(r,s,t)：将t中第一次出现的r替换成s

substr(r,s)：返回字符串r中从s开始的后缀部分

例子：

[fuwh@localhost 14:59 ~/stu]$ cat tx
fuwh:men:jiangxi
zhangsan:girl:shanghai
lisi:girl:beijing
wangwu:feman:shenzhen
[fuwh@localhost 15:03 ~/stu]$ awk 'BEGIN{FS=":"}{if($1=="fuwh") print(length($3))}' tx
7
[fuwh@localhost 15:04 ~/stu]$

向awk脚本传递参数

在awk中使用的变量，可以在命令行中进行赋值。实现向awk脚本传递参数。变量复制放在脚本之后、输入文件之前，格式为：

awk 脚本 parameter=value 输入文件

例子：

[fuwh@localhost 15:26 ~/stu]$ ll tx*
-rw-rw-r--. 1 fuwh fuwh 80 8月  14 13:31 tx
-rwxrw-r--. 1 fuwh fuwh 41 8月  14 15:26 tx.awk
[fuwh@localhost 15:26 ~/stu]$ cat tx tx.awk
fuwh:men:jiangxi
zhangsan:girl:shanghai
lisi:girl:beijing
wangwu:feman:shenzhen
#!/bin/awk -f
{printf("%s	%s
",$1,$3)}
[fuwh@localhost 15:26 ~/stu]$ ./tx.awk FS=":" tx
fuwh    jiangxi
zhangsan        shanghai
lisi    beijing
wangwu  shenzhen
[fuwh@localhost 15:26 ~/stu]$

条件语句和循环语句

awk中支持下面几种条件语句和循环语句。

if(条件表达式)

　　动作1

[else

　　动作2]

while(条件表达式)

　　动作

while(条件表达式)

for（计数器初始值;测试计数器条件;计数器变化）

　　动作

数组

数组的索引可以是数字，也可以是字符串，索引并不表示存储的顺序信息。在awk中，会自动维护一对索引和值的信息。

awk中访问数组的所有元素：

for(变量 in 数组名)

　　xxxxx

还可以使用in来判断是否在数组中存在

　　索引名 in 数组名

如果存在，则返回1，不存在则返回0