Linux三剑客之awk

awk是由Alfred Aho 、Peter Weinberger 和 Brian Kernighan这三个人创造的,awk由这个三个人的姓氏的首个字母组成。awk早期是在unix上实现的,所以,我们现在在linux的所使用的awk其实是gawk,也就是GNU awk,简称为gawk,awk还有一个版本,New awk,简称为nawk,但是linux中最常用的还是gawk。awk其实是一门编程语言,它支持条件判断、数组、循环等功能。所以,我们也可以把awk理解成一个脚本语言解释器。

基本用法

和我们平常使用的 Linux 命令一样, awk 也是遵循着某种格式来使用,格式如下:

使用格式

awk 执行的事件 文件

例如:

1root@jaking-virtual-machine:~# awk '{print $0}' test.txt
2My first language:Python
3My second language:Shell
4My third language:Java
5My fourth language:C

其中,print 表示打印,$0 表示一整个记录,test.txt 表示一个文件。所以

awk '{print $0}' test.txt

表示把 test.txt 文件里面的每行记录都打印出来。

$0 表示整个记录,不过 $1, $2, $3.....则表示整个记录中的第一个字段,第二个字段......。

 1root@jaking-virtual-machine:~# awk '{print $1}' test.txt
 2My
 3My
 4My
 5My
 6root@jaking-virtual-machine:~# awk '{print $2}' test.txt
 7first
 8second
 9third
10fourth
11root@jaking-virtual-machine:~# awk '{print $3}' test.txt
12language:Python
13language:Shell
14language:Java
15language:C

刚才我们说字段的默认分隔符是空格或者制表符这些,默认意味着我们可以自己显式着指定分隔符。下面我们用“:”来作为我们的分隔符吧。

1root@jaking-virtual-machine:~#  awk -F ':' '{print $2}' test.txt
2Python
3Shell
4Java
5C

上面我们用参数 -F 指定了我们的分隔符,即如果想要指定字段的分隔符,可以用参数 -F 指定分隔符。

条件限制

在打印文本的时候,我们可以指定一些条件。格式如下:

awk 参数 条件 要执行的动作 文件

例如我们指定分隔符为“:”,条件为第二个字段为"Java"的记录。

# 打印第二个字段为"Java"的文本

1root@jaking-virtual-machine:~# awk -F ':' '$2 == "Java" {print $2}' test.txt
2Java

打印奇数行的的第二个字段:

# 打印奇数行的记录

1root@jaking-virtual-machine:~# awk -F ':' 'NR % 2 == 1 {print $2}' test.txt
2Python
3Java

其中,NR 是一个内置的变量,表示当前正在处理的记录,即当前的记录是第几个记录。

条件语句

和我们平常的编程一样,awk 也提供了 if, else, while 等这些条件语句。

例如,打印第二个及其之后的记录:

1root@jaking-virtual-machine:~# awk '{if(NR > 1) print $2}' test.txt
2second
3third
4fourth

注意,上面的字段分隔符是空格了,并且 if 语句是在“{}” 里指定的。

再看一个例子:

 1root@jaking-virtual-machine:~# awk '{if($1 < "s") print $1; else print $2}' test.txt
 2# 如果第一个字段小于“s",则打印第一个字段,否则打印第二个字段
 3My
 4My
 5My
 6My
 7root@jaking-virtual-machine:~# awk '{if($1 > "s") print $1; else print $2}' test.txt
 8first
 9second
10third
11fourth
12root@jaking-virtual-machine:~# awk '{if($1 < "l") print $1; else print $2}' test.txt
13My
14My
15My
16My
17root@jaking-virtual-machine:~# awk '{if($1 > "l") print $1; else print $2}' test.txt
18first
19second
20third
21fourth
22root@jaking-virtual-machine:~# awk '{if($1 > "c") print $1; else print $2}' test.txt
23first
24second
25third
26fourth
27root@jaking-virtual-machine:~# awk '{if($1 > "d") print $1; else print $2}' test.txt
28first
29second
30third
31fourth
32root@jaking-virtual-machine:~# awk '{if($1 > "p") print $1; else print $2}' test.txt
33first
34second
35third
36fourth
37root@jaking-virtual-machine:~# awk '{if($1 < "p") print $1; else print $2}' test.txt
38My
39My
40My
41My
42root@jaking-virtual-machine:~# awk '{if($3 < "s") print $3; else print $2}' test.txt
43language:Python
44language:Shell
45language:Java
46language:C
47root@jaking-virtual-machine:~# awk '{if($2 < "s") print $3; else print $2}' test.txt
48language:Python
49second
50third
51language:C
52root@jaking-virtual-machine:~# awk '{if($2 < "s") print $1; else print $2}' test.txt
53My
54second
55third
56My

函数

awk 提供了一些内置函数来供我们使用,一下常用的函数如下:

1tolower():字符转为小写。
2toupper():字符转为大写
3length():返回字符串长度。
4substr():返回子字符串。
5sqrt():平方根。
6rand():随机数。
 1root@jaking-virtual-machine:~# awk '{print toupper($1)}' test.txt
 2MY
 3MY
 4MY
 5MY
 6root@jaking-virtual-machine:~# awk '{print tolower($1)}' test.txt
 7my
 8my
 9my
10my
11root@jaking-virtual-machine:~# awk -F ':' '{print toupper($2)}' test.txt
12PYTHON
13SHELL
14JAVA
15C
16root@jaking-virtual-machine:~# awk -F ':' '{print tolower($2)}' test.txt
17python
18shell
19java
20c

变量

刚才我们说 NR 是一个表示当前正在处理的记录是第几个记录的内置变量,常用的内置变量如下:

1NR:表示当前处理的是第几行
2NF:表示当前行有多少个字段
3FILENAME:当前文件名
4FS:字段分隔符,默认是空格和制表符。
5RS:行分隔符,用于分割每一行,默认是换行符。
6OFS:输出字段的分隔符,用于打印时分隔字段,默认为空格。
7ORS:输出记录的分隔符,用于打印时分隔记录,默认为换行符。

例如我们要打印每一个记录的最后一个字段,就可以使用变量 NF 了。

1root@jaking-virtual-machine:~# awk '{print $NF}' test.txt
2language:Python
3language:Shell
4language:Java
5language:C

对了,刚才那个 NR 的变量也是挺好用的,例如:

1root@jaking-virtual-machine:~# awk '{print NR ". "  $0}' test.txt
21. My first language:Python
32. My second language:Shell
43. My third language:Java
54. My fourth language:C