Linux 文本数据处理工具awk命令

awk 命令是逐行扫描文件（从第 1 行到最后一行），寻找含有目标文本的行，如果匹配成功，则会在该行上执行用户想要的操作；反之，则不对行做任何处理。

# F（指定字段分隔符）

默认使用空格作为分隔符。

[root@localhost awk]# echo "aa bb  cc dd  ee ff" | awk  '{print $1}'
aa
[root@localhost awk]# echo "aa bb l cc dd l ee ff" | awk -F 'l' '{print $1}'
aa bb 
[root@localhost awk]# echo "aa bb  cc : dd  ee ff" | awk -F ':' '{print $1}'
aa bb  cc

1
2
3
4
5
6

# FS（字段分隔符）

默认是空格和制表符。
$0 表示当前整行内容，$1，$2 表示第一个字段，第二个字段

[root@localhost zabbix_agentd.d]# echo "aa bb cc  dd" | awk '{ print $0}'
aa bb cc  dd
[root@localhost zabbix_agentd.d]# echo "aa bb cc  dd" | awk '{ print $1}'
aa
[root@localhost zabbix_agentd.d]# echo "aa bb cc  dd" | awk '{ print $2}'
bb

1
2
3
4
5
6

# NF（当前行的字段个数）

$就代表最后一个字段，$ (NF-1) 代表倒数第二个字段

[root@localhost zabbix_agentd.d]# echo "aa bb cc  dd" | awk '{ print $NF}'
dd
[root@localhost zabbix_agentd.d]# echo "aa bb cc  dd" | awk '{ print $(NF-1)}'
cc

1
2
3
4

# NR (当前处理的是第几行)

打印当前行号和当前文本内容

[root@localhost awk]# cat test.txt 
aa ss
dd ff
gg hh
[root@localhost awk]# cat test.txt | awk '{print NR")", $0}'
1) aa ss
2) dd ff
3) gg hh

1
2
3
4
5
6
7
8

逗号表示输出的变量之间用空格分隔；
右括号必需使用双引号才可以原样输出
打印指定行内容：

[root@localhost S17]# java -version 
java version "1.8.0_131"
Java(TM) SE Runtime Environment (build 1.8.0_131-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.131-b11, mixed mode)
[root@localhost S17]# java -version 2>&1  | awk 'NR==1 {print $0}'
java version "1.8.0_131"
[root@localhost S17]#

1
2
3
4
5
6
7

# FILENAME (当前文件名)

[root@localhost awk]#  awk '{print FILENAME, NR")", $0}' test.txt 
test.txt 1) aa ss
test.txt 2) dd ff
test.txt 3) gg hh
[root@localhost awk]# cat test.txt | awk '{print FILENAME, NR")", $0}'
- 1) aa ss
- 2) dd ff
- 3) gg hh

1
2
3
4
5
6
7
8

awk '{condition action}' filename 这种形式时可以打印文件名；
通过 |（管道符）读取内容时打印的是 -

# 其他变量

RS：行分隔符，用于分割每一行，默认是换行符。
OFS：输出字段的分隔符，用于打印时分隔字段，默认为空格。
ORS：输出记录的分隔符，用于打印时分隔记录，默认为换行符。
OFMT：数字输出的格式，默认为％.6g。

# print 和 printf

awk 中同时提供了 print 和 printf 两种打印输出的函数。

print 函数，参数可以是变量、数值或者字符串。字符串必须用双引号引用，参数用逗号分隔。如果没有逗号，参数就串联在一起而无法区分。这里，逗号的作用与输出文件的分隔符的作用是一样的，只是后者是空格而已。

printf 函数，其用法和 c 语言中 printf 基本相似，可以格式化字符串，输出复杂时，printf 更加好用，代码更易懂。

# 其他函数

toupper ()：字符转为大写。
tolower ()：字符转为小写。
length ()：返回字符串长度。
substr ()：返回子字符串。
substr ($1,2)：返回第一个字段，从第 2 个字符开始一直到结束。
substr ($1,2,3)：返回第一个字段，从第 2 个字符开始开始后的 3 个字符。
sin ()：正弦。
cos ()：余弦。
sqrt ()：平方根。
rand ()：随机数。

[root@localhost awk]# echo "aa bb  cc dd  ee ff" | awk  '{print toupper($1)}'
AA
[root@localhost awk]# echo "aa BB  cc dd  ee ff" | awk  '{print tolower($2)}'
bb
[root@localhost awk]# echo "aa BB  cc dd  ee ff" | awk  '{print length($2)}'
2
[root@localhost awk]# echo "asdfghj" | awk '{print substr($1,2,3)}'
sdf

1
2
3
4
5
6
7
8

# 条件

awk 允许指定输出条件，只输出符合条件的行。
awk ' 条件 {动作}' 文件名

[root@localhost awk]# cat exp.txt 
/stsvc/fms/conf/application.yml
/stsvc/sms/conf/application.yml
/stsvc/tms/conf/application.yml
/root/home/chenfan
/root/home/jhhuang
[root@localhost awk]# cat exp.txt | awk '/stsvc/ {print $0}'     包含 stsvc 的行
/stsvc/fms/conf/application.yml
/stsvc/sms/conf/application.yml
/stsvc/tms/conf/application.yml
[root@localhost awk]# cat exp.txt | awk '/stsvc\/fms/ {print $0}' 包含 stsvc/fms 的行
/stsvc/fms/conf/application.yml

1
2
3
4
5
6
7
8
9
10
11
12

布尔值判断

[root@localhost awk]# cat exp.txt | awk 'NR==2 {print $0}'　　等于第二行
/stsvc/sms/conf/application.yml
[root@localhost awk]# cat exp.txt | awk 'NR>4 {print $0}'　　大于第四行
/root/home/jhhuang
[root@localhost awk]# cat exp.txt | awk 'NR%2==1 {print $0}'　　奇数行
/stsvc/fms/conf/application.yml
/stsvc/tms/conf/application.yml
/root/home/jhhuang

1
2
3
4
5
6
7
8

某个字段等于具体值

[root@localhost awk]# cat test.txt 
aa ss
dd ff
gg hh
[root@localhost awk]# cat test.txt | awk ' $2=="ff" {print $0}'
dd ff

1
2
3
4
5
6

if 语句

[root@localhost awk]# echo "aa ss dd" | awk '{ if($3 == "dd") print $0; else print "nothing"}'
aa ss dd
[root@localhost awk]# echo "aa ss dds" | awk '{ if($3 == "dd") print $0; else print "nothing"}'
nothing

1
2
3
4

# demo

以下脚本复制粘贴就可用，需要在和应用同级目录新建一个 logs 文件夹，使用方法 ./ 脚本.sh start 应用名称.jar，其中使用了 awk 命令解决获取 pid 问题

#/bin/bash

# 这里说一下 我用 /bin/sh 脚本里打印非正常 换成 /bin/bash 就好了
# 通过执行文件获得 要被执行的jar 例如 ./start.sh test-0.0.1.jar 获取到 test-0.0.1.jar
# $@获得所有参数,$1获得第一个参数
MATHOD=$1
APP_NAME=$2
# 在方法内直接使用是无法获取到个数的
PARAM=$#

# 参数校验
check(){
    if [ $PARAM -ne 2 ]; then
        echo "run method  $0 start | stop  app_name.jar"
        exit
    fi
}


# 判断程序是否运行 如果不存在返回1，存在返回0
is_exist(){
    check
    # grep -v grep 就是查找不含有 grep 字段的行，默认第一条命令会查出两行数据，第一行一般是我们所需要的，第二行就属于 grep的数据
    # grep 是查找含有指定文本行的意思，比如grep test 就是查找含有test的文本的行
    # grep -v 是反向查找的意思，比如 grep -v grep 就是查找不含有 grep 字段的行
    # $(ps -ef | grep $jarname | grep -v grep) 是执行一个命令，并把结果赋给pid
    # awk 百度
    pid=`ps -ef | grep $APP_NAME | grep -v grep | awk '{print $2}'`
    # [ -z STRING ] “STRING” 的长度为零则为真。
    if [ -z "$pid" ]; then
        return 1
    else
        return 0
    fi
}

#启动方法
start(){
    is_exist
    # %%-* 表示从右边开始，删除最后（最左边）的 - 号及右边的多有字符
    LOG_NAME="${APP_NAME%%-*}.log"
    # $? 是一个特殊变量，用来获取上一个命令的退出状态，或者上一个函数的返回值。
    # -eq 等于
    if [ $? -eq 0 ]; then
        stop
        start_app
    else
        start_app
    fi
}

start_app(){
    echo "$APP_NAME start..."
    # 2> 表示把标准错误(stderr)重定向，标准输出(stdout)是1 2> 后面可以跟文件名，或者是&1, &2，分别表示重定向到标准输出和标准错误。
    nohup java -jar $APP_NAME > logs/$LOG_NAME 2>&1 &
    # 延迟 1s 1秒 1m 1分钟 1h 1小时 1d 1天
    sleep 1s;
    tail -f logs/$LOG_NAME
}



# 停止运行
stop(){
    is_exist
    if [ $? -eq 0 ]; then
        echo "$APP_NAME is running "
        kill -9 $pid
        echo "$APP_NAME is kill ok. pid is $pid"
    else
        echo "${APP_NAME} is not running"
    fi
}

# 判断参数1是否为空，为空则告诉标准写法，不为空则把参数当方法执行
if [ ! $1 ]; then
    echo "run method  $0 start | stop  app_name.jar"
    exit
else
    $1
fi

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82

编写 shell 脚本，函数一定要在最上面，否则调用函数会报 command not found

上次更新: 1/1/2026, 8:54:37 PM

← Linux 磁盘操作相关命令 Linux 定时任务→