Linux 文本数据处理工具awk命令
awk 命令是逐行扫描文件(从第 1 行到最后一行),寻找含有目标文本的行,如果匹配成功,则会在该行上执行用户想要的操作;反之,则不对行做任何处理。
# F(指定字段分隔符)
默认使用空格作为分隔符。
[root@localhost awk]# echo "aa bb cc dd ee ff" | awk '{print $1}'
aa
[root@localhost awk]# echo "aa bb l cc dd l ee ff" | awk -F 'l' '{print $1}'
aa bb
[root@localhost awk]# echo "aa bb cc : dd ee ff" | awk -F ':' '{print $1}'
aa bb cc
2
3
4
5
6
# FS(字段分隔符)
默认是空格和制表符。
$0 表示当前整行内容,$1,$2 表示第一个字段,第二个字段
[root@localhost zabbix_agentd.d]# echo "aa bb cc dd" | awk '{ print $0}'
aa bb cc dd
[root@localhost zabbix_agentd.d]# echo "aa bb cc dd" | awk '{ print $1}'
aa
[root@localhost zabbix_agentd.d]# echo "aa bb cc dd" | awk '{ print $2}'
bb
2
3
4
5
6
# NF(当前行的字段个数)
[root@localhost zabbix_agentd.d]# echo "aa bb cc dd" | awk '{ print $NF}'
dd
[root@localhost zabbix_agentd.d]# echo "aa bb cc dd" | awk '{ print $(NF-1)}'
cc
2
3
4
# NR (当前处理的是第几行)
打印当前行号和当前文本内容
[root@localhost awk]# cat test.txt
aa ss
dd ff
gg hh
[root@localhost awk]# cat test.txt | awk '{print NR")", $0}'
1) aa ss
2) dd ff
3) gg hh
2
3
4
5
6
7
8
逗号表示输出的变量之间用空格分隔;
右括号必需使用 双引号 才可以原样输出
打印指定行内容:
[root@localhost S17]# java -version
java version "1.8.0_131"
Java(TM) SE Runtime Environment (build 1.8.0_131-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.131-b11, mixed mode)
[root@localhost S17]# java -version 2>&1 | awk 'NR==1 {print $0}'
java version "1.8.0_131"
[root@localhost S17]#
2
3
4
5
6
7
# FILENAME (当前文件名)
[root@localhost awk]# awk '{print FILENAME, NR")", $0}' test.txt
test.txt 1) aa ss
test.txt 2) dd ff
test.txt 3) gg hh
[root@localhost awk]# cat test.txt | awk '{print FILENAME, NR")", $0}'
- 1) aa ss
- 2) dd ff
- 3) gg hh
2
3
4
5
6
7
8
awk '{condition action}' filename 这种形式时可以打印文件名;
通过 |(管道符)读取内容时打印的是 -
# 其他变量
RS:行分隔符,用于分割每一行,默认是换行符。
OFS:输出字段的分隔符,用于打印时分隔字段,默认为空格。
ORS:输出记录的分隔符,用于打印时分隔记录,默认为换行符。
OFMT:数字输出的格式,默认为%.6g。
# print 和 printf
awk 中同时提供了 print 和 printf 两种打印输出的函数。
print 函数,参数可以是变量、数值或者字符串。字符串必须用双引号引用,参数用逗号分隔。如果没有逗号,参数就串联在一起而无法区分。这里,逗号的作用与输出文件的分隔符的作用是一样的,只是后者是空格而已。
printf 函数,其用法和 c 语言中 printf 基本相似,可以格式化字符串,输出复杂时,printf 更加好用,代码更易懂。
# 其他函数
toupper ():字符转为大写。
tolower ():字符转为小写。
length ():返回字符串长度。
substr ():返回子字符串。
substr ($1,2):返回第一个字段,从第 2 个字符开始一直到结束。
substr ($1,2,3):返回第一个字段,从第 2 个字符开始开始后的 3 个字符。
sin ():正弦。
cos ():余弦。
sqrt ():平方根。
rand ():随机数。
[root@localhost awk]# echo "aa bb cc dd ee ff" | awk '{print toupper($1)}'
AA
[root@localhost awk]# echo "aa BB cc dd ee ff" | awk '{print tolower($2)}'
bb
[root@localhost awk]# echo "aa BB cc dd ee ff" | awk '{print length($2)}'
2
[root@localhost awk]# echo "asdfghj" | awk '{print substr($1,2,3)}'
sdf
2
3
4
5
6
7
8
# 条件
awk 允许指定输出条件,只输出符合条件的行。
awk ' 条件 {动作}' 文件名
[root@localhost awk]# cat exp.txt
/stsvc/fms/conf/application.yml
/stsvc/sms/conf/application.yml
/stsvc/tms/conf/application.yml
/root/home/chenfan
/root/home/jhhuang
[root@localhost awk]# cat exp.txt | awk '/stsvc/ {print $0}' 包含 stsvc 的行
/stsvc/fms/conf/application.yml
/stsvc/sms/conf/application.yml
/stsvc/tms/conf/application.yml
[root@localhost awk]# cat exp.txt | awk '/stsvc\/fms/ {print $0}' 包含 stsvc/fms 的行
/stsvc/fms/conf/application.yml
2
3
4
5
6
7
8
9
10
11
12
布尔值判断
[root@localhost awk]# cat exp.txt | awk 'NR==2 {print $0}' 等于第二行
/stsvc/sms/conf/application.yml
[root@localhost awk]# cat exp.txt | awk 'NR>4 {print $0}' 大于第四行
/root/home/jhhuang
[root@localhost awk]# cat exp.txt | awk 'NR%2==1 {print $0}' 奇数行
/stsvc/fms/conf/application.yml
/stsvc/tms/conf/application.yml
/root/home/jhhuang
2
3
4
5
6
7
8
某个字段等于具体值
[root@localhost awk]# cat test.txt
aa ss
dd ff
gg hh
[root@localhost awk]# cat test.txt | awk ' $2=="ff" {print $0}'
dd ff
2
3
4
5
6
if 语句
[root@localhost awk]# echo "aa ss dd" | awk '{ if($3 == "dd") print $0; else print "nothing"}'
aa ss dd
[root@localhost awk]# echo "aa ss dds" | awk '{ if($3 == "dd") print $0; else print "nothing"}'
nothing
2
3
4
# demo
以下脚本复制粘贴就可用,需要在和应用同级目录新建一个 logs 文件夹,使用方法 ./ 脚本.sh start 应用名称.jar,其中使用了 awk 命令解决获取 pid 问题
#/bin/bash
# 这里说一下 我用 /bin/sh 脚本里打印非正常 换成 /bin/bash 就好了
# 通过执行文件获得 要被执行的jar 例如 ./start.sh test-0.0.1.jar 获取到 test-0.0.1.jar
# $@获得所有参数,$1获得第一个参数
MATHOD=$1
APP_NAME=$2
# 在方法内直接使用是无法获取到个数的
PARAM=$#
# 参数校验
check(){
if [ $PARAM -ne 2 ]; then
echo "run method $0 start | stop app_name.jar"
exit
fi
}
# 判断程序是否运行 如果不存在返回1,存在返回0
is_exist(){
check
# grep -v grep 就是查找不含有 grep 字段的行,默认第一条命令会查出两行数据,第一行一般是我们所需要的,第二行就属于 grep的数据
# grep 是查找含有指定文本行的意思,比如grep test 就是查找含有test的文本的行
# grep -v 是反向查找的意思,比如 grep -v grep 就是查找不含有 grep 字段的行
# $(ps -ef | grep $jarname | grep -v grep) 是执行一个命令,并把结果赋给pid
# awk 百度
pid=`ps -ef | grep $APP_NAME | grep -v grep | awk '{print $2}'`
# [ -z STRING ] “STRING” 的长度为零则为真。
if [ -z "$pid" ]; then
return 1
else
return 0
fi
}
#启动方法
start(){
is_exist
# %%-* 表示从右边开始,删除最后(最左边)的 - 号及右边的多有字符
LOG_NAME="${APP_NAME%%-*}.log"
# $? 是一个特殊变量,用来获取上一个命令的退出状态,或者上一个函数的返回值。
# -eq 等于
if [ $? -eq 0 ]; then
stop
start_app
else
start_app
fi
}
start_app(){
echo "$APP_NAME start..."
# 2> 表示把标准错误(stderr)重定向,标准输出(stdout)是1 2> 后面可以跟文件名,或者是&1, &2,分别表示重定向到标准输出和标准错误。
nohup java -jar $APP_NAME > logs/$LOG_NAME 2>&1 &
# 延迟 1s 1秒 1m 1分钟 1h 1小时 1d 1天
sleep 1s;
tail -f logs/$LOG_NAME
}
# 停止运行
stop(){
is_exist
if [ $? -eq 0 ]; then
echo "$APP_NAME is running "
kill -9 $pid
echo "$APP_NAME is kill ok. pid is $pid"
else
echo "${APP_NAME} is not running"
fi
}
# 判断参数1是否为空,为空则告诉标准写法,不为空则把参数当方法执行
if [ ! $1 ]; then
echo "run method $0 start | stop app_name.jar"
exit
else
$1
fi
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
编写 shell 脚本,函数一定要在最上面,否则调用函数会报 command not found