linux awk 命令实用手册
0,简介
Linux awk
是一个实用的文本处理工具
,它不仅是一款工具软件,也是一门编程语言
。awk
的名称来源于其三位作者的姓氏缩写,其作者分别是Alfred Aho
,Peter Weinberger
和 Brian Kernighan
。
如果你在linux 系统中追踪awk
,可以看到其最终指向的是/usr/bin/gawk
,也就是gawk
命令。其GNU官方手册 权威且全面,但对于初学者并不是很友好,因为内容非常多,你可能不知从何看起。对于普通用户,一般也用不到非常复杂的功能。
如果一个文件由规则的多个列
组成,则非常适合使用awk
来处理。本文介绍awk
常用方法,对于普通使用者应该是足够了。
1,基本概念
awk
命令会对文本文件
的每一行
进行处理,其语法格式如下:
awk `参数` `pattern {action}` `filename`
pattern
是要匹配的规则,action
是要执行的动作,只有匹配了pattern
的行
,才会执行动作action
。
这句命令的含义是:对于文件filename
的每一行,如果能够符合条件pattern
,则执行动作action
。如果不写pattern
,则表示对于文件filename
的每一行,都进行action
处理。
1.1,参数
awk
最常使用的参数是-F
,其后跟一个分隔符
或者正则表达式
,其表示的意思是以怎样的规则
对每一行进行分割。 默认是空格
或Tab键
。
1.2,pattern
pattern
可以是下表中的任意一项:
pattern | 说明 |
---|---|
/正则表达式/ |
正则写在两个/ 之间 |
关系表达式 |
由awk 中支持的关系运算符 组成 |
模式匹配表达式 |
由 ~ (匹配)和!~ (不匹配)组成 |
BEGIN{语句} |
在处理第一行 文本之前,执行BEGIN 块 中的语句,可以在这里进行一些变量初始化等操作 |
END{语句} |
在处理完最后一行 文本之后,执行END 块 中的语句 |
/规则1/,/规则2/ |
这是一个范围模板 ,只处理规则1 第一次出现与规则2 第一次出现之间的行 |
1.3,action
action
由awk
语句组成,比如print
,用于输出。
2,awk 内置变量
awk
中内置了很多变量,来方便使用,这里介绍一些常用的:
awk 内置变量 |
含义 |
---|---|
FS |
表示分隔符 ,类似-F 参数的功能 |
$0 |
一行的完整内容 |
$n |
用分隔符 隔开的第n 列,比如$1 表示第一列 |
FILENAME |
当前文件名 |
NR |
当前行数,即当前行 是第几行 |
NF |
当前行的列数,即当前行 被分割符 分成了几列 |
IGNORECASE |
如果为真,表示忽略大小写进行匹配 |
3,awk 内建函数
awk
常用函数如下:
函数 | 含义 |
---|---|
tolower() |
字符串转小写 |
toupper() |
字符串转大写 |
length() |
计算字符串长度 |
split() |
字符串分割 |
systime() |
Unix 时间戳 |
strftime() |
时间格式化,用法同C语言 中的strftime 函数 |
rand() |
随机数 |
sin() |
正弦 |
cos() |
余弦 |
sqrt() |
平方根 |
exp() |
求幂 |
4,awk 运算符
awk
支持如下常用运算符
:
运算符 | 含义 |
---|---|
+ - * / & |
加,减,乘,除,求余 |
= += -= *= /= %= ^= **= |
赋值 运算符 |
< <= > >= != == |
比较 运算符 |
空格 |
用于连接字符串 ,使用较多 |
|| |
逻辑或 |
&& |
逻辑与 |
! |
逻辑非 |
~ |
匹配 |
!~ |
不匹配 |
5,awk 使用案例
假如,我们有如下文件,分别为姓名
,性别
,年龄
,成绩
,等级
和省份
:
>>> cat log.txt
_________________
小明,男,23,550^优秀---北京
小丽,女,22,560^优秀---河北
小磊,男,24,530^良好---河南
小召,男,23,540^优良---山东
小欣,女,23,545^优良---山西
5.1 使用-F
以逗号,
为分隔符
,并将第1列,第2列和第3列输出,如下:
>>> awk -F, '{print $1,$2,$3}' log.txt
______________________________________
小明 男 23
小丽 女 22
小磊 男 24
小召 男 23
小欣 女 23
当分隔符
只有一个字符
时,分割符
可以紧挨-F
,还有如下几种写法:
awk -F , '{print $1,$2,$3}' log.txt #`分隔符`与`-F`之间有一个空格
awk -F',' '{print $1,$2,$3}' log.txt #`分隔符`用单引号引住,并且紧挨`-F`
awk -F"," '{print $1,$2,$3}' log.txt #`分隔符`用双引号引住,并且紧挨`-F`
awk -F ',' '{print $1,$2,$3}' log.txt #`分隔符`用单引号引住,与`-F`之间有空格
awk -F "," '{print $1,$2,$3}' log.txt #`分隔符`用双引号引住,与`-F`之间有空格
当分隔符
有多个连续字符
时,必须用双引号
或者单引号
引住分割符
,可以紧挨-F
,也可以有空格
:
awk -F '---' '{print $2}' log.txt #`分隔符`用单引号引住,与`-F`之间有空格
awk -F"---" '{print $5}' log.txt #`分隔符`用双引号引住,与`-F`之间没有空格
以上两个命令输出的内容一样,此时分隔符
为---
,每一行都被分成了两列,如下:
小明,男,23,550^优秀 北京
小丽,女,22,560^优秀 河北
小磊,男,24,530^良好 河南
小召,男,23,540^优良 山东
小欣,女,23,545^优良 山西
当有多个单独的分割符
时,将多个分隔符写在中括号[]
中,如下,表示以,
或者以---
为分隔符:
>>> awk -F "[,^]" '{print $1, $2, $3, $4, $5}' log.txt
________________________
小明 男 23 550 优秀---北京
小丽 女 22 560 优秀---河北
小磊 男 24 530 良好---河南
小召 男 23 540 优良---山东
小欣 女 23 545 优良---山西
5.2 使用内置变量
我们用变量NR
输出当前行号
,变量NF
输出当前行的列数
,变量FILENAME
输出当前文件名
,如下:
>>> awk -F"---" '{print NR, $1, $2, NF, FILENAME}' log.txt
__________________________________________________________
1 小明,男,23,550^优秀 北京 2 log.txt
2 小丽,女,22,560^优秀 河北 2 log.txt
3 小磊,男,24,530^良好 河南 2 log.txt
4 小召,男,23,540^优良 山东 2 log.txt
5 小欣,女,23,545^优良 山西 2 log.txt
5.3 如何连接字符串
我们将每一列使用竖线|
分割,方法是将分隔符
用双引号
引住,然后紧挨变量
,如下:
>>> awk -F"---" '{print NR"|"$1"|"$2"|"NF"|"FILENAME}' log.txt
__________________________________
1|小明,男,23,550^优秀|北京|2|log.txt
2|小丽,女,22,560^优秀|河北|2|log.txt
3|小磊,男,24,530^良好|河南|2|log.txt
4|小召,男,23,540^优良|山东|2|log.txt
5|小欣,女,23,545^优良|山西|2|log.txt
5.3 使用内置函数
使用内置函数systime()
输出时间戳,如下:
>>> awk -F"---" '{print NR"|"$1"|"$2"|"NF"|"FILENAME"|"systime()}' log.txt
—————————————————————————————————————————————
1|小明,男,23,550^优秀|北京|2|log.txt|1587022443
2|小丽,女,22,560^优秀|河北|2|log.txt|1587022443
3|小磊,男,24,530^良好|河南|2|log.txt|1587022443
4|小召,男,23,540^优良|山东|2|log.txt|1587022443
5|小欣,女,23,545^优良|山西|2|log.txt|1587022443
使用length
输出行长度
大于5 的行:
>>> awk 'length>5' log.txt
——————————————————————————
小明,男,23,550^优秀---北京
小丽,女,22,560^优秀---河北
小磊,男,24,530^良好---河南
小召,男,23,540^优良---山东
小欣,女,23,545^优良---山西
5.4 使用pattern
使用pattern
只输出男
同学信息,$0
表示每一行的原始内容,如下:
>>> awk '/男/ {print NR"|"$0}' log.txt
__________________________
1|小明,男,23,550^优秀---北京
3|小磊,男,24,530^良好---河南
4|小召,男,23,540^优良---山东
5.5 使用逻辑非!
使用逻辑非!
,输出不为男
的学生信息:
>>> awk '!/男/ {print NR"|"$0}' log.txt
__________________________
2|小丽,女,22,560^优秀---河北
5|小欣,女,23,545^优良---山西
5.6 使用关系表达式
使用关系表达式
,输出年龄为23 的学生信息:
# 以逗号分割后的第三列为年龄
>>> awk -F, '$3==23 {print $3, $0}' log.txt
____________________________
23 小明,男,23,550^优秀---北京
23 小召,男,23,540^优良---山东
23 小欣,女,23,545^优良---山西
也可以写成如下方式,输出年龄为23或25 的学生信息:
>>> awk -F, '$3==23 || $3==25' log.txt
________________________
小明,男,23,550^优秀---北京
小召,男,23,540^优良---山东
小欣,女,23,545^优良---山西
5.7 使用模式匹配表达式
使用模式匹配表达式
,输出年龄为24 的学生信息:
awk -F, '$3 ~/24/ {print $3, $0}' log.txt
24 小磊,男,24,530^良好---河南
5.8 使用if 语句
awk
也支持if 语句
,输出年龄为22 的学生信息,if 语句
写在大括号{}
内:
>>> awk -F, '{if($3==22) print $3, $0}' log.txt
___________________________
22 小丽,女,22,560^优秀---河北
5.9 使用NR 输出基数行
# `NR % 2 == 1` 为基数行
>>> awk -F, 'NR % 2 == 1 {print NR, $0}' log.txt
——————————————————————————
1 小明,男,23,550^优秀---北京
3 小磊,男,24,530^良好---河南
5 小欣,女,23,545^优良---山西
5.10 使用NF 输出倒数第一列
$(NF)
为倒数第1列,$(NF-1)
为倒数第2列,$(NF-2)
为倒数第3列,依次类推。
如下输出倒数第1列:
>>> awk -F, '{print $(NF)}' log.txt
______________
550^优秀---北京
560^优秀---河北
530^良好---河南
540^优良---山东
545^优良---山西
5.11 使用BEGIN 块
BEGIN 块
中可以是任意多个合法的awk 语句
。
>>> awk -F, 'BEGIN{print "姓名", "性别", "年龄"} {print $1, $2, $3}' log.txt
____________
姓名 性别 年龄
小明 男 23
小丽 女 22
小磊 男 24
小召 男 23
小欣 女 23
5.12 使用END 块
END 块
中可以是任意多个合法的awk 语句
,BEGIN 块
与END 块
可以一起使用。
>>> awk -F, 'BEGIN{print "姓名", "性别", "年龄"} {print $1, $2, $3} END{print "共有"NR"行信息"}' log.txt
____________
姓名 性别 年龄
小明 男 23
小丽 女 22
小磊 男 24
小召 男 23
小欣 女 23
共有5行信息
5.13 使用范围模板
输出小丽和小欣之间的行数据:
>>> awk '/小丽/,/小欣/' log.txt
______________________________
小丽,女,22,560^优秀---河北
小磊,男,24,530^良好---河南
小召,男,23,540^优良---山东
小欣,女,23,545^优良---山西
(完。)
linux awk 命令实用手册的更多相关文章
- linux uniq 命令实用手册
Linux uniq 命令用于处理文本内容中的重复行. 这里我们只介绍其常用参数,其完整用法可参见man uniq. 例如,我们有如下文件内容: >>> cat log.txt __ ...
- linux sort 命令实用手册
Linux 中的sort 命令是一个很实用的工具,用于对文本内容以行为单位进行ASCII 码排序,默认按照升序进行排序(当然也可以按照降序). sort 命令的格式如下: sort `参数` `文件名 ...
- linux awk命令详解
linux awk命令详解 简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.简单来说awk就是把文件逐行的读入,以空格为默认分 ...
- Linux awk命令常见使用方法介绍
Linux awk命令常见使用方法介绍 By:授客 QQ:1033553122 awk运行方式有三种,其中常用的为命令行方式 awk [-F field_separator] '{patter ...
- Linux awk命令 --三剑客老大
Linux awk命令 --三剑客老大 基本用法: awk [参数] ['找谁{干啥}'] 文件 参数: -F 分隔符 -v 创建或修改awk变量 OFS 输出分割符 awk显示每一列的时候分隔 ...
- linux awk命令详解,使用system来内嵌系统命令, awk合并两列
linux awk命令详解 简介 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.简单来说awk就是把文件逐行的读入,以空格为默认分 ...
- linux awk命令详解--转载
awk是行处理器: 相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢出或是处理缓慢的问题,通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理,然后输出 awk命令形式: awk [-F ...
- [转]linux awk命令详解
原文链接 : http://blog.chinaunix.net/uid-23302288-id-3785105.html awk是行处理器: 相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢 ...
- Linux awk命令详解??????????(研究)
http://blog.chinaunix.net/uid-25120309-id-3801250.html 一. AWK 说明 awk是一种编程语言,用于在linux/unix下对文本和数据进行 ...
随机推荐
- B 基因改造
时间限制 : - MS 空间限制 : - KB 问题描述 "人类智慧的冰峰,只有萌萌哒的我寂寞地守望."--TBTB正走在改造人类智慧基因的路上.TB发现人类智慧基因一点也不 ...
- PTA数据结构与算法题目集(中文) 7-6
PTA数据结构与算法题目集(中文) 7-6 7-6 列出连通集 (25 分) 给定一个有N个顶点和E条边的无向图,请用DFS和BFS分别列出其所有的连通集.假设顶点从0到N−1编号.进行搜索时, ...
- PTA | 1010 一元多项式求导 (25分)
设计函数求一元多项式的导数.(注:xn(n为整数)的一阶导数为n*xn-1.) 输入格式: 以指数递降方式输入多项式非零项系数和指数(绝对值均为不超过1000的整数).数字间以空格分隔. 输出格式: ...
- RedHat7.4配置yum网络源
本次RedHat版本为:Red Hat Enterprise Linux Server release 7.4 (Maipo). 将RedHat7.4的yum源替换为免费的CentOS对应版本yum源 ...
- Scratch 第1课 让小猫动起来
素材下载 链接:https://pan.baidu.com/s/1qX0T2B_zczcLaCCpiRrsnA提取码:xfp8
- Google GMS介绍
Google GMS介绍GMS全称为GoogleMobile Service.GMS目前提供有Search.Search by Voice.Gmail.Contact Sync.Calendar Sy ...
- 逆拓扑排序 Reward HDU - 2647
Reward HDU - 2647 题意:每个人的起始金额是888,有些人觉得自己做的比另一个人好所以应该多得一些钱,问最少需要花多少钱,如果不能满足所有员工的要求,输出 -1 样例1: 2 1 1 ...
- string 从下标0 一直截到倒数第三位
StringUtils.substring(String.valueOf(maxSequence), 0, -3)如上,关键就是那个-3,表示倒数第三位.
- Android 修改应用程序字体
在网上搜索了相关资料,研究了两种算是比较快速的改变程序字体的方法,好,先来介绍着两种方法. 首先第一种方法是重写控件(以Textview为例): 1.Android在写程序的时候谷歌早已将所有字体都默 ...
- 关于 System.IO.File.Exists 需要注意的事项
各位: .NET Framework 本省在设计的时候,他对于异常没有完全做到抛出,这样可能会有很多意想不到的问题. 比如 你在asp.net 应用程序中判断文件是否存在,这个文件可能是一个共 ...