Linux的文本处理工具浅谈

awk

【功能说明】

用于文本处理的语言（取行，过滤），支持正则

NR代表行数，$n取某一列，$NF最后一列

NR==20,NR==30 从20行到30行

FS竖着切，列的分隔符

RS横着切，行的分隔符

【语法格式】

awk   [–F]   [“[分隔符]”]   [’{print$，$NF}’]     [目标文件]

awk 'BEGIN{FS="[列分隔符]+";RS="[行分隔符]+";print "-GEGIN-"} NR==n{动作} END{print "-END-"}' xxx.txt

【内置变量】

$n                    当前记录的第n个字段，字段间由 FS分隔。

$                    完整的输入记录。

ARGC              命 令行参数的数目。

ARGIND         命令行中当前文件的位置(从0开始算)。

ARGV             包 含命令行参数的数组。

CONVFMT      数字转换格式(默认值为%.6g)

ENVIRON       环 境变量关联数组。

ERRNO            最后一个系统错误的描述。

FIELDWIDTHS         字 段宽度列表(用空格键分隔)。

FILENAME               当前文件名。

FNR                        同 NR，但相对于当前文件。

FS                           字段分隔符(默认是任何空格)。

IGNORECASE         如 果为真，则进行忽略大小写的匹配。

NF                   当前记录中的字段数。

NR                   当 前记录数。

OFMT              数字的输出格式(默认值是%.6g)。

OFS                 输 出字段分隔符(默认值是一个空格)。

ORS                 输出记录分隔符(默认值是一个换行符)。

RLENGTH         由 match函数所匹配的字符串的长度。

RS                   记录分隔符(默认是一个换行符)。

RSTART           由 match函数所匹配的字符串的第一个位置。

SUBSEP           数组下标分隔符(默认值是\)。

【运算符】

= += -= *= /= %= ^= **=        赋值

?:                 C条件表达式

||                 逻 辑或

&&             逻辑与

~ ~!             匹 配正则表达式和不匹配正则表达式

< <= > >= != ==       关 系运算符

空格          连接

+ -            加，减

* / &          乘，除与求余

+ - !          一元加，减和逻辑非

^ ***        求幂

++ --        增加或减少，作为前缀或后缀

$              字 段引用

in             数组成员

【字符串函数】

sub          匹配记录中最大、最靠左边的子字符串的正则表达式，并用替换字符串替换这些字符串。如果没有指定目标字符串就默认使用整个记录。替换只发生在第一次匹配的 时候

gsub        整个文档中进行匹配

index       返回子字符串第一次被匹配的位置，偏移量从位置1开始

substr      返回从位置1开始的子字符串，如果指定长度超过实际长度，就返回整个字符串

split         可按给定的分隔符把字符串分割为一个数组。如果分隔符没提供，则按当前FS值进行分割

length      返回记录的字符数

match       返回在字符串中正则表达式位置的索引，如果找不到指定的正则表达式则返回0。match函数会设置内建变量RSTART为字符串中子字符串的开始位 置，RLENGTH为到子字符串末尾的字符个数。substr可利于这些变量来截取字符串

toupper和tolower    可用于字符串大小间的转换，该功能只在gawk中有效

【字符串函数】

atan2(x,y)    y,x 范围内的余切

cos(x)          余弦函数

exp(x)         求 幂

int(x)           取整

log(x)          自然对 数

rand()         随机数

sin(x)          正弦

sqrt(x)        平 方根

srand(x)     x是rand()函数的种子

int(x)          取 整，过程没有舍入

rand()         产生一个大于等于0而小于1的随机数

【使用范例】

1、只查看 ett.txt 文件（共 100 行）内第 20 到第 30 行的内容

awk ‘NR>&&NR<’ ett.txt

awk ‘{ if (NR>&&NR<) print $}’ ett.txt

2、给文件内容加行号

awk ‘{print NR,$}’ /etc/inittab

3、输出第24行并且加行号

awk ‘NR== {print NR,$}’ /etc/inittab

4、标准写法

awk -F '[ :]+' 'NR==2{print $(NF-1)}'  /etc/passwd

相当于 awk 'BEGIN{FS="[ :]+"}NR==2{print $(NF-1)}' /etc/passwd

awk 'BEGIN{RS="/"} {print $0}' /etc/passwd

5、以一个或多个/为行的分割符，打印第二行的第二列，列的分隔符为默认的空格,并打印行号

awk 'BEGIN{RS="[/]+"} NR==2{print NR,$2}' test

awk支持正则：

6、以：为分隔符，打印第5列以s开头的一整行

awk -F ":" '$5~/^s/{print $0}' /etc/passwd

7、以/为分隔符，匹配倒数第二行的s或者没有s后面是bin的整行

awk -F "/" '$(NF-1)~/(s|)bin/' /etc/passwd

8、匹配第一列以ssh或者ftp或mysql开头或者结尾的行

awk '$1~/^(ssh|ftp|mysql)$/{print $1,$2}' /etc/services

9、输出结果6 0 1 2

echo "6@@@@@@@@@@@@@@@0=============1##############2" |awk -F '[@=#]+'  '{print $1,$2,$3,$4}'

10、

awk 'BEGIN{print "---BEGIN---"} NR==2{print $2} END{print "---END----"}' xxx.conf

　11、awk统计百分比的问题

例一：

　　日志样子举例如下：
http://youku.com 200
http://youku.com 302
http://youku.com 403
http://youku.com 502
http://baidu.com 302
http://baidu.com 404

现想使用awk命令按域名统计返回码大于等于400的百分比，假如优酷总共有4行，大于等于400的返回码有两行，那占比就为50%

awk '{

        count[$]++;

        if($>)above400[$]++

    }

    END{

        for(i in count){

            print i, count[i], above400[i]/count[i]

        }

    }' < xxx.txt

例二：

统计一个文件的中所有的error的占比

awk  '/error/{err++}END{print err,NR,err/NR*100"%" }' < xxx.txt

12、关联数组访问问题

a.txt和b.txt两个文件相同的两个字段（id|money）,输出a和b文件中相同id并且b文件money值大的一行

cat >>a.txt <<EOF

|

|

|

|

|

EOF

cat >>b.txt<<EOF

|

|

|

|

|

|

|

|

|

|

EOF

awk -F '|' 'BEGIN{ while(getline < "a.txt") { user_map[$1] = $2; } }

{

    if ($ in user_map) { if (user_map[$] < $) print $; }

}' b.txt

注意：如果a.txt不存在，getline会返回-1，导致死循环。我以前曾经碰上过因为这个原因导致程序挂死，所以特别提出来让大家注意

13、99乘法表

awk 'BEGIN{for(i=1;i<10;i++){for (j=1;j<=i;j++)printf "%d%s%d%s%d\t",i,"x",j,"=",i*j;print}}'

14、tomcat并发数

netstat -an|grep |awk '{count[$6]++} END{for (i in count) print(i,count[i])}'

sed

【功能说明】

Sed是Strem Editor(流编辑器)缩写，是操作、过滤和转换文本内容的强大工具。常用功能有增删改查，过滤，取行。

参数

-n             #取消默认输出

-r             #使用扩展正则

-i              #刷到磁盘

-e             #执行多条sed指令

-f              #指令放在文件里

sed-command

a    追加

i     插入

d    删除

c    替换指定的行

s    替换每一行匹配到的第一个字符

g   替换每一行的全部

p   输出

w   另存文件

e   执行bash命令

q   不继续往下读取

概括流程：Sed软件从文件或管道中读取一行，处理一行，输出一行；再读取一行，再处理一行，再输出一行……

增删改查

a 追加文本到指定行后

i 插入文本到指定行前

增

单行增加

sed '2a 106,dandan,CSO' person.txt

sed '2i 106,dandan,CSO' person.txt

多行增加

sed '2a 106,dandan,CSO\n107,bingbing,CCO' person.txt

企业案例1：优化SSH配置（一键完成增加若干参数）

在我们学习系统优化时，有一个优化点：更改ssh服务远程登录的配置。主要的操作是在ssh的配置文件加入下面5行文本。(下面参数的具体含义见其他课程。)

Port

PermitRootLogin no

PermitEmptyPasswords no

UseDNS no

GSSAPIAuthentication no

我们可以使用vi命令编辑这个文本，但这样就比较麻烦，现在想一条命令增加5行文本到第13行前？

sed -ir '13 i ####Chris-sshd-2016.5.4-youhua######\nPort 52113\nPermitRootLogin no\nPermitEmptyPasswords no\nUseDNS no\nGSSAPIAuthentication no\n#####--end--#######\n' /etc/ssh/sshd_config

地址用逗号分隔的，n1,n2可以用数字、正则表达式、或二者的组合表示。

其他使用例子

10{sed-commands}                          对第10行操作

10,20{sed-commands}                     对10到20行操作,包括第10,20行

10,+20{sed-commands}                  对10到30(10+20)行操作,包括第10,30行

1~2{sed-commands}                       对1,3,5,7,……行操作

10,${sed-commands}                      对10到最后一行($代表最后一行)操作,包括第10行

/oldboy/{sed-commands}               对匹配oldboy的行操作

/oldboy/,/Alex/{sed-commands}    对匹配oldboy的行到匹配Alex的行操作

/oldboy/,${sed-commands}            对匹配oldboy的行到最后一行操作

/oldboy/,10{sed-commands}         对匹配oldboy的行到第10行操作，注意：如果前10行没有匹配到oldboy，sed软件会显示10行以后的匹配oldboy的行，如果有。

1,/Alex/{sed-commands}               对第1行到匹配Alex的行操作

/oldboy/,+2{sed-commands}        对匹配oldboy的行到其后的2行操作

删

d 删除指定的行

sed 'd' person.txt                                       #删除全部

sed '2d' person.txt                                     #删除第二行

sed '2,5d' person.txt                                  #删除2到5行

sed '3,$d' person.txt                                  #删除3到结尾

sed '1~2d' person.txt                                #删除1,3,5行

sed '1,+2d' person.txt                               #删除1,2,3

sed '/zhangyao/d' person.txt                    #删除匹配的zhangyao行

sed '/oldboy/,/Alex/d' person.txt             #删除匹配oldboy到Alex行

sed '/oldboy/,3d' person.txt                     #删除从匹配oldboy的3行

企业案例2：打印文件内容但不包含oldboy

sed '/oldboy/d' person.txt                       #删除包含"oldboy"的行

改

按行替换

c 用新行取代旧行

sed '2c 106,dandan,CSO' person.txt          #替换第2行的内容

文本替换

s：单独使用，将每一行中第一处匹配的字符串进行替换

g：每一行进行全部替换

-i：修改文件内容

sed软件替换模型(方框▇被替换成三角▲)

sed -i 's/▇/▲/g' oldboy.log

sed -i 's#▇#▲#g' oldboy.log

企业案例3：指定行修改配置文件

指定行精确修改配置文件，这样可以防止修改多了地方。

sed '3s#0#9#' person.txt

变量替换

x=a

y=b

echo $x $y

sed s#$x#$y#g test.txt

分组替换和\1的使用说明

sed软件的的功能可以记住正则表达式的一部分，其中，\1为第一个记住的模式即第一个小括号中的匹配内容，\2第二记住的模式，即第二个小括号中的匹配内容，sed最多可以记住9个。

例：echo I am oldboy teacher.如果想保留这一行的单词oldboy，删除剩下的部分，使用圆括号标记想保留的部分。

echo I am oldboy teacher. |sed 's#^.*am \([a-z].*\) tea.*$#\1#g'

echo I am oldboy teacher. |sed -r 's#^.*am ([a-z].*) tea.*$#\1#g'

echo I am oldboy teacher. |sed -r 's#I (.*) (.*) teacher.#\1\2#g'

命令说明

思路：用oldboy字符替换I am oldboy teacher.

下面解释用□代替空格

^.*am□ –>这句的意思是以任意字符开头到am□为止，匹配文件中的I am□字符串;
$[a-z].*$□–>这句的外壳就是括号\(\），里面的[a-z]表示匹配26个字母的任何一个，[a-z].*合起来就是匹配任意多个字符，本题来说就是匹配oldboy字符串，由于oldboy字符串是需要保留的,因此用括号括起来匹配，后面通过\1来取oldboy字符串。
□tea.*$–>表示以空格tea起始,任意字符结尾，实际就是匹配oldboy字符串后，紧接着的字符串□teacher.;
后面被替换的内容中的\1就是取前面的括号里的内容了，也就是我们要的oldboy字符串。
()是扩展正则表达式的元字符，sed软件默认识别基本正则表达式，想要使用扩展正则需要使用\转义，即\(\）。
sed使用-r选项则可以识别扩展正则表达式，此时使用\(\）反而会出错。

企业案例4：系统开机启动项优化

chkconfig --list|grep "3:on"|grep -vE "sshd|crond|network|rsyslog|sysstat"|awk '{print $1}'|sed -r 's#^(.*)#chkconfig \1 off#g'|bash

chkconfig --list|grep "3:on"

特殊符号&代表被替换的内容

#→将1到3行的C替换为--C--

sed '1,3s#C#--&--#g' person.txt 　　　　　　　　#→此处&等于C

企业案例5：批量重命名文件

for i in `seq `;do touch stu_102999_${i}_finished.jpg;done

ls |sed -r 's/(.*)_finished(.*)/mv  &  \1_finish\2/e'

查

p 输出指定内容，但默认会输出2次匹配的结果，因此使用n取消默认输出

按行查询

sed '2p' person.txt

sed -n '2p' person.txt

sed -n '2,3p' person.txt

sed -n '1~2p' person.txt

sed -n 'p' person.txt

按字符串查询

sed -n '/CTO/p' person.txt

sed -n '/CTO/,/CFO/p' person.txt

混合查询

sed -n '2,/CFO/p' person.txt

sed -n '/feixue/,2p' person.txt

#特殊情况，前两行没有匹配到feixue，就向后匹配，如果匹配到feixue就打印此行。

其他功能

备份功能

sed -i.bak '$a 1111111111' xxx.txt

备份xxx.txt文件为xxx.txt.bak，修改源文件，最后一行添加111111111

另存功能

sed 's/sb/SB/g w new.txt' xxx.txt

把sb替换成SB的整行输出到new.txt中

大小写转换

\L #全部转换成小写

\l #单个转换成小写

\U #全部转换成大写

\u #单个转换成大写

\E #需要和\U和\L一起使用，关闭\U和\L的功能

sed -r 's/(.*),(.*),(.*)/\L\3,\E\1,\U\2/g' xxx.txt

执行多条sed指令

sed -e '3,$d' -e 's#10#01#g' xxx.txt

sed '3,$d; s#10#01#g' xxx.txt

打印不可见字符l

sed -n 'l' xxx.txt

abc替换ABC（一一对应）

tr 'abc' 'ABC' xxx.txt

sed 'y#abc#ABC#' xxx.txt

可以操作多个文件

sed 'y#abc#ABC#' xxx.txt .txt

模拟其他命令

创建svn库的时候自动取消#号和修改路径

sed -i -r '12,13s/# //g' svnserve.conf

sed -i -r '20s/^# (.*)/\1/g' svnserve.conf

sed -i -r '27s/^# (.*)/\1/g' svnserve.conf

sed -i -r '12,13s/^# (.*)/\1/g' svnserve.conf

sed -i -r  '32s/# (.*=)(.*)/\1 \/usr\/svnData\//' svnserve.conf

一条命令执行（加传参）

SvnPath='zhangzhicheng'

sed -i -r -e '20s/^# (.*)/\1/g' -e '27s/^# (.*)/\1/g' -e '12,13s/^# (.*)/\1/g' -e "32s/# (.*=)(.*)/\1 \/usr\/svnData\/$SvnPath/" svnserve.conf

grep

【功能说明】

三剑客老三。搜索文本，过滤文本字符串 –v取反

【选项说明】

参数选项	解释说明（带※的为重点）
-V	取反，读出指定的内容之外的内容
-A	打印后面n行的内容
-B	打印前面n行的内容
-C	打印前后各n行的内容
-n	输出行行号
-E（egrep）	使用扩展正则表达式
-o	只输出匹配到的结果
-i	忽略大小写
-a	当grep认为是二进制文件的时候加-a

【基础范例】

例子1：已知文件 test.txt 内容为：

test

liyao

oldboy

请给出输出 test.txt 文件内容时，不包含 oldboy 字符串的命令。

grep –v oldboy test.txt

例子2：过滤出/etc/services 文件包含 3306 或 1521 两数据库端口的行的内容

grep –E “|” /etc/services

例子3：

【技巧例子】

消除文件空行:

grep -v '^$' test.txt

egrep -o "^[^:]+" xxx.txt   　　　　　　#匹配开头以非：的行，并输出匹配的内容（-o不是整行输出）

awk sed grep 详解的更多相关文章

awk.sed.grep三剑客详解
事前准备1.主机node1:172.16.133.112.作为实验的文件/etc/passwd /etc/fstab qinqin cp /etc/passwd . cp /etc/fstab . 一 ...
sed命令详解 vim高级技巧 shell编程上
第1章 sed命令详解 1.1 查找固定的某一行 1.1.1 awk命令方法 [root@znix ~]# awk '!/oldboy/' person.txt 102,zhangyao,CTO 10 ...
【转】【Linux】sed命令详解
sed命令详解 sed是stream editor的简称,也就是流编辑器.它一次处理一行内容,处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令 ...
转 linux之sed命令详解
http://jingyan.baidu.com/article/fec4bce2228f60f2618d8bb0.html sed 编辑裁剪文件命令 sed -i "s/\/db\/te ...
干货！上古神器 sed 教程详解，小白也能看的懂
目录: 介绍工作原理正则表达式基本语法数字定址和正则定址基本子命令实战练习介绍熟悉 Linux 的同学一定知道大名鼎鼎的 Linux 三剑客,它们是 grep.awk.sed,我们今天要聊的主角就 ...
linux之文件查找find grep详解,以及压缩归档
.find linux里的实时查找工具,通过制定路径完成文件查找. find[options]...[查找路径] [查找条件] [处理动作] 查找路径:查找的位置,默认是当前文件夹. 查找条件:指定查 ...
Linux学习之sed命令详解
概述 sed是stream editor的简称,也就是流编辑器.它一次处理一行内容,处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区 ...
awk\sed\grep 补充
# awk\sed\grep 补充以上命令中字符 / 在sed中作为定界符使用,也可以使用任意的定界符 sed's:test:TEXT:g' sed's|test|TEXT|g' 定界符出现在样式内 ...
ps -ef|grep详解、kill与kill -9的区别
ps -ef|grep详解 ps命令将某个进程显示出来 grep命令是查找中间的|是管道命令是指ps命令与grep同时执行 PS是LINUX下最常用的也是非常强大的进程查看命令 grep命令是查找 ...

随机推荐

HTTP标头信息
HTTP头信息头信息由“键:值”组成.它们描述客户端或者服务器的属性.被传输的资源以及应该实现连接. 四种不同类型的头标通用头标:即可用于请求,也可用于响应,是作为一个整体而不是特定资源与事务相关联 ...
mac go环境报警告
go get -u github.com/beego/bee 报警告: # github.com/beego/beeld: warning: text-based stub file /System/ ...
OGG目的端的checkpoint table被drop的修复方法
OGG目的端的checkpoint table被drop的修复方法參考自:OGG Replicat Failed Due To Check_point Table beingTruncated (文 ...
[vt]xenserver磁盘扩容扩不大问题解决
xenserver将磁盘扩大后,fdisk可以看到容量大了,但是df -h看到磁盘并没有大,解决. 参考说明:XenServer里面安装的虚拟机,分区的时候采用的是LVM磁盘分区需求:现在需要扩容 ...
推荐一个入门最佳Git教程
这是我最近发现的一个针对入门Git教程,浅显易懂,点到为止,很适合初学者及使用Git的爱好者,学完该教程应付开发工作绰绰有余. http://www.liaoxuefeng.com/wiki/0013 ...
C语言 · 图形输出
算法提高图形输出时间限制:1.0s 内存限制:512.0MB 编写一程序,在屏幕上输出如下内容: X | X | X ---+---+--- | | ---+---+--- O ...
treegrid-dnd.js
(function($){ $.extend($.fn.treegrid.defaults, { onBeforeDrag: function(row){}, // return false to d ...
easyui_extension.js
$.extend($.fn.datagrid.methods,{ /** * 开打提示功能 * * @param {} * jq * @param {} * params 提示消息框的样式 * @re ...
android 全屏设置
更改styles.xml文件  <style name="AppTheme" parent="Theme.AppCompat ...
java守护线程。
java的守护线程:具体定义我也不太清楚,百度和谷歌了看的也不是很明白,但是啊,下边有给出一个例子自己领悟吧. 一.计时器的Timer声明时是否声明为守护线程对计时器的影响. /** * */ pac ...

awk sed grep 详解

awk

sed

增删改查

增

删

改

按行替换

文本替换

变量替换

分组替换\( \)和\1的使用说明

特殊符号&代表被替换的内容

查

按行查询

按字符串查询

混合查询

其他功能

grep

awk sed grep 详解的更多相关文章

随机推荐

热门专题