gawk程序是Unix中原始awk程序的GNU版本。gawk程序让流编辑器迈上了一个新的台阶,它提供了一种编程语言而不只是编辑器命令。在gawk编程语言中,可以完成下面的事情:

(1)定义变量来保存数据;

(2)使用算数和字符串操作符来处理数据;

(3)使用结构化编程概念(比如if-then语句和循环)来为数据处理增加处理逻辑;

(4)通过提取数据文件中的数据元素,将其重新排列或格式化,生成格式化报表;

gawk程序的报告生成能力通常用来从大文本文件中提取数据元素,并将它们格式化成可读的报告。其中完美的例子是格式化日志文件。在日志文件中找出错误行会很难,gawk程序可以让你从日志文件中过滤出需要的数据元素,然后你可以将其格式化,使得重要的数据易于阅读。

1 gawk命令格式

  1. gawk option program file
  2. 选项: 描述
  3. -F fs 指定行中划分数据字段的字段分隔符
  4. -f file 从指定的文件中读取程序
  5. -v var=value 定义gawk程序中的一个变量及其默认值
  6. -mf N 指定要处理的数据文件中的最大字段数
  7. -mr N 指定数据文件中的最大数据行数
  8. -W keyword 指定gawk的兼容模式或警告等级

命令行选项提供了一个简单的途径来定制gawk程序中的功能。

gawk的强大之处在于程序脚本,可以写脚本来读取文本行的数据,然后处理并显示数据,创建任何类型的输出报告。

2 从命令行读取程序脚本

(1)gawk程序及脚本用一对花括号来定义。你必须将命令放到两个花括号“{}”中。如果你错误的使用了圆括号来包含gawk脚本,就会出错。

(2)由于gawk命令行假定脚本是单个文本字符串,你还必须将脚本放到单引号中。

例如:

  1. [root@centos7 ~]# gawk '{print "Hello World!"}'

运行这个命令,你可能会有些失望,因为什么都不会发生。原因在于没有在命令行上指定文件名,所有gawk程序会从STDIN接受数据。在运行这个程序时,它会一直等待从STDIN输入的文本。

如果你输入一行文本并按下回车键,gawk会对这行文本运行一遍程序脚本。跟sed编辑器一样,gawk程序会针对数据流中的每一行文本执行程序。由于程序脚本被设为显示一行固定的文本字符串,因此不管你在数据流中输入什么文本,都会得到同样的文本输出。

  1. [root@centos7 ~]# gawk '{print "Hello World!"}'
  2. Thie is a error test
  3. Hello World!
  4. Hello World!
  5. Hello World!

要终止这个程序,你必须标明数据流已经结束了。bash shell提供了一个组合键俩生成EOF(End –of-File)字符。Ctrl + D 组合键会字bash中产生一个EOF字符。这个组合键能够终止该gawk程序并返回到命令行界面提示符下。

3 使用数据字段变量

gawk的主要特征之一是其处理文本文件中数据的能力。它会自动给一行的每个数据元素分配一个变量。默认情况下,gawk会将如下变量分配给它在文本中发现的数据字段:

  1. $0 代表整个文本行
  2. $1 代表文本行的第一个数据段
  3. $n 代表文本行的第n个数据段

在文本行中,每个数据段都是通过字段分隔符划分的。gawk在读取一行文本时,会用预定义的字段分隔符划分每个字段。gawk中默认的字段分隔符是任意的空白字符(例如空格或者制表符)。

例如,用-F指定字段分隔符。显示系统密码文件的第一个数据字段。由于/etc/passwd用冒号来分隔数据字段,因而可以将冒号指定为字段分隔符。

  1. [root@centos7 ~]# gawk -F : '{print $1}' /etc/passwd
  2. root
  3. bin
  4. daemon
  5. adm
  6. lp
  7. sync
  8. shutdown
  9. halt
  10. mail
  11. operator
  12. [……]

4 在程序脚本中使用多个命令

gawk编程语言允许将多条命令组合成一个正常程序。要在命令行上的程序脚本中使用多条命令,只要在命令之间放个分号即可。

例如

  1. [root@centos7 ~]# echo "My name is centos"|gawk '{$4="hahaha";print $0}'
  2. My name is hahaha

第一条命令会给$4赋值。第二条命令会打印整个数据字段。注意,gawk程序在输出中已经将原文本中的第四个数据字段替换了新值。

5 从文本中读取程序

跟sed编辑器一样,gawk编辑器允许将程序存储到文件中,然后再在命令行中引用。

  1. [root@centos7 ~]# cat script2.gawk
  2. {print $1 "'s' home directory is " $6}
  3. [root@centos7 ~]# gawk -F: -f script2.gawk /etc/passwd
  4. root's' home directory is /root
  5. bin's' home directory is /bin
  6. daemon's' home directory is /sbin
  7. adm's' home directory is /var/adm
  8. lp's' home directory is /var/spool/lpd
  9. sync's' home directory is /sbin
  10. shutdown's' home directory is /sbin
  11. halt's' home directory is /sbin
  12. mail's' home directory is /var/spool/mail
  13. [……]

script2.gawk程序脚本会再次使用print命令打印/etc/passwd文件中的主目录数据字段(字段变量$6),以及userID数据字段(字段变量$1)。

可以在程序文件中指定多条命令。要这么做的话,只有一天命令放一行即可,不需要使用分号。

  1. [root@centos7 ~]# cat script3.gawk
  2. {
  3. text = "'s home directory is "
  4. print $1 text $6
  5. }
  1. [root@centos7 ~]# gawk -F: -f script3.gawk /etc/passwd
  2. root's home directory is /root
  3. bin's home directory is /bin
  4. daemon's home directory is /sbin
  5. adm's home directory is /var/adm
  6. lp's home directory is /var/spool/lpd
  7. sync's home directory is /sbin
  8. shutdown's home directory is /sbin
  9. [……]

script3.gawk程序脚本定义了一个变量来保存print命令中用到的文本字符串。

注意:gawk程序在引用变量值时并未像shell脚本一样使用美元符。

6 在处理数据前运行脚本

gawk还允许指定程序脚本何时运行。默认情况下,gawk会从输入中读取一行文本,然后针对该行的数据执行程序脚本。有时可能会需要在处理数据前运行脚本,比如报告创建标题。BEGIN关键字就是用来做这个的。它会强制gawk在读取数据前执行BEGIN关键字后指定的程序脚本。

  1. [root@centos7 ~]# cat data3.txt
  2. Line 1
  3. Line 2
  4. Line 3
  5. [root@centos7 ~]# gawk 'BEGIN{print "The data3 File contents:"}{print $0}' data3.txt The data3 File contents:
  6. Line 1
  7. Line 2
  8. Line 3

在gawk执行了BEGIN脚本后,它会用第二段脚本来处理文件数据。这么做是要小心,两段脚本仍然被认为是gawk命令行中的一个文本字符串。你需要相应的加上单引号。

7 在处理数据后运行脚本

与BEGIN关键字类似,END关键字允许你指定一个程序脚本,gawk会在读完数据后执行它。

  1. [root@centos7 ~]# gawk '{print $0} END{print "End of file"}' data3.txt
  2. Line 1
  3. Line 2
  4. Line 3
  5. End of file

当gawk程序打印完文件内容后,会执行END脚本中的命令。这是在处理完所有正常数据后给报告添加页脚的最佳方法。

文本三剑客---awk(gawk)基础的更多相关文章

  1. Linux文本三剑客超详细教程---grep、sed、awk

    awk.grep.sed是linux操作文本的三大利器,合称文本三剑客,也是必须掌握的linux命令之一.三者的功能都是处理文本,但侧重点各不相同,其中属awk功能最强大,但也最复杂.grep更适合单 ...

  2. Linux三剑客awk

    Linux三剑客awk awk是一个强大的linux命令,有强大的文本格式化的能力,好比将一些文本数据格式化成专业的excel表的样式 awk早期在Unix上实现,我们用的awk是gawk,是GUN ...

  3. Linux 三剑客 -- awk sed grep

    本文由本人收集整理自互联网供自己与网友参考,参考文章均已列出,如有侵权,请告知! 顶配awk,中配sed,标配grep awk 参考 sed 参考 grep 参考 在线查看linux命令速记表 app ...

  4. 文本三剑客之grep的用法

    第1章         正则表达式 1.1    正则表达式的介绍               正则是用来过滤文件内容               为处理大量文本|字符串而定义的一套规则和方法.    ...

  5. Linux文本三剑客总结

    Linux文本处理三剑客 grep 文本过滤(模式:pattern)工具 grep, egrep, fgrep(不支持正则表达式搜索) grep  grep: Global search REgula ...

  6. 性能工具之linux三剑客awk、grep、sed详解

    前言 linux 有很多工具可以做文本处理,例如:sort, cut, split, join, paste, comm, uniq, column, rev, tac, tr, nl, pr, he ...

  7. 北大,awk 命令基础练习

    北大,awk 命令基础练习 Red Hat Enterprise Linux Version 5.3 Get the latest news about the world's Open Source ...

  8. 6.文本三剑客之sed

    文本三剑客之sed 目录 文本三剑客之sed sed编辑器 sed概述 sed工作流程 sed用法 sed打印 sed删除 sed替换 sed增加行内容 sed剪切粘贴与复制粘贴 sed字符/字符串交 ...

  9. 文本三剑客---gawk基础

    gawk程序是Unix中原始awk程序的GNU版本.gawk程序让流编辑器迈上了一个新的台阶,它提供了一种编程语言而不只是编辑器命令.在gawk编程语言中,可以完成下面的事情: (1)定义变量来保存数 ...

随机推荐

  1. .net core Entity Framework 与 EF Core

    重点讲 Entity Framework Core ! (一)Entity Framework 它是适用于.NET 的对象关系映射程序 (ORM),现在的EF6已经是久经沙场,并经历重重磨难,获得一致 ...

  2. 影响HTTP性能的常见因素

    影响HTTP性能的常见因素 我们这里讨论HTTP性能是建立在一个最简单模型之上就是单台服务器的HTTP性能,当然对于大规模负载均衡集群也适用毕竟这种集群也是由多个HTTTP服务器的个体所组成.另外我们 ...

  3. c# 多种方法调整屏幕亮度

    Github: https://github.com/CHNMaxGor/AjustScreenBrightness 方法一: 使用网上常说的 Gdi32.dll 下的 SetDeviceGammaR ...

  4. 新手学习WEB前端流程以及学习中常见的误区

    学习web前端编程技术肯定是以就业拿到高薪工作为主要目的的,可是高薪不会那么轻易拿到,这是一个最简单的道理.没有付出就没有回报,在整个学习web前端编程技术的过程中,你需要付出时间.精力.金钱.废话不 ...

  5. js数组中的find(), findIndex(), filter(), forEach(), some(), every(), map(), reduce()方法的详解和应用实例

    1. find()与findIndex() find()方法,用于找出第一个符合条件的数组成员.它的参数是一个回调函数,所有数组成员依次执行该回调函数,直到找出第一个返回值为true的成员,然后返回该 ...

  6. JavaScript 新语法详解:Class 的私有属性与私有方法

    译者按: 为什么偏要用 # 符号? 原文:JavaScript's new #private class fields 译者:Fundebug 本文采用意译,版权归原作者所有 proposal-cla ...

  7. sqlserver2014无法打开报Cannot find one or more components_修复方案

    前言:我跟网上大家的原因基本一样,就是好久没用sqlserver了,中间也对VS进行过卸载升级等,突然有一天发现,打开Sqlserver时打不开了,出了一个弹框:Cannot find one or ...

  8. Mysql B+Tree原理

    B+树索引是B+树在数据库中的一种实现,是最常见也是数据库中使用最为频繁的一种索引.B+树中的B代表平衡(balance),而不是二叉(binary),因为B+树是从最早的平衡二叉树演化而来的.在讲B ...

  9. erlang 删除老版本 安装新版本

    [root@izbp1buyhgwtrvlxv3u2gqz ~]# yum remove erlang-erts-R16B-03.18.el7.x86_64Loaded plugins: fastes ...

  10. Python爬虫之ip代理池

    可能在学习爬虫的时候,遇到很多的反爬的手段,封ip 就是其中之一. 对于封IP的网站.需要很多的代理IP,去买代理IP,对于初学者觉得没有必要,每个卖代理IP的网站有的提供了免费IP,可是又很少,写了 ...