AWK文本处理工具(Linux)

PS:刚开始实习,就给了个处理百万级别数据的任务,以前学过SHELL的一些东西sed/awk之类的处理,但是也没有具体的应用,只是在10几行10几列的小数据操作过,所以要从新学习下,并应用在实际工作中。你可以用excel编辑还好,保存就卡死你!

什么是AWK

  awk是什么?与其它大多数UNIX命令不同的是,从名字上看,我们不可能知道awk的功能,因为awk是三个人名的缩写,他们是:Aho、(Peter)Weinberg和(Brain)Kernighan。正是这三个人创造了awk---一个优秀的样式扫描与处理工具。

AWK使用方法

  awk语言最基本的功能是在文件或字符串中基于指定的规则浏览和抽取信息。

  有三种方式可调用awk:
  1. 命令行方式
  2. 将所有的awk命令插入一个文件,并利用chmod使awk文件成为执行 -f scripts.awk
  3. 将所有的awk命令插入一个单独文件,然后调用 #!/bin/awk -f

具体的使用方法

1.保存awk输出

  从myfile文件保存到nwefile文件中,这里的$0表示所有内容

 awk '{print $0}'  myfile>newfile

2.使用tee,在输出到文件的同时输出到屏幕(利用管道'|')

 awk '{print $0}' myfile |tee newfile

3.awk 一般的语法形式

awk [-Field-separator] 'commands' input-file(s)

awk -f awk-script-file input-file

4.awk脚本的一般形式

#awk-script-file.awk
BEGIN {FS=","}
{
print $
}
END {print "FINISH"}

其中,FS与命令行的-F是同样的,用来设定分隔符,在处理SCV文件时候需要把“,”作为分隔符

AWK内置函数

  awk之所以成为一种优秀的程序设计语言的原因之一是它吸收了某些优秀的程序设计语言语言的许多优点。这些优点之一就是内置函数的使用,awk定义并支持了一系列的内置函数,由于这些函数的使用,使得awk提供的功能更为完善和强大。

内置字符串函数:

gsub(r,s)           在整个$0中用s替代r

awk 'gsub(/name/,"xingming") {print $0}' temp

gsub(r,s,t)         在整个t中用s替代r

index(s,t)          返回s中字符串t的第一位置,失败返回0

awk 'BEGIN {print index("Sunny","ny")}' temp     返回4

length(s)           返回s的长度

match(s,r)          测试s是否包含匹配r的字符串,失败返回0 也可以使用~/xxx/

awk '$1=="J.Lulu" {print match($1,"u")}' temp    返回4

split(s,a,fs)       在fs上将s分成序列a

awk 'BEGIN {print split("12#345#6789",myarray,"#")"'

返回3,同时myarray[]="", myarray[]="", myarray[]=""

sprint(fmt,exp)     返回经fmt格式化后的exp

sub(r,s)   从$0中最左边最长的子串中用s代替r(只更换第一遇到的匹配字符串)

substr(s,p)         返回字符串s中从p开始的后缀部分

substr(s,p,n)       返回字符串s中从p开始长度为n的后缀部分

2.awk中自定义语句

1.支持if判断

 if(表达式)

    {语句1}

 else if(表达式)

    {语句2}

 else

    {语句3}

2.支持for循环

for(变量 in 数组)

    {语句}
for(变量;条件;表达式)

    {语句}

3.支持while循环

while(表达式)

    {语句}
do

{语句}while(条件)

AWK文本处理工具(Linux)的更多相关文章

  1. Linux - awk 文本处理工具一

    AWK AWK是一个优良的文本处理工具,Linux及Unix环境中现有的功能最强大的数据处理引擎之一:awk经过改进生成的新的版本nawk,gawk,现在默认linux系统下日常使用的是gawk,用命 ...

  2. Linux 之 awk文本分析工具

    AWK是一种处理文本文件的语言,是一个强大的文本分析工具.Linux环境中自带. awk调用方法 命令行 awk [-F field-separator] 'commands' input-file( ...

  3. awk 文本处理工具

    awk: 强大的文本处理工具,擅长对日志文件进行分析: 不仅用于Linux,也是任何环境中现在的功能最强大的数据处理引擎: 语法说明: awk '{pattern + action}' {filena ...

  4. Linux - awk 文本处理工具六 - 日志关键字筛选

    查看多少行 ? awk '{print NR}' access.log |tail -n1 日期时间筛选检测 awk '/Dec 10/ {print $0}' /opt/mongod/log/mon ...

  5. Linux - awk 文本处理工具五

    awk 线上处理常用模式 awk 处理复杂日志 6.19: DHB_014_号百总机服务业务日报:广州 到达数异常! DHB_023_号百漏话提醒日报:珠海 到达数异常! 6.20: DHB_014_ ...

  6. Linux - awk 文本处理工具四

    awk 常用示例 获取本机 IP 方式 /sbin/ifconfig |awk -v RS="Bcast:" '{print $NF}'|awk -F: '/addr/{print ...

  7. Linux - awk 文本处理工具三

    AWK 文件打印匹配 格式示例 awk '/Tom/' file # 打印匹配到得行 awk '/^Tom/{print $1}' # 匹配Tom开头的行 打印第一个字段 awk '$1 !~ /ly ...

  8. awk文本分析工具

    Usage:awk [option] 'program' file ... awk [option] -f progfile file ... [optin]: -F fs 指定输入分隔符,fs可是字 ...

  9. AWK文本分析工具-常用场景(持续更新中)

    AWK help document:http://www.gnu.org/software/gawk/manual/gawk.html 问题 awk命令 备注 对请求IP统计分组排序?     显示列 ...

随机推荐

  1. Fiddler抓包测试App接口

    Fiddler抓包测试App接口 使用Fiddler对手机App应用进行抓包,可以对App接口进行测试,也可以了解App传输中流量使用及请求响应情况,从而测试数据传输过程中流量使用的是否合理. 抓包过 ...

  2. SQL Server SELECT逻辑处理顺序

    SQL Server SELECT语句,逻辑处理顺序,虽然SELECT位于语句最前面,它在逻辑处理中,基本上是最后一个被执行的部分. 下面列出查询子句在逻辑上处理顺序: 1.  FROM 2.  WH ...

  3. 5.Mybatis的输出映射(就是对查询的结果集的映射)

    Mybatis的输出映射,也就是对查询结果集的一个映射,主要有两种: 1.resultType(不需要配置,可以直接用) 一般是实体类 基本类型也可以 2.resultMap(需要配置resultMa ...

  4. Python基础(七)内置函数

    今天来介绍一下Python解释器包含的一系列的内置函数,下面表格按字母顺序列出了内置函数: 下面就一一介绍一下内置函数的用法: 1.abs() 返回一个数值的绝对值,可以是整数或浮点数等. 1 2 3 ...

  5. 把 TBytes 转换为十六进制字符串

    function BytestoHexString(ABytes: TBytes; len: Integer): AnsiString; begin   SetLength(Result, len*) ...

  6. [2015hdu多校联赛补题]hdu5303 Delicious Apples

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=5303 题意:在一个长为L的环形路径上种着一些苹果树,告诉你苹果树的位置(题目中以0~L指示坐标)及苹果 ...

  7. Web 登陆界面---简单模块1

    今天学习登陆界面的基本模块,其中几个基本的元素 a元素.form元素.布局元素(table\tr\td).加粗(b).input元素 1.<a href="">内容&l ...

  8. SQL Server 判定时间是否在某个时间区间内

    * FROM sys.objects WHERE name=N'uF_IsRange_Date' AND [type]='FN') DROP FUNCTION uF_IsRange_Date GO S ...

  9. Robolectric 配置

    费了些工夫,已配好,按记录留记录 按官网操作http://robolectric.org/getting-started/ 1引包 testCompile "org.robolectric: ...

  10. [转]初探 PhoneGap 框架在 Android 上的表现

    原文地址:http://topmanopensource.iteye.com/blog/1486929 phonegap是由温哥华的一家小公司研发的多平台的移动开发框架,支持流行的大多数移动设备(iP ...