先创建一个文件:vim hi

取第2个字段和第3个字段:

awk '{print $2,$3}' hi     注意{}中的,逗号会在输出的时候转变为空格

加入字符说明:

显示整行:

指定字段分隔符:-F

内建变量:NF      NF:字段数量,  $NF代表最后一个字段

NR:行数

/regular expression/: 仅处理能够被此处的模式匹配到的行

取反:awk '!/^john/{print $2}' hi

上面的语句表示如果第三个字段大于等于500,则取第一和第三个字段

判断最后一个字段是否为/bin/bash,如果是则打印第一和最后一个字段

做模式匹配

cat hi

做行范围匹配

取得行范围:

if条件判断语句:判断第三个字段的值是否大于500

字符替换:

echo "this is a test" | awk 'gsub("test","abd")'

cat hi

while循环:

NF代表当前行的字段数,length是个函数,取得$i这个字段的字符长度

awk '/^tom/{i=1;while(i<=NF) {if(length($i)>=4){print $i,length($i)}; i++}}' hi

在while循环中又嵌套了if语句

上面的while语句也可以用for循环语句代替

awk '/tom/{for(i=1;i<=NF;i++) {print $i,length($i)}}' hi

实战:

  获得访问前10位的ip地址:cat access.log | awk '{print $1}' | sort | uniq -c | sort -nr | head -10

  获取访问次数最多的文件或页面,取前20个:cat access.log | awk '{print $11}' | sort | uniq -c | sort -nr | head -20

  列出传输最大的几个exe文件(分析下载站的时候常用):cat access.log | awk '($7~/.exe/){print $10 " " $1 " " $4 " " $7}' | sort -nr | head -20

  列出输出大于200000byte(约200kb)的exe文件以及对应文件发生次数:cat access.log | awk '($10 > 200000 && $7~/.exe/){print $7}' | sort -n | uniq -c | sort -nr | head -100

  列出最最耗时的页面(超过60秒的)的以及对应页面发生次数:cat access.log | awk '($NF > 60 && $7 ~/.php/){print $7}' | sort -n | uniq -c | sort -nr | head -100

  统计网站流量(G):cat access.log | awk '{sum+=$10}END{print sum/1024/1024/1024}'

  统计404的连接:awk '($9~/404/)' access.log | awk '{print $9,$7}' | sort 

  

在Unix awk中两个特别的表达式,BEGIN和END,这两者都可用于pattern中(参考前面的awk语法),提供BEGIN和END的作用是给程序赋予初始状态和在程序结束之后执行一些扫尾的工作

任何在BEGIN之后列出的操作(在{}内)将在Unix awk开始扫描输入之前执行,而END之后列出的操作将在扫描完全部的输入之后执行。因此,通常使用BEGIN来显示变量和预置(初始化)变量,使

用END来输出最终结果

RS: 记录行分隔符

  文本A的内容为a|b|c

  awk 'BEGIN{ RS="|" } { print $0 }'  A   得到的结果如下

  

  如果文本A的内容如上图

  awk 'BEGIN{ ORS="|" }{ print $0 }' A  得到的结果为 a|b|c

ORS: 将换行符替换成你想要的符号

  

  

文本分析工具awk简单示例的更多相关文章

  1. linux 文本分析工具---awk命令(7/1)

    awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各 ...

  2. Linux文本分析命令awk的妙用

    基本用法 awk是一个强大的文本分析工具,简单来说awk就是把文件逐行读入,(空格,制表符)为默认分隔符将每行切片,切开的部分再进行各种分析处理 awk命令格式如下 awk [-F field-sep ...

  3. Linux 之 awk文本分析工具

    AWK是一种处理文本文件的语言,是一个强大的文本分析工具.Linux环境中自带. awk调用方法 命令行 awk [-F field-separator] 'commands' input-file( ...

  4. linux文本分析利器awk

    转 快速理解linux文本分析利器awk 原文链接 杜亦舒 性能与架构 awk是什么 如果工作中需要操作linux比较多,那么awk是非常值得学习的 awk是一个极其强大的文本分析工具,把文件逐行的读 ...

  5. 文本处理工具awk

    目录 gawk:模式扫描和处理语言 awk语言 awk工作原理 print awk变量 自定义变量 printf命令 awk操作符 awk的条件判断 awk的循环 awk的数组 awk的函数 awk调 ...

  6. 文本处理工具-AWK

    awk简介 awk功能与sed相似,都是用来进行文本处理的.awk可以自动地搜索输入文件,并把每一个输入行切分成字段.许多工作都是自动完成的,例如读取每个输入行.字段分割. awk工作原理 awk一次 ...

  7. 内存使用分析工具Valgrind简单用法

    转载自 http://www.cnblogs.com/sunyubo/archive/2010/05/05/2282170.html 暂时还未使用过,记录下,记录下,记录下 Valgrind的主要作者 ...

  8. awk文本分析工具

    Usage:awk [option] 'program' file ... awk [option] -f progfile file ... [optin]: -F fs 指定输入分隔符,fs可是字 ...

  9. AWK文本分析工具-常用场景(持续更新中)

    AWK help document:http://www.gnu.org/software/gawk/manual/gawk.html 问题 awk命令 备注 对请求IP统计分组排序?     显示列 ...

随机推荐

  1. Linux安装Oracle报Checking operating system version must be redhat-3, SuSE-9, redhat-4

    解决办法:vi /xx/database/install/oraparam.ini 找到[Certified Versions] Linux=redhat-3,SuSe-9,redhat-4,后面加上 ...

  2. css选择器nth-child()和nth-of-type()的应用

    <style> .table-striped tbody > tr:nth-child(odd) > td, .table-striped tbody > tr:nth- ...

  3. 云计算三种服务模式SaaS、PaaS和IaaS及其之间关系(顺带CaaS、MaaS)

    云计算架构图 很明显,这五者之间主要的区别在于第一个单词,而aaS都是as-a-service(即服务)的意思,这五个模式都是近年来兴起的,且这五者都是云计算的落地产品,所以我们先来了解一下云计算是什 ...

  4. log4

    <?xml version="1.0"?> <configuration> <configSections> <section name= ...

  5. 分层服务提供者(LSP)

    分层服务提供者(LSP)(1) 开发过滤数据包的LSP程序可以定义过滤规则,恩,先看看LSP本身是DLL,可以将它安装至Winsock目录,创建套接字的应用程序不必知道此LSP的任何信息就能调用它 1 ...

  6. 设置Eclipse自动跳转到debug模式的小技巧

    默认情况下,eclipse中右键debug,当运行到设置的断点时会自动跳到debug模式下.但由于我的eclipse环境,从开始一直用到现在,中间包括装.卸各种插件,更换版本,从英文界面导到中文界面又 ...

  7. SVN与TortoiseSVN实战:冲突详解(二)

    硬广:<SVN与TortoiseSVN实战>系列已经写了四篇,第二篇<SVN与TortoiseSVN实战:标签与分支>和第三篇<SVN与TortoiseSVN实战:Tor ...

  8. python 多行匹配

    content = ''' abcdefg hijklmn opq rst uvw xyz ''' r = re.compile('\S+cde\S+|\S+klm\S+|^xyz$', re.MUL ...

  9. 五、用户数据报传输(UDP)

    1.UDP常用的发送和接收函数 int recvfrom(int sockfd,void *buf,int len,unsigned int flags,struct sockaddr *from,i ...

  10. 第四次java实验报告

    20145306 实验四 java 开发基础 设计过程: 1.创建项目 2.选择activity_main.xml 3.显示自己的学号 4.双击改变字体大小 5.预览