Awk使用及站点日志分析

Awk简单介绍

概述

awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。
awk有3个不同版本号: awk、nawk和gawk，未作特别说明，一般指gawk。
awk程序的报告生成能力通经常使用来从大文本文件里提取数据元素并将它们格式化成可读的报告。最完美的样例是格式化日志文件。

awk程序同意从日志文件里仅仅过滤出你想要看的数据

Awk使用

awk命令格式和选项

语法形式

awk [options] 'script' var=value file(s)
awk [options] -f scriptfile var=value file(s)

经常使用命令选项

-F fs fs指定输入分隔符，fs能够是字符串或正則表達式，如-F:
-v var=value 赋值一个用户定义变量，将外部变量传递给awk
-f scripfile 从脚本文件里读取awk命令
-m[fr] val 对val值设置内在限制。-mf选项限制分配给val的最大块数目；-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能。在标准awk中不适用。

模式：

/正則表達式/：使用通配符的扩展集。
关系表达式：使用运算符进行操作，能够是字符串或数字的比較測试。
模式匹配表达式：用运算符~（匹配）和~!（不匹配）。
BEGIN语句块、pattern语句块、END语句块。

awk脚本基本结构

awk 'BEGIN{ print "start" } pattern{ commands } END{ print "end" }' file

一个awk脚本通常由：BEGIN语句块、可以使用模式匹配的通用语句块、END语句块3部分组成，这三个部分是可选的。

随意一个部分都可以不出如今脚本中。脚本一般是被单引號或双引號中，比如：

awk 'BEGIN{ i=0 } { i++ } END{ print i }' filename
awk "BEGIN{ i=0 } { i++ } END{ print i }" filename

awk的工作原理

awk 'BEGIN{ commands } pattern{ commands } END{ commands }'

第一步：运行BEGIN{ commands }语句块中的语句。

第二步：从文件或标准输入(stdin)读取一行。然后运行pattern{ commands }语句块，它逐行扫描文件，从第一行到最后一行反复这个过程。直到文件所有被读取完成。

第三步：当读至输入流末尾时。运行END{ commands }语句块。

BEGIN语句块在awk開始从输入流中读取行之前被运行，这是一个可选的语句块，比方变量初始化、打印输出表格的表头等语句通常能够写在BEGIN语句块中。

END语句块在awk从输入流中读取全然部的行之后即被运行。比方打印全部行的分析结果这类信息汇总都是在END语句块中完毕，它也是一个可选语句块。

pattern语句块中的通用命令是最重要的部分，它也是可选的。假设没有提供pattern语句块，则默认运行{ print }，即打印每个读取到的行。awk读取的每一行都会运行该语句块。

演示样例

echo -e "A line 1\nA line 2" | awk 'BEGIN{ print "Start" } { print } END{ print "End" }'

打印结果：

Start
A line 1
A line 2
End

当使用不带參数的print时，它就打印当前行，当print的參数是以逗号进行分隔时。打印时则以空格作为定界符。

在awk的print语句块中双引號是被当作拼接符使用，比如：

echo | awk '{ var1="v1"; var2="v2"; var3="v3"; print var1,var2,var3; }'

打印结果：

v1 v2 v3

双引號拼接使用：

echo | awk '{ var1="v1"; var2="v2"; var3="v3"; print var1"="var2"="var3; }'

打印结果：

v1=v2=v3

{ }类似一个循环体，会对文件里的每一行进行迭代，通常变量初始化语句（如：i=0）以及打印文件头部的语句放入BEGIN语句块中。将打印的结果等语句放在END语句块中。

awk内置变量

说明：[A][N][P][G]表示第一个支持变量的工具，[A]=awk、[N]=nawk、[P]=POSIXawk、[G]=gawk

$n 当前记录的第n个字段。比方n为1表示第一个字段，n为2表示第二个字段。
$0 这个变量包括运行过程中当前行的文本内容。
[N] ARGC 命令行參数的数目。
[G] ARGIND 命令行中当前文件的位置（从0開始算）。
 
[N] ARGV 包括命令行參数的数组。
[G] CONVFMT 数字转换格式（默认值为%.6g）。
[P] ENVIRON 环境变量关联数组。
 
[N] ERRNO 最后一个系统错误的描写叙述。
 
[G] FIELDWIDTHS 字段宽度列表（用空格键分隔）。
[A] FILENAME 当前输入文件的名。
 
[P] FNR 同NR。但相对于当前文件。
 
[A] FS 字段分隔符（默认是不论什么空格）。
[G] IGNORECASE 假设为真，则进行忽略大写和小写的匹配。
 
[A] NF 表示字段数。在运行过程中相应于当前的字段数。
 
[A] NR 表示记录数，在运行过程中相应于当前的行号。
[A] OFMT 数字的输出格式（默认值是%.6g）。
 
[A] OFS 输出字段分隔符（默认值是一个空格）。
 
[A] ORS 输出记录分隔符（默认值是一个换行符）。
[A] RS 记录分隔符（默认是一个换行符）。
[N] RSTART 由match函数所匹配的字符串的第一个位置。
 
[N] RLENGTH 由match函数所匹配的字符串的长度。
[N] SUBSEP 数组下标分隔符（默认值是34）。

演示样例：

echo -e "line1 f2 f3\nline2 f4 f5\nline3 f6 f7" | awk '{print "Line No:"NR", No of fields:"NF, "$0="$0, "$1="$1, "$2="$2, "$3="$3}'

打印结果：

Line No:1, No of fields:3 $0=line1 f2 f3 $1=line1 $2=f2 $3=f3
Line No:2, No of fields:3 $0=line2 f4 f5 $1=line2 $2=f4 $3=f5
Line No:3, No of fields:3 $0=line3 f6 f7 $1=line3 $2=f6 $3=f7

使用print $NF能够打印出一行中的最后一个字段，使用$(NF-1)则是打印倒数第二个字段，其它以此类推：

echo -e "line1 f2 f3\n line2 f4 f5" | awk '{print $NF}'

打印结果：

f3
f5

echo -e "line1 f2 f3\n line2 f4 f5" | awk '{print $(NF-1)}'

打印结果：

f2
f4

打印每一行的第二和第三个字段：

awk '{ print $2,$3 }' filename

统计文件里的行数：

awk 'END{ print NR }' filename

以上命令仅仅使用了END语句块。在读入每一行的时。awk会将NR更新为相应的行号，当到达最后一行NR的值就是最后一行的行号。所以END语句块中的NR就是文件的行数。

将外部变量值传递给awk

借助-v选项，能够将外部值（并不是来自stdin）传递给awk：

VAR=10000 echo | awk -v VARIABLE=$VAR '{ print VARIABLE }'

还有一种传递外部变量方法：

var1="aaa"
var2="bbb"
echo | awk '{ print v1,v2 }' v1=$var1 v2=$var2

当输入来自于文件时使用：

awk '{ print v1,v2 }' v1=$var1 v2=$var2 filename

以上方法中，变量之间用空格分隔作为awk的命令行參数尾随在BEGIN、{}和END语句块之后。

awk高级输入输出

读取下一条记录

awk中next语句使用：在循环逐行匹配，假设遇到next，就会跳过当前行，直接忽略以下语句。而进行下一行匹配。

net语句一般用于多行合并：

cat text.txt
a
b
c
d
e

awk 'NR%2==1{next}{print NR,$0;}'
text.txt
2 b
4 d

简单地读取一条记录

awk getline使用方法：输出重定向需用到getline函数。getline从标准输入、管道或者当前正在处理的文件之外的其它输入文件获得输入。

它负责从输入获得下一行的内容，并给NF,NR和FNR等内建变量赋值。

假设得到一条记录，getline函数返回1。假设到达文件的末尾就返回0，假设出现错误，比如打开文件失败，就返回-1。

当其左右无重定向符|或<时：getline作用于当前文件。读入当前文件的第一行给其后跟的变量var或$0（无变量），应该注意到，因为awk在处理getline之前已经读入了一行，所以getline得到的返回结果是隔行的。
当其左右有重定向符|或<时：getline则作用于定向输入文件，因为该文件是刚打开，并没有被awk读入一行，仅仅是getline读入。那么getline返回的是该文件的第一行，而不是隔行。

演示样例：

运行linux的date命令，并通过管道输出给getline，然后再把输出赋值给自己定义变量out，并打印它：

awk 'BEGIN{ "date" | getline out; print out }'

运行shell的date命令。并通过管道输出给getline，然后getline从管道中读取并将输入赋值给out，split函数把变量out转化成数组mon。然后打印数组mon的第二个元素：

awk 'BEGIN{ "date" | getline out; split(out,mon); print mon[2] }'

命令ls的输出传递给geline作为输入，循环使getline从ls的输出中读取一行，并把它打印到屏幕。这里没有输入文件，由于BEGIN块在打开输入文件前运行，所以能够忽略输入文件。

awk 'BEGIN{ while( "ls" | getline) print }'

关闭文件

awk中同意在程序中关闭一个输入或输出文件，方法是使用awk的close语句。

close("filename")

filename能够是getline打开的文件。也能够是stdin。包括文件名称的变量或者getline使用的确切命令。或一个输出文件。能够是stdout，包括文件名称的变量或使用管道的确切命令。

输出到一个文件

awk中同意用例如以下方式将结果输出到一个文件：

echo | awk '{printf("hello word!\n") > "datafile"}'

或

echo | awk '{printf("hello word!\n") >> "datafile"}'

设置字段定界符

默认的字段定界符是空格，能够使用-F "定界符" 明白指定一个定界符：

awk -F: '{ print $NF }' /etc/passwd

或

awk 'BEGIN{ FS=":" } { print $NF }' /etc/passwd

在BEGIN语句块中则能够用OFS=“定界符”设置输出字段的定界符。

流程控制语句

在linux awk的while、do-while和for语句中同意使用break,continue语句来控制流程走向，也同意使用exit这种语句来退出。break中断当前正在运行的循环并跳到循环外运行下一条语句。

if 是流程选择使用方法。awk中，流程控制语句。语法结构，与c语言类型。有了这些语句，事实上非常多shell程序都能够交给awk，并且性能是非常快的。以下是各个语句使用方法。

条件推断语句

if(表达式)
    语句1
else
    语句2

格式中语句1能够是多个语句，为了方便推断和阅读，最好将多个语句用{}括起来。

awk分枝结构同意嵌套，其格式为：

if(表达式)
    {语句1}
else if(表达式)
    {语句2}
else
    {语句3}

演示样例：

awk 'BEGIN{
test=100;
if(test>90){
    print "very good";
}
else if(test>60){
    print "good";
} else{
    print "no pass";
    }
}'

每条命令语句后面能够用;分号结尾。

循环语句

while语句：

while(表达式)
    {语句}

演示样例：

awk 'BEGIN{
test=100;
total=0;
while(i<=test){
    total+=i;
    i++;
}
print total;
}'

for循环

for循环有两种格式：

格式一：

for(变量 in 数组)
    {语句}

格式二：

for(变量;条件;表达式)
{语句}

do循环

do
{语句} while(条件)

演示样例：

awk 'BEGIN{
total=0;
i=0;
do {total+=i;i++;} while(i<=100)
    print total;
}'

其它语句

break 当 break 语句用于 while 或 for 语句时，导致退出程序循环。
continue 当 continue 语句用于 while 或 for 语句时，使程序循环移动到下一个迭代。
exit 语句使主输入循环退出并将控制转移到END,假设END存在的话。假设未定义END规则，或在END中应用exit语句。则终止脚本的运行。

数组应用

数组是awk的灵魂，处理文本中最不能少的就是它的数组处理。由于数组索引（下标）能够是数字和字符串在awk中数组叫做关联数组(associative arrays)。awk 中的数组不必提前声明，也不必声明大小。数组元素用0或空字符串来初始化，这依据上下文而定。

数组的定义

数字做数组索引（下标）：

Array[1]="sun"
Array[2]="kai"

字符串做数组索引（下标）：

Array["first"]="www"
Array["last"]="name"
Array["birth"]="1987"

读取数组的值

{ for(item in array) {print array[item]}; } #输出的顺序是随机的
{ for(i=1;i<=len;i++) {print array[i]}; } #len是数组的长度

数组相关函数

得到数组长度：

awk 'BEGIN{info="it is a test";lens=split(info,tA," ");print length(tA),lens;}'

length返回字符串以及数组长度，split进行切割字符串为数组。也会返回切割得到数组长度。

awk 'BEGIN{info="it is a test";split(info,tA," ");print asort(tA);}'

asort对数组进行排序。返回数组长度。

输出数组内容（无序。有序输出）：

awk 'BEGIN{info="it is a test";split(info,tA," ");for(k in tA){print k,tA[k];}}'

打印结果：

1 it
2 is
3 a
4 test

注意：数组下标是从1開始，与C数组不一样。

推断键值存在以及删除键值：

awk 'BEGIN{tB["a"]="a1";tB["b"]="b1";if( "c" in tB){print "ok";};for(k in tB){print k,tB[k];}}'

打印结果：

a a1
b b1

#删除键值：

awk 'BEGIN{tB["a"]="a1";tB["b"]="b1";delete tB["a"];for(k in tB){print k,tB[k];}}'

打印结果：

b b1

字符串操作

查找字符串（index使用）

awk 'BEGIN{info="this is a test2010test!";print index(info,"test")?
 
"ok":"no found";}'

未找到，返回0

正則表達式匹配查找(match使用）

awk 'BEGIN{info="this is a test2010test!";print match(info,/[0-9]+/)?
 
"ok":"no found";}'

截取字符串(substr使用）

awk 'BEGIN{info="this is a test2010test!";print substr(info,4,10);}'

从第 4个字符開始。截取10个长度字符串

字符串切割（split使用）

awk 'BEGIN{info="this is a test";split(info,tA," ");print length(tA);for(k in tA){print k,tA[k];}}'

打印结果：

4
4 test
1 this
2 is
3 a

切割info。动态创建数组tA，这里比較有意思，awk for …in循环。是一个无序的循环。并非从数组下标1…n 。因此使用时候须要注意。

一般函数

打开外部文件（close使用方法）

awk 'BEGIN{while("cat /etc/passwd"|getline){print $0;};close("/etc/passwd");}'

逐行读取外部文件(getline用法）

awk 'BEGIN{while(getline < "/etc/passwd"){print $0;};close("/etc/passwd");}'

awk 'BEGIN{print "Enter your name:";getline name;print name;}'

调用外部应用程序(system用法）

awk 'BEGIN{b=system("ls -al");print b;}'

站点日志分析

简单介绍

以下使用Linux中的Awk对tomcat中日志文件做一些分析，主要统计pv，uv等。

日志文名称：access_2013_05_30.log，大小57.7 MB
。

这次分析仅仅是简单演示，所以不是太精确地处理数据。

日志地址：http://download.csdn.net/detail/u011204847/9496357

日志数据演示样例：

日志总行数：

打印的第七列数据为日志的URL：

分析中用到的一些知识：

扩展，

shell中的管道|

command 1 | command 2     #他的功能是把第一个命令command 1运行的结果作为command 2的输入传给command 2

wc -l    #统计行数

uniq -c     #在输出行前面加上每行在输入文件里出现的次数

uniq -u      #仅显示不反复的行

sort -nr

-n：按照数值的大小排序
-r：以相反的顺序来排序
-k：按照哪一列进行排序

head -3      #取前三名

站点日志分析步骤

数据清洗：

1、第一次清洗：去除URL中以/static/开头的URL

awk '($7 !~ /^\/static\//){print $0}' access_2013_05_30.log > clean_2013_05_30.log

去除前：

去除后：

2、第二次清洗：去除图片、css和js

awk '($7 !~ /\.jpg|\.png|\.jpeg|\.gif|\.css|\.js/) {print $0}' clean_2013_05_30.log > clean2_201 3_05_30.log

pv是指网页訪问次数

方法：统计全部数据的总行数

数据清洗：对原始数据中的干扰数据进行过滤

awk 'BEGIN{pv=0}{pv++}END{print "pv:"pv}' clean2_2013_05_30.log > pv_2013_05_30

uv指的是訪问人数。也就是独立IP数

对ip反复的数据进行去重，然后再统计全部行数

awk '{print $1}' clean2_2013_05_30.log |sort -n |uniq -u |wc -l > uv_2013_05_30

訪问最多的IP（前10名）

对ip反复的数据进行去重的时候还要汇总，取前10名

awk '{print $1}' clean2_2013_05_30.log | sort -n | uniq -c |sort -nr -k 1|head -10 > top10_2013_05_30

訪问前十的URL（能够用来分析站点哪个模块最受欢迎）

awk '{print $7}' clean2_2013_05_30.log | sort | uniq -c |sort -nr -k 1|head -10 > top10URL_2013_ 05_30

使用Java实现訪问量前十的IP地址。

代码演示样例：

import java.io.*;
import java.util.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
 
/**
 * Created by Chen on 2016/4/13.
 */
public class RegexTest {
    public static void main(String[] args) throws IOException {
 
        //日志格式：27.19.74.143 - - [30/May/2013:17:38:20 +0800] "GET /static/image/common/faq.gif HTTP/1.1" 200 1127
        //须要解析的源文件
        File file = new File("D:\\clean2_2013_05_30.log");
        //高效字符读入流
        BufferedReader bufr = new BufferedReader(new InputStreamReader(new FileInputStream(file)));
        String line = null;
        //建立TreeMap，Key为IP地址，Value为IP出现次数
        Map<String, Integer> map = new TreeMap<>();
        while ((line = bufr.readLine()) != null) {
            String ip = parseIP(line);
            map.put(ip, map.get(ip) == null ? 1 : map.get(ip) + 1);
        }
 
        Set<String> set = map.keySet();
        //创建一个具有匿名比較器的TreeSet集合 ：作用是让存入的元素先依照Key排序，同样则继续依照Value排序。
        //这个TreeSet将用来存储IP地址和出现次数反转后的每一个元素。
        TreeSet<Map.Entry<Integer, String>> treeSet = new TreeSet<>(new Comparator<Map.Entry<Integer, String>>() {
            @Override
            public int compare(Map.Entry<Integer, String> o1, Map.Entry<Integer, String> o2) {
                int result = o1.getKey() - o2.getKey();
                if (result == 0) {
                    result = o1.getValue().compareTo(o2.getValue());
                }
                return -result;
            }
        });
 
        //把IP地址和出现次数反转，然后放入上面具有比較器的TreeSet中
        for (Iterator<String> it = set.iterator(); it.hasNext(); ) {
            String ip = it.next();
            Integer n = map.get(ip);
            treeSet.add(new AbstractMap.SimpleEntry(n, ip));
        }
 
        //遍历并打印出现次数和IP地址（次数最多的前十个）
        int count = 0;
        Iterator<Map.Entry<Integer, String>> itr = treeSet.iterator();
        while (itr.hasNext()) {
            if (count == 10) {
                break;
            }
            Map.Entry<Integer, String> en = itr.next();
            int n = en.getKey();
            System.out.println(n + "\t\t\t" + en.getValue());
            count++;
        }
    }
 
    //解析IP地址
    public static String parseIP(String str) {
        Pattern compile = Pattern.compile("[0-9]+(\\.[0-9]+){3}");
        //解析IP地址
        Matcher matcher = compile.matcher(str);
        String group = "";
        if (matcher.find()) {
            group = matcher.group();
        }
        return group;
    }
}