一、基于hadoop的nginx访问日志分析---解析日志篇

前一阵子，搭建了ELK日志分析平台，用着挺爽的，再也不用给开发拉各种日志，节省了很多时间。

这篇博文是介绍用python代码实现日志分析的，用MRJob实现hadoop上的mapreduce，可以直接放到hadoop集群上运行。

mrjob可以让我们使用Python编写MapReduce运算，并在多个不同平台运行，你可以：

使用纯python编写multi-step MapReduce
本机测试
在hadoop集群上运行

安装mrjob

pip install mrjob

nginx访问日志格式

gamebbs.51.com 10.80.2.176 219.239.255.42 54220 [26/Dec/2016:04:34:39 +0800] "GET /forum.php?mod=ajax&action=forumchecknew&fid=752&time=1482697523&inajax=yes HTTP/1.0" 200 66 "http://gamebbs.51.com/forum.php?mod=forumdisplay&fid=752&page=1" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2626.106 Safari/537.36 Yunhai Browser" 0.016 0.011

日志格式分为下面几个部分：

server_name（域名）: game.51.com

local_ip（本机内网IP）：10.80.2.176

client_ip（客户端IP）：219.239.255.42

remote_port（客户端建立连接端口）：54220

time_local（请求时间）：[26/Dec/2016:04:34:39 +0800]

method（请求方式）：GET

request（请求url）：/forum.php?mod=ajax&action=forumchecknew&fid=752&time=1482697523&inajax=yes HTTP/1.0

verb（http版本号）：HTTP/1.0

status（状态码）：200

body_bytes_sent：66

http_referer：http://gamebbs.51.com/forum.php?mod=forumdisplay&fid=752&page=1

http_user_agent：Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2626.106 Safari/537.36 Yunhai Browser

request_time：0.016

upstream_response_time：0.011

处理nginx日志的类：

#!/usr/bin/env python

# coding=utf-8

import datetime

from urllib.parse import urlparse

from user_agents import parse as ua_parse

class NginxLineParser(object):

    def parse(self, line):

        """ 将 nginx 日志解析多个字段

        """

        try:

            line_item = line.strip().split('"')

            self._server_name, self._local_ip, self._client_ip, self._remote_port = line_item[0].strip().split('[')[0].split()

            self._time_local = line_item[0].strip().split('[')[-1].strip(']')

            self._method, self._request, self._verb = line_item[1].strip().split()

            self._status, self._body_bytes_sent = line_item[2].strip().split()

            self._http_referer = line_item[3].strip()

            self._http_user_agent = line_item[-2].strip()

            self._request_time, self._upstream_response_time = line_item[-1].strip().split()

        except:

            with open('/tmp/parser_log_error.txt', 'a+') as f:

                f.write(line + '\n')

    def logline_to_dict(self):

        """ 将日志段转为字典

        """

        line_field = {}

        line_field['server_name'] = self.server_name

        line_field['local_ip'] = self.local_ip

        line_field['client_ip'] = self.client_ip

        line_field['remote_port'] = self.remote_port

        line_field['time_local'] = self.time_local

        line_field['method'] = self.method

        line_field['request'] = self.request

        line_field['verb'] = self.verb

        line_field['status'] = self.status

        line_field['body_bytes_sent'] = self.body_bytes_sent

        line_field['http_referer'] = self.http_referer

        line_field['http_user_agent'] = self.http_user_agent

        line_field['request_time'] = self.request_time

        line_field['upstream_response_time'] = self.upstream_response_time

        return line_field

    @property

    def server_name(self):

        return self._server_name

    @property

    def local_ip(self):

        return self._local_ip

    @property

    def client_ip(self):

        return self._client_ip

    @property

    def remote_port(self):

        return self._remote_port

    @property

    def time_local(self):

        return datetime.datetime.strptime(self._time_local, '%d/%b/%Y:%H:%M:%S +0800')

    @property

    def method(self):

        return self._method

    @property

    def request(self):

        return urlparse(self._request).path

    @property

    def verb(self):

        return self._verb

    @property

    def body_bytes_sent(self):

        return self._body_bytes_sent

    @property

    def http_referer(self):

        return self._http_referer

    @property

    def http_user_agent(self):

        ua_agent = ua_parse(self._http_user_agent)

        if not ua_agent.is_bot:

            return ua_agent.browser.family

    @property

    def user_agent_type(self):

        us_agent = ua_parse(self._http_user_agent)

        if us_agent.is_bot:

            return us_agent.browser.family

    @property

    def status(self):

        return self._status

    @property

    def request_time(self):

        return self._request_time

    @property

    def upstream_response_time(self):

        return self._upstream_response_time

def main():

    """程序执行入口

    """

    ng_line_parser = NginxLineParser()

    with open('test.log', 'r') as f:

        for line in f:

            ng_line_parser.parse(line)

if __name__ == '__main__':

    main()

该类主要有两个方法：

parse：将日志行解析为几个字段
logline_to_dict：将解析好的日志段转为字典类型

一、基于hadoop的nginx访问日志分析---解析日志篇的更多相关文章

四、基于hadoop的nginx访问日志分析---top 10 request
代码: # cat top_10_request.py #!/usr/bin/env python # coding=utf-8 from mrjob.job import MRJob from mr ...
二、基于hadoop的nginx访问日志分析---计算日pv
代码: # pv_day.py#!/usr/bin/env python # coding=utf-8 from mrjob.job import MRJob from nginx_accesslog ...
五、基于hadoop的nginx访问日志分析--userAgent和spider
useragent: 代码(不包含蜘蛛): # cat top_10_useragent.py #!/usr/bin/env python # coding=utf-8 from mrjob.job ...
三、基于hadoop的nginx访问日志分析--计算时刻pv
代码: # cat pv_hour.py #!/usr/bin/env python # coding=utf-8 from mrjob.job import MRJob from nginx_acc ...
快速搭建ELK7.5版本的日志分析系统--搭建篇
title: 快速搭建ELK7.5版本的日志分析系统--搭建篇一.ELK安装部署官网地址:https://www.elastic.co/cn/ 官网权威指南:https://www.elastic ...
【转】阿里巴巴技术专家杨晓明：基于Hadoop技术进行地理空间分析
转自:http://www.csdn.net/article/2015-01-23/2823687-geographic-space-base-Hadoop [编者按]交通领域正产生着海量的车辆位置点 ...
基于ELK进行邮箱访问日志的分析
公司希望能够搭建自己的日志分析系统.现在基于ELK的技术分析日志的公司越来越多,在此也记录一下我利用ELK搭建的日志分析系统. 系统搭建系统主要是基于elasticsearch+logstash+f ...
centos7搭建ELK Cluster集群日志分析平台
应用场景:ELK实际上是三个工具的集合,ElasticSearch + Logstash + Kibana,这三个工具组合形成了一套实用.易用的监控架构, 很多公司利用它来搭建可视化的海量日志分析平台 ...
centos7搭建ELK Cluster集群日志分析平台（一）：Elasticsearch
应用场景: ELK实际上是三个工具的集合,ElasticSearch + Logstash + Kibana,这三个工具组合形成了一套实用.易用的监控架构, 很多公司利用它来搭建可视化的海量日志分析平 ...

随机推荐

SQL SERVER 临时表导致存储过程重编译(recompile)的一些探讨
SQLSERVER为了确保返回正确的值,或者处于性能上的顾虑,有意不重用缓存在内存里的执行计划,而重新编译执行计划的这种行为,被称为重编译(recompile).那么引发存储过程重编译的条件有哪一些呢 ...
[AlwaysOn Availability Groups]DMV和系统目录视图
DMV和系统目录视图这里主要介绍AlwaysON的动态管理视图,可以用来监控和排查你的AG. 在AlwaysOn Dashboard,你可以简单的配置的GUI显示很多可用副本的DMV和可用数据库通过 ...
Mongodb基本数据类型、常用命令之增加、更新、删除
1.null---表示空值或者该字段不存在,如{"name":null} 2.布尔 --- 和java中的布尔一样,有两种:true,false,如{"sex" ...
Android 分享到微信
/** * 分享信息到朋友 * * @param file,假如图片的路径为path,那么file = new File(path); */ private void shareToFriend(Fi ...
Si2155
http://www.edom.com.tw/cn/index.jsp?m=prodview&id=1702 Description:新型的Si2155 电视调谐器IC扩展了Silicon L ...
树莓派搭建ActiveMQ
树莓派上安装ActiveMQ和在其它Linux发行版基本相同,只是在开防火墙端口时有区别. 硬件信息: 树莓派3B型,Raspbian系统安装 //下载ActiveMQ安装包 http:// ...
细说CSS选择器
众所周知,CSS的一个核心特征就是能向文档中的一组元素类型应用某些规则.每个规则都有两个基本部分:选择器(selector)和声明块(declaration block).下图显示了规则的各个部分. ...
一切Web的基础----HTTP
HTTP 是基于 TCP/IP 协议的应用层协议.它不涉及数据包(packet)传输,主要规定了客户端和服务器之间的通信格式,默认使用80端口.HTTP协议基于TCP连接,该协议针对TCP连接上的数据 ...
洛谷P2412 查单词 [trie树 RMQ]
题目背景滚粗了的HansBug在收拾旧英语书,然而他发现了什么奇妙的东西. 题目描述 udp2.T3如果遇到相同的字符串,输出后面的蒟蒻HansBug在一本英语书里面找到了一个单词表,包含N个单词 ...
Jenkins学习四：Jenkins 邮件配置
本文主要对Windows环境 jenkins 的邮件通知进行介绍 jenkins 内置的邮件功能使用email-ext插件扩展的邮件功能邮件通知功能主要包含两个部分:全局配置和项目配置. 一. 先 ...

一、基于hadoop的nginx访问日志分析---解析日志篇

一、基于hadoop的nginx访问日志分析---解析日志篇的更多相关文章

随机推荐

热门专题