使用Hive的正则解析器RegexSerDe分析nginx日志

1、环境：

hadoop-2.6.0 + apache-hive-1.2.0-bin

2、使用Hive分析nginx日志，站点的訪问日志部分内容为：

cat /home/hadoop/hivetestdata/nginx.txt

192.168.1.128 - - [09/Jan/2015:12:38:08 +0800] "GET /avatar/helloworld.png HTTP/1.1" 200 1521 "http://write.blog.csdn.net/postlist" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36"

183.60.212.153 - - [19/Feb/2015:10:23:29 +0800] "GET /o2o/media.html?menu=3 HTTP/1.1" 200 16691 "-" "Mozilla/5.0 (compatible; EasouSpider; +http://www.easou.com/search/spider.html)"

这条日志里面有九列，每列之间是用空格切割的，

每列的含义各自是client訪问IP、用户标识、用户、訪问时间、请求页面、请求状态、返回文件的大小、跳转来源、浏览器UA。

我们使用Hive中的正則表達式匹配这九列：

([^ ]*) ([^ ]*) ([^ ]*) (\[.*\]) (\".*?\") (-|[0-9]*) (-|[0-9]*) (\".*?\") (\".*?\")

于此同一时候我们能够在Hive中指定解析文件的序列化和反序列化解析器(SerDe)，而且在Hive中内置了一个org.apache.hadoop.hive.serde2.RegexSerDe正则解析器，我们能够直接使用它。

3、建表语句

CREATE TABLE logs

(

host STRING,

identity STRING,

username STRING,

time STRING,

request STRING,

status STRING,

size STRING,

referer STRING,

agent STRING

)

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'

WITH SERDEPROPERTIES (

"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\".*?

\") (-|[0-9]*) (-|[0-9]*) (\".*?\") (\".*?

\")",

"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"

)

STORED AS TEXTFILE;

4、载入数据：

load data local inpath '/home/hadoop/hivetestdata/nginx.txt' into table logs;



查询每小时的訪问量超过100的IP地址：

select substring(time, 2, 14) datetime ,host, count(*) as count

from logs

group by substring(time, 2, 14), host

having count > 100

sort by datetime, count;

使用Hive的正则解析器RegexSerDe分析nginx日志的更多相关文章

利用Hive分析nginx日志
这里用到的nginx日志是网站的访问日志,比如日志格式: 180.173.250.74 - - [08/Jan/2015:12:38:08 +0800] "GET /avatar/xxx.p ...
hive分析nginx日志之UDF清洗数据
hive分析nginx日志一:http://www.cnblogs.com/wcwen1990/p/7066230.html hive分析nginx日志二:http://www.cnblogs.com ...
烂泥：利用awstats分析nginx日志
本文由ilanniweb提供友情赞助,首发于烂泥行天下想要获得更多的文章,可以关注我的微信ilanniweb 昨天把nginx的日志进行了切割,关于如何切割nginx日志,可以查看<烂泥:切割 ...
elk平台分析nginx日志的基本搭建
一.elk套件介绍 ELK 由 ElasticSearch . Logstash 和 Kiabana 三个开源工具组成.官方网站: https://www.elastic.co/products El ...
一天，python搞个分析NGINX日志的脚本
准备给ZABBIX用的. 统计接口访问字次,平均响应时间,4XX,5XX次数以后可以再改进.. #!/usr/bin/env python # coding: utf-8 ############# ...
elk实战分析nginx日志文档
elk实战分析nginx日志文档架构: kibana <--- es-cluster <--- logstash <--- filebeat 环境准备:192.168.3.1 no ...
利用python分析nginx日志
最近在学习python,写了个脚本分析nginx日志,练练手.写得比较粗糙,但基本功能可以实现. 脚本功能:查找出当天访问次数前十位的IP,并获取该IP来源,并将分析结果发送邮件到指定邮箱. 实现前两 ...
awstat分析nginx日志
awstat分析nginx日志 http://lxw66.blog.51cto.com/5547576/1323712 server{ listen ; server_name localhost; ...
shell脚本分析nginx日志
shell脚本分析nginx日志: name=`awk -F ',' '{print $13":"$32}' $file | awk -F ':' '{print $4}'`ech ...

随机推荐

Kafka详解与总结(三)
Kafka分片存储机制几个kafka重要概念: Broker:消息中间件处理结点,一个Kafka节点就是一个broker,多个broker可以组成一个Kafka集群. Topic:一类消息,例如pa ...
javascript中for...in和for...of的区别
for...of循环是ES6引入的新的语法. for...in遍历拿到的x是键(下标).而for...of遍历拿到的x是值,但在对象中会提示不是一个迭代器报错.例子如下: let x; let a = ...
JavaScript--引用JS外部文件
通过前面知识学习,我们知道使用<script>标签在HTML文件中添加JavaScript代码,如图: JavaScript代码只能写在HTML文件中吗?当然不是,我们可以把HTML文件和 ...
Map，Filter 和 Reduce
Map会将一个函数映射到一个输入列表的所有元素上 map(function_to_apply, list_of_inputs) items = [1, 2, 3, 4, 5] squared = li ...
BZOJ 4140 凸包+二进制分组
思路: $(x_0-x)^2+(y_0-y)^2<=x^2+y^2$ $y>=(-x_0/y_0)x+(x_0^2+y_0^2)/2y0$ 这显然就是凸包了以一个斜率不断向下(上)走 ...
[ BZOJ 4318 & 3450 / CodeForces 235 B ] OSU!
$\\$ $Description$ 一共进行$N$次操作,生成一个长度为$N$的$01$序列,成功对应$1$,失败对应$0$,已知每一次操作的成功率$p_i$. 在这 ...
tp5.0分页样式调控
基础的分页调用 /** * 控制器部分代码 */ //实例化模型 $areasModel=new Areas(); //分页数据集 $listarea=$areasModel->paginate ...
如何成为一名出色的Oracle数据库管理员
主要针对Oracle DBA在成长阶段的定位,学习方法等几大方面进行了经典的论述,详细内容请参考下文. 一.定位 Oracle分两大块,一块是开发,一块是管理.开发主要是写写存储过程.触发器什么的,还 ...
JS——三元表达式
三元表达式: var n1 = 2 > 3 ? true : false; alert(n1);//返回false
easyui 使用笔记
http://www.easyui.info/archives/1435.html datagrid 服务端分页服务端分页,高效,快捷!强力推荐! easyui的datagrid服务端分页,通过设置 ...

使用Hive的正则解析器RegexSerDe分析nginx日志

使用Hive的正则解析器RegexSerDe分析nginx日志的更多相关文章

随机推荐

热门专题