Pentaho Work with Big Data（五）—— 格式化原始web日志

本演示样例说明怎样使用Pentaho MapReduce把原始web日志解析成格式化的记录。

一、向HDFS导入演示样例数据文件

将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/文件夹下（因资源有限，本演示样例仅仅取了这个文件的前10行数据）

參考：http://blog.csdn.net/wzy0623/article/details/51133760

二、建立一个用于Mapper的转换

1. 新建一个转换，如图1所看到的。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

图1

2. 编辑'MapReduce Input'步骤，如图2所看到的。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

图2

3. 编辑'Regex Evaluation'步骤，如图3所看到的。

图3

说明：

. “正則表達式”里面填写例如以下内容：

^([^\s]{7,15})\s            # client_ip

-\s                         # unused IDENT field

-\s                         # unused USER field

\[((\d{2})/(\w{3})/(\d{4})  # request date dd/MMM/yyyy

:(\d{2}):(\d{2}):(\d{2})\s([-+ ]\d{4}))\]

                            # request time :HH:mm:ss -0800

\s"(GET|POST)\s             # HTTP verb

([^\s]*)                     # HTTP URI

\sHTTP/1\.[01]"\s           # HTTP version

(\d{3})\s                   # HTTP status code

(\d+)\s                     # bytes returned

"([^"]+)"\s                 # referrer field

"                           # User agent parsing, always quoted.

"?

# Sometimes if the user spoofs the user_agent, they incorrectly quote it.

(                           # The UA string

  [^"]*?

# Uninteresting bits

  (?:

    (?

:

     rv:                    # Beginning of the gecko engine version token

     (?=[^;)]{3,15}[;)])    # ensure version string size

     (                      # Whole gecko version

       (\d{1,2})                   # version_component_major

       \.(\d{1,2}[^.;)]{0,8})      # version_component_minor

       (?

:\.(\d{1,2}[^.;)]{0,8}))? # version_component_a

       (?:\.(\d{1,2}[^.;)]{0,8}))?

# version_component_b

     )

     [^"]*                  # More uninteresting bits

    )

   |

    [^"]*                   # More uninteresting bits

  )

)                           # End of UA string

"?

"

. “捕获组(Capture Group)字段”例如以下所看到的，全部字段都是String类型

client_ip

full_request_date

day

month

year

hour

minute

second

timezone

http_verb

uri

http_status_code

bytes_returned

referrer

user_agent

firefox_gecko_version

firefox_gecko_version_major

firefox_gecko_version_minor

firefox_gecko_version_a

firefox_gecko_version_b

4. 编辑'Filter Rows'步骤，如图4所看到的。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

图4

5. 编辑'Value Mapper'步骤。如图5所看到的。

图5

6. 编辑'User Defined Java Expression'步骤，如图6所看到的。

图6

说明：“Java Expression”列填写例如以下内容：

client_ip + '\t' + full_request_date + '\t' + day + '\t' + month + '\t' + month_num + '\t' + year + '\t' + hour + '\t' + minute + '\t' + second + '\t' + timezone + '\t' + http_verb + '\t' + uri + '\t' + http_status_code + '\t' + bytes_returned + '\t' + referrer + '\t' + user_agent

7. 编辑'MapReduce Output'步骤，如图7所看到的。

图7

将转换保存为weblog_parse_mapper.ktr

三、建立一个调用MapReduce步骤的作业，使用mapper转换，仅执行map作业

1. 新建一个作业，如图8所看到的。

图8

2. 编辑'Pentaho MapReduce'作业项。如图9到图11所看到的。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

图9

图10

图11

说明：

. 仅仅须要编辑“Mapper”、“Job Setup”和“Cluster”三个标签

. hadoop_local是已经建立好的Hadoop Clusters连接。设置如图12所看到的

图12

建立过程參考http://blog.csdn.net/wzy0623/article/details/51086821。

将作业保存为weblogs_parse_mr.kjb

四、运行作业并验证输出

1. 启动hadoop集群

# 启动HDFS

$HADOOP_HOME/sbin/start-dfs.sh

# 启动yarn

$HADOOP_HOME/sbin/start-yarn.sh

# 启动historyserver

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver

2. 运行作业，日志如图13所看到的。

图13

从图13能够看到，作业已经成功运行。

3. 检查Hadoop的输出文件。结果如图14所看到的。

图14

从图14能够看到，/user/grid/parse文件夹下生成了名为part-00000和part-00001的两个输出文件。

參考：

http://wiki.pentaho.com/display/BAD/Using+Pentaho+MapReduce+to+Parse+Weblog+Data

Pentaho Work with Big Data（五）—— 格式化原始web日志的更多相关文章

[书籍翻译] 《JavaScript并发编程》第五章使用Web Workers
本文是我翻译<JavaScript Concurrency>书籍的第五章使用Web Workers,该书主要以Promises.Generator.Web workers等技术来讲解Ja ...
20145216 20145330 《信息安全系统设计基础》实验五简单嵌入式WEB 服务器实验
20145216 20145330 <信息安全系统设计基础> 实验五简单嵌入式WEB 服务器实验实验报告封面实验步骤 1.阅读理解源码进入/arm2410cl/exp/basic/ ...
web接入层传入参数的格式化及web返回值传出数据的参数格式化，都要统一
1.web接入层传入参数的格式化及web返回值传出数据的参数格式化,都要统一. 比如acSpace中, 传入层参数@RequestBody javaBean对象.统一转换为javabean传入参数. ...
第三百三十五节，web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码
第三百三十五节,web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码打码接口文件 # -*- coding: cp936 -*- import sys import os ...
微服务迁移记（五）：WEB层搭建(3)-FreeMarker集成
一.redis搭建二.WEB层主要依赖包三.FeignClient通用接口以上三项,参考<微服务迁移记(五):WEB层搭建(1)> 四.SpringSecurity集成参考:< ...
20145208《信息安全系统设计基础》实验五简单嵌入式WEB 服务器实验
20145208<信息安全系统设计基础>实验五简单嵌入式WEB 服务器实验 20145208<信息安全系统设计基础>实验五简单嵌入式WEB 服务器实验
20145210 20145226 《信息安全系统设计基础》实验五简单嵌入式WEB服务器实验
20145210 20145226 <信息安全系统设计基础>实验五简单嵌入式WEB服务器实验结对伙伴:20145226 夏艺华实验报告封面实验目的与要求 · 掌握在ARM开发板实现 ...
20145221 《信息安全系统设计基础》实验五简单嵌入式WEB服务器实验
20145221 <信息安全系统设计基础>实验五简单嵌入式WEB服务器实验实验报告队友博客:20145326蔡馨熠实验博客:<信息安全系统设计基础>实验五简单嵌入式W ...
20145303 20145339 《信息安全系统设计基础》实验五简单嵌入式WEB服务器实验
20145303 20145339 <信息安全系统设计基础> 实验五简单嵌入式WEB服务器实验实验目的与要求 1.掌握在ARM开发板实现一个简单WEB服务器的过程 2.学习在ARM开发 ...

随机推荐

四则运算出题系统，java
程序设计思想: 首先通过判断选择计算的范围,然后用随机数生成两个随机数,定义另一个数,将两个随机数计算得到的值赋给定义的数程序代码: package Kaos1; import java.util. ...
JavaScript 笔记(7) -- 在HTML中嵌入 js （外部引用）
本节主要说明,在HTML中嵌入自定义 JavaScript.通过HTML的script标签加载JavaScript文件为防止网页加载缓慢,也可以把非关键的JavaScript放到网页底部,例如下面的 ...
spring rest 请求怎样添加Basic Auth请求頭
请自行揣摩代码 package com.hudai.platform.manager.util; import java.net.URI; import java.net.URISyntaxExcep ...
POJ 1236 Network of Schools Tarjan缩点
Network of Schools Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 22729 Accepted: 89 ...
Java学习之路（3）
JKD的安装和配置: 一.适合超级菜鸟的,不用设置系统路径,不用到处找插件 (1)如果你的系统是windows或linux,根据系统的不同(32位和64位之分),先到www.baidu.com搜索jd ...
hdu 4524(模拟)
郑厂长系列故事——逃离迷宫 Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Others)Tot ...
牛客网牛客小白月赛2 C.真真假假-String遍历比较
C.真真假假链接:https://www.nowcoder.com/acm/contest/86/C 这个题真的是无敌的水,但是自己写前面的string数组的时候,里面的这些头文件要用双引号(&qu ...
FZU 1077 铁皮容器【枚举/二分】
Accept: 1040 Submit: 2314Time Limit: 1000 mSec Memory Limit : 32768 KB Problem Description 使用白 ...
【ActiveMQ】1.下载安装启动使用
官网下载:http://activemq.apache.org/activemq-5121-release.html 官网指导文档:http://activemq.apache.org/version ...
weblogic的集群与配置图文方法
一.Weblogic的集群还记得我们在第五天教程中讲到的关于Tomcat的集群吗? 两个tomcat做node即tomcat1, tomcat2,使用Apache HttpServer做请求派发 ...

Pentaho Work with Big Data（五）—— 格式化原始web日志

Pentaho Work with Big Data（五）—— 格式化原始web日志的更多相关文章

随机推荐

热门专题