分布式日志收集系统--Chukwa

1. 安装部署

1.1 环境要求

1.使用的JDK的版本必须是1.6或者更高版本，本实例中使用的是JDK1.6

2.使用的hadoop的版本必须是Hadoop0.20.205.1及以上版本，本实例中使用的是Hadoop1.0.1版本。

3.为了运行HICC，需要使用HBase0.90.4版本

1.2 版本选择

　　这里使用0.5版本

1.3 执行步骤

1.首先下载的chukwa的版本是0.5版本，下载链接如下：

http://labs.renren.com/apache-mirror/incubator/chukwa/chukwa-0.5.0/

下载如下的两个文件：

chukwa-incubating-0.5.0.tar.gz

chukwa-incubating-src-0.5.0.tar.gz

将如上的两个gz文件进行解压缩，

2.然后将chukwa-incubating-src-0.5.0下的conf目录和script目录拷贝到

chukwa-incubating-0.5.0目录下，并将chukwa-incubating-0.5.0重命名为chukwa

1.3 目录规范

程序目录

 tar -zxvf chukwa-incubating-0.5.0.tar.gz -C /usr/local/cloud/src/

 cd /usr/local/cloud/

 ln -s -f /usr/local/cloud/src/chukwa-incubating-0.5.0 chukua

数据目录

 mkdir /data/logs/chukwa

 mkdir /data/pids/chukwa

1.4 修改配置

 vim /etc/profile

 export CHUKWA_HOME=/usr/local/cloud/chukwa

 export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$CHUKWA_HOME/bin:$PATH

 source /etc/profile

代理器配置

使用 $CHUKWA/etc/chukwa/agents 指定代理器地址

#配置代理这里介绍单机模式

localhost

使用 $CHUKWA/etc/chukwa/chukwa-agent-conf.xml 配置代理器参数

 <!-- 设置轮询检测文件内容变化的间隔时间  -->

 <property>

     <name>chukwaAgent.adaptor.context.switch.time</name>

     <value>5000</value>

 </property>

 <!-- 设置读取文件增量内容的最大值  -->

 <property>

     <name>chukwaAgent.fileTailingAdaptor.maxReadSize</name>

     <value>2097152</value>

 </property>

收集器配置

使用 $CHUKWA/etc/chukwa/collectors 指定收集器地址

 # 单机部署的情况下与agents相同

 localhost

使用 $CHUKWA /etc/chukwa/chukwa-collector-conf.xml 配置收集器参数

 <!-- Chukwa 0.5 版本添加了写入到HBase的实现, 如果不需要则应恢复默认 -->

 <!-- Sequence File Writer parameters -->

 <property>

     <name>chukwaCollector.pipeline</name>

     <value>org.apache.hadoop.chukwa.datacollection.writer.SocketTeeWriter,org.apache.hadoop.chukwa.datacollection.writer.Se#

 </property>

 <!-- 设置服务端地址  -->

 <property>

     <name>writer.hdfs.filesystem</name>

     <value>hdfs://hadooptest:9000</value>

 </property>

全局配置

 # 在 $CHUKWA_HOME/etc/chukwa/chukwa-env.sh 添加或修改如下项

 export JAVA_HOME=/usr/java/default

 export CLASSPATH=.:$JAVA_HOME/lib

 export HADOOP_HOME=/usr/local/cloud/hadoop

 export CHUKWA_HOME=/usr/local/cloud/chukua

 export CHUKWA_CONF_DIR=${CHUKWA_HOME}/etc/chukwa

 export CHUKWA_PID_DIR=/data/pids/chukwa

 export CHUKWA_LOG_DIR=/data/logs/chukwa

监测文件设置

 # 在 $CHUKWA_HOME/etc/chukwa/initial_adaptors 中添加要监测的日志文件, 但一般使用 telnet 链接到服务端的方式添加

 # 格式为 add [name =] <adaptor_class_name> <datatype> <adaptor specific params> <initial offset>

 # 依次为: 监测接口的实现类 数据类型 起始点 日志文件 已收集的文件大小

 add filetailer.CharFileTailingAdaptorUTF8 typeone 0 /data/logs/web/typeone.log 0

 add filetailer.CharFileTailingAdaptorUTF8 typetwo 0 /data/logs/web/typetwo.log 0

2 启动服务

2.1 启动收集器进程

 cd $CHUKWA_HOME/

 sbin/start-collectors.sh

2.2 启动代理器进程

sbin/start-agents.sh

2.3 启动数据处理进程

 sbin/start-data-processors.sh

 [hadoop@hadooptest chukua]$ sbin/start-collectors.sh

 localhost: starting collector, logging to /data/logs/chukwa/chukwa-hadoop-collector-hadooptest.out

 localhost: WARN: option chukwa.data.dir may not exist; val = /chukwa

 localhost: Guesses:

 localhost:  chukwaRootDir null

 localhost:  fs.default.name URI

 localhost:  nullWriter.dataRate Time

 localhost: WARN: option chukwa.tmp.data.dir may not exist; val = /chukwa/temp

 localhost: Guesses:

 localhost:  chukwaRootDir null

 localhost:  nullWriter.dataRate Time

 localhost:  chukwaCollector.tee.port Integral

 [hadoop@hadooptest chukua]$ sbin/start-agents.sh

 localhost: starting agent, logging to /data/logs/chukwa/chukwa-hadoop-agent-hadooptest.out

 localhost: OK chukwaAgent.adaptor.context.switch.time [Time] = 5000

 localhost: OK chukwaAgent.checkpoint.dir [File] = /data/logs/chukwa/

 localhost: OK chukwaAgent.checkpoint.interval [Time] = 5000

 localhost: WARN: option chukwaAgent.collector.retries may not exist; val = 144000

 localhost: Guesses:

 localhost:  chukwaAgent.connector.retryRate Time

 localhost:  chukwaAgent.sender.retries Integral

 localhost:  chukwaAgent.control.remote Boolean

 localhost: WARN: option chukwaAgent.collector.retryInterval may not exist; val = 20000

 localhost: Guesses:

 [hadoop@hadooptest chukua]$ sbin/start-data-processors.sh

 starting archive, logging to /data/logs/chukwa/chukwa-hadoop-archive-hadooptest.out

 starting demux, logging to /data/logs/chukwa/chukwa-hadoop-demux-hadooptest.out

 starting dp, logging to /data/logs/chukwa/chukwa-hadoop-dp-hadooptest.out

 [hadoop@hadooptest chukua]$

3 收集测试

3.1 构造测试数据

 # 在 /data/logs/web/webone 中写入如下测试日志

 - 10.0.0.10 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa0.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 10.0.0.11 [17/Oct/2011:23:20:41 +0800] GET /img/chukwa1.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 10.0.0.12 [17/Oct/2011:23:20:42 +0800] GET /img/chukwa2.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 10.0.0.13 [17/Oct/2011:23:20:43 +0800] GET /img/chukwa3.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 10.0.0.14 [17/Oct/2011:23:20:44 +0800] GET /img/chukwa4.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 10.0.0.15 [17/Oct/2011:23:20:45 +0800] GET /img/chukwa5.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 10.0.0.16 [17/Oct/2011:23:20:46 +0800] GET /img/chukwa6.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 10.0.0.17 [17/Oct/2011:23:20:47 +0800] GET /img/chukwa7.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 10.0.0.18 [17/Oct/2011:23:20:48 +0800] GET /img/chukwa8.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 10.0.0.19 [17/Oct/2011:23:20:49 +0800] GET /img/chukwa9.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 # 在 /data/logs/web/webtwo 中写入如下测试日志

 - 192.168.0.10 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa0.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 192.168.0.11 [17/Oct/2011:23:21:40 +0800] GET /img/chukwa1.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 192.168.0.12 [17/Oct/2011:23:22:40 +0800] GET /img/chukwa2.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 192.168.0.13 [17/Oct/2011:23:23:40 +0800] GET /img/chukwa3.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 192.168.0.14 [17/Oct/2011:23:24:40 +0800] GET /img/chukwa4.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 192.168.0.15 [17/Oct/2011:23:25:40 +0800] GET /img/chukwa5.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 192.168.0.16 [17/Oct/2011:23:26:40 +0800] GET /img/chukwa6.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 192.168.0.17 [17/Oct/2011:23:27:40 +0800] GET /img/chukwa7.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 192.168.0.18 [17/Oct/2011:23:28:40 +0800] GET /img/chukwa8.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

 - 192.168.0.19 [17/Oct/2011:23:29:40 +0800] GET /img/chukwa9.jpg HTTP/1.0 "" "" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

3.2 模拟WEB日志

 # 在 /data/logs/web/weblogadd.sh 中写入如下内容

 #!/bin/bash

 cat /data/logs/web/webone >> /data/logs/web/typeone.log

 cat /data/logs/web/webtwo >> /data/logs/web/typetwo.log

 # 设置脚本文件可执行

 chmod +x weblogadd.sh

 # 在 /etc/crontab 中添加定时任务以模拟WEB日志生成

 */1 * * * * hadoop /data/logs/web/weblogadd.sh

3.3 添加日志监控

 # 链接到服务端的 telnet 服务

 telnet hadooptest 9093

 add org.apache.hadoop.chukwa.datacollection.adaptor.filetailer.CharFileTailingAdaptorUTF8 typeone 0 /data/logs/web/typeone.log 0

 add org.apache.hadoop.chukwa.datacollection.adaptor.filetailer.CharFileTailingAdaptorUTF8 typetwo 0 /data/logs/web/typetwo.log 0

参见：http://hi.baidu.com/zhangxinandala/item/db5d8adc22bab0d5241f4017

http://hadoop.readthedocs.org/en/latest/Hadoop-Chukwa.html#id3

分布式日志收集系统--Chukwa的更多相关文章

分布式日志收集系统Apache Flume的设计详细介绍
问题导读: 1.Flume传输的数据的基本单位是是什么? 2.Event是什么,流向是怎么样的? 3.Source:完成对日志数据的收集,分成什么打入Channel中? 4.Channel的作用是什么 ...
Flume -- 开源分布式日志收集系统
Flume是Cloudera提供的一个高可用的.高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地.这里的日志是一个统称,泛指文件.操作记录等许多数据. 一.Flum ...
分布式日志收集系统- Cloudera Flume 介绍
Flume是Cloudera提供的日志收集系统,具有分布式.高可靠.高可用性等特点,对海量日志采集.聚合和传输, Flume支持在日志系统中定制各类数据发送方, 同时,Flume提供对数据进行 ...
分布式日志收集系统：Flume
Flume知识点: Event 是一行一行的数据 1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去. 2.flume里面有个核心概念,叫做agent.agent是一个java进程,运 ...
Flume分布式日志收集系统
1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去.2.flume里面有个核心概念,叫做agent.agent是一个java进程,运行在日志收集节点.通过agent接收日志,然后暂存起 ...
flume分布式日志收集系统操作
1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去. 2.flume里面有个核心概念,叫做agent.agent是一个java进程,运行在日志收集节点. 3.agent里面包含3个核心 ...
分布式日志收集系统 —— Flume
一.Flume简介 Apache Flume 是一个分布式,高可用的数据收集系统.它可以从不同的数据源收集数据,经过聚合后发送到存储系统中,通常用于日志数据的收集.Flume 分为 NG 和 OG ( ...
分布式日志收集收集系统：Flume(转)
Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统.支持在系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力.Fl ...
Flume日志收集系统架构详解--转
2017-09-06 朱洁大数据和云计算技术任何一个生产系统在运行过程中都会产生大量的日志,日志往往隐藏了很多有价值的信息.在没有分析方法之前,这些日志存储一段时间后就会被清理.随着技术的发展和 ...

随机推荐

LeetCode 231
Power of Two Given an integer, write a function to determine if it is a power of two. /************* ...
关于Eclipse生成和导入Patch文件.
& 生成的文件如下: 如果系统对这个patch文件有识别的话是一个带有问号的icon文件. diff --git a/main/plugins/org.talend.designer.core ...
hdu 4340 树状DP
思路:我们定义两个数组,ant[Maxn][2],bob[Maxn][2].ant[i][0]表示还未确定哪个城市被全费用占领,ant[i][1]表示确定了哪个城市被全费用占领.那么ant[i][0] ...
poj2243
Knight Moves Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 13433 Accepted: 7518 Des ...
7月15日学习之BOM
setTimeout() //延时器,只执行一次代码 clearTimeout() //清除演示器 setIntervla() //定时器,根据指定时间间隔执行一次代码 clearInterval() ...
使用C#动态生成Word文档/Excel文档的程序测试通过后，部署到IIS服务器上，不能正常使用的问题解决方案
使用C#动态生成Word文档/Excel文档的程序功能调试.测试通过后,部署到服务器上,不能正常使用的问题解决方案: 原因: 可能asp.net程序或iis访问excel组件时权限不够(Ps:Syst ...
让无线网卡同时工作在 AP 和 STA 模式
这个帖子里的方法有点过时了,不推荐继续使用. 有的时候会碰到这么一种情况,带着电脑和手机出去蹭网,无奈只有一个账号,手机上了电脑就没得用了,电脑用了手机就上不了网.如果能用电脑连接 Wifi 然后再开 ...
分析Android程序之破解第一个程序
破解Android程序通常的方法是将apk文件利用ApkTool反编译,生成Smali格式的反汇编代码,然后阅读Smali文件的代码来理解程序的运行机制,找到程序的突破口进行修改,最后使用ApkToo ...
【SQLServer】使用T-SQL访问远程数据库：openrowset 和 openquery 以及连接服务器的创建
█ 启用/关闭Ad Hoc Distributed QueriesAd Hoc Distributed Queries服务默认是关闭的,要使用openrowset 和 openquery访问远程数据库 ...
Oracle中NVARCHAR2字符集不匹配问题
Oracle中在做字符匹配时遇到 NVARCHAR2 类型时报错,提示字符集不匹配. 对使用 NVARCHAR2 的地方,需要对字段进行字符转换,加上 to_char(nvarchar2 字段) ...