Flume安装

介绍

Flume本身的安装比较简单(flume的介绍请参考http://blog.csdn.net/rzhzhz/article/details/7448633),安装前先说明几个概念,先看flume的架构

1.    Flume分三种角色

Mater:  master负责配置及通信管理,是集群的控制器。

Collector: collector用于对数据进行聚合,往往会产生一个更大的流,然后加载到storage中。

Agent: Agent用于采集数据,agent是flume中产生数据流的地方,同时,agent会将产生的数据流传输到collector

2.    Collector和Agent的配置数据必须指定Source(可以理解为数据入口)和Sink(可以理解为数据出口)

常用的source如:

text(“filename”):将文件filename作为数据源,按行发送

tail(“filename”):探测filename新产生的数据,按行发送出去

fsyslogTcp(5140):监听TCP的5140端口,并且接收到的数据发送出去

常用的sink如:

console[("format")] :直接将将数据显示在桌面上

text(“txtfile”):将数据写到文件txtfile中

dfs(“dfsfile”):将数据写到HDFS上的dfsfile文件中

syslogTcp(“host”,port):将数据通过TCP传递给host节点

具体介绍可以参考

http://blog.csdn.net/rzhzhz/article/details/7457956

http://blog.csdn.net/rzhzhz/article/details/7449662

安装

1.    下载解压安装

a)    Flume的下载地址http://archive.cloudera.com/cdh/3/

b)    这里所说的安装包括jdk,flume本身及zookeeper的安装,这里就不再赘述jdk的安装过程。Zookeeper集群安装请参考http://blog.csdn.net/rzhzhz/article/details/7448894

c)     把下载好的flume包解压到相应位置(flume集群每台机器都需安装),以下以$FLUME_HOME代替安装路径,至于以哪个用户安装按本身实际情况而定。

d)    我们暂且先配置一个master,一个collector,一个agent,主机名对应如下

Mater: master

Collector : collector

Agent : agent

2.    配置相关路径

a)    这里要配置相关路径无非也就是因为flume在启动的时候如果依赖到相关软件(如java,hadoop,zookeeper)时会去其根目录下加载jar包和去conf目录下加载配置文件

b)    我习惯在/etc/profile下配置export,当然你也可以去$FLUME_HOME/bin目录下flume-env.sh配置(由flume-env.sh.template改名而成)

配置大致如下(内容仅供参考,加载过程大家可参考$FLUME_HOME/bin/flume脚本内容)

#Java

export  JAVA_HOME=/usr/java/jdk1.6.0_25

export  CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export  PATH=$PATH:$JAVA_HOME/bin

#hadoop

export  HADOOP_HOME=/usr/local/hadoop

export  PATH=$PATH:$HADOOP_HOME/bin

#zookeeper

export  ZOOKEEPER_HOME=/usr/local/zookeeper

export  PATH=$PATH:$ZOOKEEPER_HOME/bin

#flume

export  FLUME_HOME=/usr/local/flume

export  FLUME_CONF_DIR=$FLUME_HOME/conf

export  PATH=$PATH:$FLUME_HOME/bin

3.    修改配置文件

a)    $FLUME_HOME/conf目录下本身有flume-conf.xml和flume-site.xml.template两个文件,flume-conf.xml是默认的配置文件,虽说也可以修改,但不建议修改,用户配置应该在flume-site.xml(由flume-site.xml.template改名而成)文件中(即相当于覆盖flume-conf.xml文件中的原有配置)。flume-site.xml文件应该是针对节点在集群中的不同角色而做不同的修改(详细的配置参数可以参考flume-conf.xml,针对不同角色做了分门别类,一目了然),这里就不具体描述了,可参考http://blog.csdn.net/rzhzhz/article/details/7457956

b)    Collector和Agent的用户配置文件中flume-site.xml必须指定master的地址flume.master.servers,如下:

<property>

<name>flume.master.servers</name>

<value>master</value>

</property>

4.    启动zookeeper集群

a)    这里zookeeper集群会在master的配置文件里配置。

<property>

<name>flume.master.zk.use.external</name>

<value>true</value>

</property>

<property>

<name>flume.master.zk.servers</name>

<value>master:2181,collector:2181,agent:2181</value>

</property>

flume.master.zk.use.external   是否使用外部zookeeper集群

flume.master.zk.servers zookeeper集群地址

b)    如果不配置则使用flume内部提供的zookeeper。flume使用使用zookeeper进行管理和负载均衡.

c)     关于zookeeper保存的master的配置数据是可以配置(flume.master.store)的,可以选择存在zookeeper中(zookeeper),也可以选择存储在内存中(memory)

5.    启动master,collector,Agent

a)    启动master:  flume master

b)    启动node(collector):  flume node_nowatch

c)     启动node(agent):  flume node_nowatch

后两者的启动方式是一样的,只是在配置参数中有所差异

启动node的时候可以选择指定node的名字的参数  -n ,默认为主机名

如(flume node_nowatch –n node1)

6.    查看

a)    Web查看

Master :

http://master:35871/flumemaster.jsp

可以在master页面查看和配置node参数

node :

http://collector:35862/flumeagent.jsp

http://agent:35862/flumeagent.jsp

单机部署的时候,如果启动了多个node,则端口以此增加(如35863,35864)

b)    Shell连接(简略介绍下,更详细的命令请参考help)

flume shell

collect master

7.    在master修改节点配置

a)    这里我们其实可以这样先易后难,不要一开始就弄复杂的配置,这样很难定位错误,还有flume本身的错误基本就是在控制台输出,这与我们的调试思路有点违背,我们一般的查错首先都会想到日志文件,但它的日志文件实在是没什么东西

b)    配置界面大致如下

当然你也可以在shell端配置,此处就不多做介绍。

Web界面配置步骤如下

首先选择configure node选择要选择的node,或者指定不存在于list中的节点(or specify another node)

配置source

配置sink

提交

提交之后可以在master的界面查看是否成功,大致如下图

c)     Collector配置

SOURCE: collectorSource(35853)

监听35853端口,接受agent发送的消息

SINK: collectorSink("file:///tmp/flume/collected","sink")

将数据加载到文件中

d)    Agent配置

SOURCE: console

从控制台接受输入

SINK: agentE2ESink( "collector",35853 )

指定collector的名字及端口

下面简单介绍一下调试流程

首先我们可以这么配置 先配置最简单的source ,console(控制台输入)

最简单的sink,collectorSink("file:///tmp/flume/collected", "file")

然后看file:///tmp/flume/collected文件目录下是否有控制台输入的内容

调试成功后说明agent与collector是相通的。

再把source换成text或者其他再做调试

最后把sink换成hdfs或者hbase什么的

8.    配置生效(自动),查看结果

flume安装及配置的更多相关文章

  1. Flume简介与使用(一)——Flume安装与配置

    Flume简介与使用(一)——Flume安装与配置 Flume简介 Flume是一个分布式的.可靠的.实用的服务——从不同的数据源高效的采集.整合.移动海量数据. 分布式:可以多台机器同时运行采集数据 ...

  2. CentOS6安装各种大数据软件 第七章:Flume安装与配置

    相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础 ...

  3. flume安装及配置介绍(二)

    注: 环境: skylin-linux Flume的下载方式: wget http://www.apache.org/dyn/closer.lua/flume/1.6.0/apache-flume-1 ...

  4. Flume 安装和配置

    安装步骤 1.安装jdk,1.6版本以上 2.上传flume的安装包 3.解压安装 4.在conf目录下,创建一个配置文件,比如:template.conf(名字可以不固定,后缀也可以不固定) 5.配 ...

  5. CentOS6安装各种大数据软件 第九章:Hue大数据可视化工具安装和配置

    相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础 ...

  6. CentOS6安装各种大数据软件 第八章:Hive安装和配置

    相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础 ...

  7. Flume的安装与配置

    Flume的安装与配置 一.       资源下载 资源地址:http://flume.apache.org/download.html 程序地址:http://apache.fayea.com/fl ...

  8. 具体说明 Flume介绍、安装和配置

    社论: 本文总结"Hadoop生态系统"中的当中一员--Apache Flume 写在前面二: 所用软件说明: 一.什么是Apache Flume 官网:Flume is a di ...

  9. 3.flume安装以及环境配置

    1.安装jdk 我这里已经安装过了,这里就不演示了 2.安装flume 安装cdh版本的,http://archive.cloudera.com/cdh5/cdh/5/ 安装完毕之后,配置环境变量. ...

随机推荐

  1. C 这些东西的内存管理

    一.内存介绍 本文主要介绍C内存管理基本概念,以及C语言编译后的可执行程序的存储结构和执行结构. 在用户存储空间,一个C程序的在内存中的分配分类5大部分:代码段.全局已初始化数据段.bss段.堆和栈. ...

  2. Crazy Rows

    Problem You are given an N x N matrix with 0 and 1 values. You can swap any two adjacent rows of the ...

  3. Effective C++ 7

    7.预先准备足够的内存情况. new当内存分配请求无法完成,它会抛出一个异常,怎么办异常,这是一个非常现实的,绝对必要的所遇到的问题后. 于c一般使用宏来分配内存和测试分发成功.c++中产阶级似下面的 ...

  4. s3c2440 的 rtc 操作

    实时时钟(RTC)其主要功能是电源故障的制度下,使用后备电源,时钟继续.为了不浪费时间信息. s3c2440内部集成了RTC模块,并且用起来也十分简单. 其内部的寄存器BCDSEC,BCDMIN,BC ...

  5. [ 单例、代理 & 通知 ]

    PS:手写单例.代理方法实现 & 通知的简单使用! [ 单例模式,代理设计模式,观察者模式! ] 设计模式(Design pattern)是一套被反复使用.多数人知晓的.经过分类编目的.代码设 ...

  6. jquery 调用wcf 的SOA架构,将三层架构运用到SOA的架构中来(第四天)

    经过前面3天的学习,我想大家应该对SOA的架构有了初步的了解,其实 SOA与三层架构并不冲突,而是三层架构的升级版. 来看下传统的三层架构! 一共可以分为4个层: 模型层(可有可无),客户端,服务端, ...

  7. 【百度地图API】如何实现信息窗口轮询

    原文:[百度地图API]如何实现信息窗口轮询 摘要: 很多微博或者SNS开发者,想结合地图展示用户的微博或者状态.这时,利用信息窗口就是最好的展示方式了. 在这里,我们使用信息窗口轮询的方式来实现这一 ...

  8. Android_开发人员经常使用的颜色

    Android开发中经常要用一些个性化的颜色,然而茫茫的RBG颜色对比表,往往给人眼花缭乱的感觉,更别说从中轻易选出一两种比較惬意的颜色,以下我就总结一下开发中经常使用到的比較绚丽的颜色. 以下是经常 ...

  9. 深入理解C指针之二:C内存管理

    原文:深入理解C指针之二:C内存管理 内存管理对所有程序来说都很重要.有时候内存由运行时系统隐式的管理,比如为变量自动分配内存.在这种情况下,变量分配在它所处的函数的栈帧上(每个函数都有它自己的栈帧, ...

  10. TDD

    初识TDD 首先说一下名词解释,TDD,英文名称Test-Driven Development,中文名称测试驱动开发,简单的断下句“测试/驱动/开发”,简单的理解一下,就是测试驱动着开发,大白话就是说 ...