Flume 1.4.0 User Guide 地址:http://archive.cloudera.com/cdh4/cdh/4/flume-ng-1.4.0-cdh4.6.0/FlumeUserGuide.html

本文档主要用来记录如何在日志服务器和hdfs服务器端利用flume-ng将已经写好的日志传输到hdfs。

一 安装与环境配置

下载地址  http://archive.cloudera.com/cdh4/cdh/4/flume-ng-latest.tar.gz ,使用chd4版本。

解压到服务器目录。

配置JAVA_HOME和PATH (具体路径参考实际情况)

declare -x JAVA_HOME="/usr/java/default"

export PATH=$JAVA_HOME:$PATH

export PATH=/home/dongxiao.yang/apache-flume-1.4.0-cdh4.6.0-bin/bin:$PATH

二   程序参数配置

flume-ng的程序参数主要通过修改各种配置文件实现。 (具体路径参考实际情况)

1 flume-ng默认程序最大内存为20m,打开解压文件路径下的/home/dongxiao.yang/apache-flume-1.4.0-cdh4.6.0-bin/conf/flume-env.sh.template文件

修改如下一行

#JAVA_OPTS="-Xms100m -Xmx200m -Dcom.sun.management.jmxremote"

改为

JAVA_OPTS="-Xms64m -Xmx300m -Dcom.sun.management.jmxremote"

将flume-env.sh.template重命名为flume-env.sh使配置生效。

2 配置source channel sink。

服务器端的配置文件conf.properties

日志服务器端的配置文件conf.properties
#define agent1
agent1.sources = source1
agent1.channels = channel1
agent1.sinks = sink1
#Describe the source
agent1.sources.source1.type = spooldir
# source 读取源日志的路径
agent1.sources.source1.spoolDir = /home/dongxiao.yang/flumespool 
#agent1.sources.source1.fileHeader =true
 
#Describe the sink
#agent1.sinks.sink1.type = logger
agent1.sinks.sink1.type = avro
#avro sink 发送数据的地址和端口
agent1.sinks.sink1.hostname= 218.241.157.74
agent1.sinks.sink1.port = 10000
# avro 数据发送前会进行压缩,共有19个级别的压缩
agent1.sinks.sink1.compression-type = deflate
 
#Describe the channel
agent1.channels.channel1.type = file
#file channle checkpoint文件的路径
agent1.channels.channel1.checkpointDir = /home/dongxiao.yang/checkpoint
# file channel data文件的路径
agent1.channels.channel1.dataDirs = /home/dongxiao.yang/data
# file channel 每次传输事件的个数
agent1.channels.channel1.transactionCapacity = 10000
#file channel 最多储存事件的个数
agent1.channels.channel1.capacity= 10000000
 
 
#Bind the source and sink to the channel
agent1.sources.source1.channels = channel1
agent1.sinks.sink1.channel = channel1
hdfs端的conf.properties
#define
agent1.sources = source1
agent1.channels = channel1
agent1.sinks = sink1
 
#Describe the source
agent1.sources.source1.type = avro
# avro source 监听的地址和端口
agent1.sources.source1.bind = 0.0.0.0
agent1.sources.source1.port = 10000
# avro source 读取的数据是压缩过的,类型必须与 前一个 avro sink相同
agent1.sources.source1.compression-type =deflate
 
#Describe the sink
agent1.sinks.sink1.type = hdfs
# 写入hdfs的路径
agent1.sinks.sink1.hdfs.path = /tmp/flume
# 文件前缀
agent1.sinks.sink1.hdfs.filePrefix = test
agent1.sinks.sink1.hdfs.rollCount = 0
agent1.sinks.sink1.hdfs.rollInterval=0
agent1.sinks.sink1.hdfs.rollSize=0
agent1.sinks.sink1.hdfs.batchSize=5000
#文件在完全没有流写入后60s关闭
agent1.sinks.sink1.hdfs.idleTimeout=60
#数据写入hdfs时进行压缩
agent1.sinks.sink1.hdfs.fileType = CompressedStream 
#数据写入hdfs时压缩的种类
agent1.sinks.sink1.hdfs.codeC = gzip
 
# Use a channel which buffers events in memory
agent1.channels.channel1.type = memory
agent1.channels.channel1.capacity = 100000
agent1.channels.channel1.transactionCapacity = 5000
 
#Bind the source and sink to the channel
agent1.sources.source1.channels = channel1

三 启动程序

运行程序位于解压文件/bin目录下。运行前需要先为flume-ng赋予可执行权限:chmod 777 flume-ng。

在bin目录下运行命令 ,程序即可执行。

flume-ng agent --conf /home/dongxiao.yang/apache-flume-1.4.0-cdh4.6.0-bin/conf --conf-file /home/dongxiao.yang/apache-flume-1.4.0-cdh4.6.0-bin/conf/conf.properties

--name agent1 -Dflume.root.logger=INFO,DAILY -Duser.timezone=UTC+8

其中 --conf 对应的是配置文件目录

--conf-file 对应配置文件

--name 对应配置文件内的angent的名字

-D对应日志以及运行时区

flume-ng 使用spool source 传输文件到hdfs的更多相关文章

  1. Flume NG Getting Started(Flume NG 新手入门指南)

    Flume NG Getting Started(Flume NG 新手入门指南)翻译 新手入门 Flume NG是什么? 有什么改变? 获得Flume NG 从源码构建 配置 flume-ng全局选 ...

  2. 高可用Hadoop平台-Flume NG实战图解篇

    1.概述 今天补充一篇关于Flume的博客,前面在讲解高可用的Hadoop平台的时候遗漏了这篇,本篇博客为大家讲述以下内容: Flume NG简述 单点Flume NG搭建.运行 高可用Flume N ...

  3. Flume NG高可用集群搭建详解

    .Flume NG简述 Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中.轻量,配置简单,适用于各种日志收集,并支持 Failover和负载均 ...

  4. Flume NG简介及配置

    Flume下载地址:http://apache.fayea.com/flume/ 常用的分布式日志收集系统: Apache Flume. Facebook Scribe. Apache Chukwa ...

  5. Flume NG 简介及配置实战

    Flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用.Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 clo ...

  6. Flume NG初次使用

    一.什么是Flume NG Flume是一个分布式.可靠.和高可用性的海量日志采集.聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据:同时Flume提供对数据的简单处理,并写到各种数 ...

  7. 【转】Flume(NG)架构设计要点及配置实践

    Flume(NG)架构设计要点及配置实践   Flume NG是一个分布式.可靠.可用的系统,它能够将不同数据源的海量日志数据进行高效收集.聚合.移动,最后存储到一个中心化数据存储系统中.由原来的Fl ...

  8. 【Flume NG用户指南】(1)设置

    作者:周邦涛(Timen) Email:zhoubangtao@gmail.com 转载请注明出处:  http://blog.csdn.net/zhoubangtao/article/details ...

  9. 【Flume NG用户指南】(2)构造

    作者:周邦涛(Timen) Email:zhoubangtao@gmail.com 转载请注明出处:  http://blog.csdn.net/zhoubangtao/article/details ...

随机推荐

  1. 借用Toad 生成表空间的使用量图示

    图示产生方法 图示(tablespace uage)如下

  2. this point

    // this.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include<iostream> using namespa ...

  3. hibernate加载实体映射文件 及映射文件auto-import

    第一种方法: 在hibernate.cfg.xml中<mapping resource="包名/Xxx.hbm.xml"/>包名为路径形式( x/x/x这种形式) 第二 ...

  4. 算法系列之图--BFS

    广度优先搜索以源结点s为出发点,算法始终将已发现和未发现结点之间的边界,沿其广度方向向外扩展.也即算法需要在发现所有距离源结点s为k的所有结点之后才会去发现距离源结点距离为k+1的其他结点. talk ...

  5. Spring Data JPA 多个实体类表联合视图查询

    Spring Data JPA 查询数据库时,如果两个表有关联,那么就设个外键,在查询的时候用Specification创建Join 查询便可.但是只支持左连接,不支持右连接,虽说左右连接反过来就能实 ...

  6. call stack 如何调用

    现在在处理MFC上面的BUG,比较多,刚接触堆债,自我感觉找BUG很好用,总结一下记下来: 1. VS环境在程序F5运行状态下/DEBUG/Windows/Call Stack 即可调用堆债: 2. ...

  7. 不管,干一个HAPROXY先

    说不定要用到的塞.... 1.wget http://www.haproxy.org/download/1.5/src/haproxy-1.5.12.tar.gz 2.tar -zxvf haprox ...

  8. oralce 仅配置精简客户端 连接plsql ( 版本需一直,要不都是32要不是都是64)

    1.Oracle服务器已经安装完成,版本10.2.0. 2.访问www.oracle.com,下载Oracle精简客户端. 下载页面地址:http://www.oracle.com/technetwo ...

  9. QT、QTE、qtopia区别

    QT.QTE.qtopia区别 Qt的授权是分为两条线,商业版和开源版.如果使用商业版的Qt,那么开发出的程序可以是私有的和商业的:如果使用的是开源版的Qt,由于其使用的是GPL协议,那么可发出的程序 ...

  10. Linux&shell 之Linux文件权限

    写在前面:案例.常用.归类.解释说明.(By Jim) Linux文件权限用户useradd test (添加用户test)userdel test (删除用户test)passwd test(修改用 ...