Hadoop-(Flume)】的更多相关文章

1 Flume架构解释  Flume概念 Flume是一个分布式 ,可靠的,和高可用的,海量的日志聚合系统 支持在系统中定制各类的数据发送方 用于收集数据 提供简单的数据提取能力 并写入到各种接受方 Flume 特点 1 可靠性 当节点出现故障时,日志能够被传送到其他节点上而不会丢失.Flume提供了三种级别      的可靠性保障,所有的数据以event为单位传输,从强到弱依次分别为:end-to-end( 收到数据agent首先将event写到磁盘上,当数据传送成功后,再删除:如果数据发送失…
近期项目组有需求点击流日志须要自己收集,学习了一下flume而且成功安装了.相关信息记录一下. 1)下载flume1.5版本号  wget http://www.apache.org/dyn/closer.cgi/flume/1.5.0.1/apache-flume-1.5.0.1-bin.tar.gz 2) 解压flume1.5 tar -zxvf apache-flume-1.5.0.1-bin.tar.gz 3) 配置环境变量 jdk已装 export FLUME_HOME=/XXX/XX…
#source的名字 agent.sources = kafkaSource # channels的名字,建议按照type来命名 agent.channels = memoryChannel # sink的名字,建议按照目标来命名 agent.sinks = hdfsSink # 指定source使用的channel名字 agent.sources.kafkaSource.channels = memoryChannel # 指定sink需要使用的channel的名字,注意这里是channel…
本文为原创博客,转载请注明出处:http://www.cnblogs.com/MrFee/p/4683953.html    1.appendToFile   功能:将一个或多个源文件系统的内容追加至目标文件系统 使用方法:hadoop fs -appendToFile 源文件1,源文件2... 目标文件                  hadoop fs -appendToFile /flume/web_output/part-r-00000    /flume/app_output/par…
0. 软件版本下载 http://mirror.bit.edu.cn/apache/flume/   1. 集群环境 Master 172.16.11.97 Slave1 172.16.11.98 Slave2 172.16.11.99   2. 下载软件包 #Master wget http://mirror.bit.edu.cn/apache/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz tar zxvf apache-flume-1.6.0-bin.t…
#################################################################################################################################################################################################################### flume安装,解压后修改flume_env.sh配置文件,指定java_…
一,查看Flume条数:ps -ef|grep java|grep flume|wc -l       ==>15 检查进程:给sh脚本添加权限,chmod 777 xx.sh #!/bin/sh is_Engine_exist=$(ps -ef|grep java|grep flume|wc -l) if [ $is_Engine_exist -ne 15 ];then         echo 'flumeis down'         cd /usr/hadoop/flume/flume…
Flume配置 . flume生成的数据结构 <span style="font-size:18px;">"_index" : "logstash-2013.01.07", "_type" : "tms_jboss_syslog", "_id" : "a_M9X_0YSpmE7A_bEzIFiw", "_score" : 1.0, &q…
转载:http://mp.weixin.qq.com/s/xCSdkQo1XMQwU91lch29Uw Apache Flume介绍: Apache Flume是一个Apache的开源项目,是一个分布的.可靠的软件系统,主要目的是从大量的分散的数据源中收集.汇聚以及迁移大规模的日志数据,最后存储到一个集中式的数据系统中. Apache Flume是由运行在不同主机系统的软件进程组成,一个主机的软件进程叫agent, 1个agent由source.channel.以及sink组成:Source负责…
http://flume.apache.org/FlumeUserGuide.html#custom-channel-selector 官方文档上channel selectors 有两种类型: Replicating Channel Selector (default) Multiplexing Channel Selector 这两种selector的区别是:Replicating 会将source过来的events发往所有channel,而Multiplexing 可以选择该发往哪些cha…