Hadoop之Flume详解

1、日志采集框架Flume
　　1.1 Flume介绍
　　　　Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。
　　　　Flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、hbase、hive、
　　　　kafka等众多外部存储系统中
　　　　一般的采集需求，通过对flume的简单配置即可实现
　　　　Flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适用于大部分的日常数据采集场景

　　1.2 运行机制
　　　　1、 Flume分布式系统中最核心的角色是agent，flume采集系统就是由一个个agent所连接起来形成
　　　　2、每一个agent相当于一个数据传递员（Source 到 Channel 到 Sink之间传递数据的形式是Event事件；
　　　　　　Event事件是一个数据流单元。），内部有三个组件：
　　　　　　a) Source：采集源，用于跟数据源对接，以获取数据
　　　　　　b) Sink：下沉地，采集数据的传送目的，用于往下一级agent传递数据或者往最终存储系统传递数据
　　　　　　c) Channel：angent内部的数据传输通道，用于从source将数据传递到sink

　　1.3 采集案例
　　　　1、采集目录到HDFS
　　　　　　采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去
　　　　　　根据需求，首先定义以下3大要素
　　　　　　1) 采集源，即source——监控文件目录 : spooldir
　　　　　　2) 下沉目标，即sink——HDFS文件系统 : hdfs sink
　　　　　　3) source和sink之间的传递通道——channel，可用file channel 也可以用内存channel
　　　　配置文件编写：
　　　　　　# 配置source组件
　　　　　　agent1.sources.source1.type = spooldir
　　　　　　agent1.sources.source1.spoolDir = /home/hadoop/logs/
　　　　　　# 配置sink组件
　　　　　　agent1.sinks.sink1.type = hdfs
　　　　　　agent1.sinks.sink1.hdfs.path =hdfs://hdp-node-01:9000/weblog/flume-collection/%y-%m-%d/%H-%M
　　　　　　agent1.sinks.sink1.hdfs.filePrefix = access_log

　　Channel参数解释：
　　　　capacity：默认该通道中最大的可以存储的event数量
　　　　trasactionCapacity：每次最大可以从source中拿到或者送到sink中的event数量
　　　　keep-alive：event添加到通道中或者移出的允许时间

2、采集文件到HDFS
　　采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs
　　根据需求，首先定义以下3大要素
　　　　1）采集源，即source——监控文件内容更新 : exec ‘tail -F file’
　　　　2）下沉目标，即sink——HDFS文件系统 : hdfs sink
　　　　3） Source和sink之间的传递通道——channel，可用file channel 也可以用内存channel

　　　　# Describe/configure tail -F source1
　　　　agent1.sources.source1.type = exec
　　　　agent1.sources.source1.command = tail -F /home/hadoop/logs/access_log
　　　　agent1.sources.source1.channels = channel1
　　　　# Describe sink1
　　　　agent1.sinks.sink1.type = hdfs
　　　　#a1.sinks.k1.channel = c1
　　　　agent1.sinks.sink1.hdfs.path =hdfs://hdp-node-01:9000/weblog/flume-collection/%y-%m-%d/%H-%M
　　　　agent1.sinks.sink1.hdfs.filePrefix = access_log

Hadoop之Flume详解的更多相关文章

【转载】Hadoop历史服务器详解
免责声明: 本文转自网络文章,转载此文章仅为个人收藏,分享知识,如有侵权,请联系博主进行删除. 原文作者:过往记忆(http://www.iteblog.com/) 原文地址: ...
hadoop hdfs uri详解
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...
hadoop基础-SequenceFile详解
hadoop基础-SequenceFile详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.SequenceFile简介 1>.什么是SequenceFile 序列文件 ...
Hadoop RPC机制详解
网络通信模块是分布式系统中最底层的模块,他直接支撑了上层分布式环境下复杂的进程间通信逻辑,是所有分布式系统的基础.远程过程调用(RPC)是一种常用的分布式网络通信协议,他允许运行于一台计算机的程序调用 ...
hadoop之mapreduce详解（进阶篇）
上篇文章hadoop之mapreduce详解(基础篇)我们了解了mapreduce的执行过程和shuffle过程,本篇文章主要从mapreduce的组件和输入输出方面进行阐述. 一.mapreduce ...
hadoop之yarn详解（框架进阶篇）
前面在hadoop之yarn详解(基础架构篇)这篇文章提到了yarn的重要组件有ResourceManager,NodeManager,ApplicationMaster等,以及yarn调度作业的运行 ...
Hadoop之WordCount详解
花了好长时间查找资料理解.学习.总结这应该是一篇比较全面的MapReduce之WordCount文章了耐心看下去 1,创建本地文件在hadoop-2.6.0文件夹下创建一个文件夹data,在其中 ...
hadoop Shell命令详解
调用文件系统(FS)Shell命令应使用bin/hadoop fs <args>的形式.所有的的FS shell命令使用URI路径作为参数.URI路径详解点击这里. 1.cat说明:将路径 ...
hadoop之mapreduce详解（基础篇）
本篇文章主要从mapreduce运行作业的过程,shuffle,以及mapreduce作业失败的容错几个方面进行详解. 一.mapreduce作业运行过程 1.1.mapreduce介绍 MapRed ...

随机推荐

了解腾讯开源的多渠道打包技术 VasDolly源码解析
一.概要大家应该都清楚,大家上线app,需要上线各种平台,比如:小米,华为,百度等等等等,我们多数称之为渠道,如果发的渠道多,可能有上百个渠道. 针对每个渠道,我们希望可以获取各个渠道的一些独立的统 ...
python注解（装饰器）的用法
带参数的要用三层def,第一层写注解里的参数,第二层写函数,第三层写具体逻辑. 如果是不带参数的注解,直接使用后两层即可 def needPermission(permissionstr): def ...
How to install VIB on VMware ESXi
What is VIB? A vib is vSphere Installation Bundle. To make it more detailed, one can look at the vS ...
RHEL退出RHN
清除原有数据 rm -rf /etc/sysconfig/rhn/rhn_systemidrm -rf /var/cache/yum/*yum clean all 加载刷新源 yum repolist ...
Matlab 几种卷积的实现与比较（conv与filter，conv2与filter2）
Matlab 几种卷积的实现与比较(conv与filter,conv2与filter2) 最近在做控制算法实现的时候,对于其中参杂的各种差分.卷积很头疼,就在网上搜集了些资料,汇总于此,以做备 ...
SQL 设置自增，和default
mysql数据库为表中已有的主键字段增加自增属性: ALTER TABLE `category ` MODIFY COLUMN `id` int(11) NOT NULL AUTO_INCREMENT ...
由做网站操作日志想到的HttpModule应用
背景在以前的Web项目中,记录用户操作日志,总是在方法里,加一行代码,记录此时用户操作类型与相关信息.该记录日志的方法对原来的业务操作侵入性较强,也比较零散,不便于查看和管理.那么有没有更加通用点的 ...
Codeforces #105 DIV2 ABCDE
开始按照顺序刷刷以前的CF. #include <map> #include <set> #include <list> #include <cmath> ...
Linux内核情景分析的alloc_pages
NUMA结构的alloc_pages ==================== mm/numa.c 43 43 ==================== 43 #ifdef CONFIG_DISCON ...
com.android.build.api.transform.TransformException: java.util.zip.ZipException: duplicate entry: android/support/annotation/ColorRes.class
保存信息如上: 我在添加一个支持库的时候遇的问题,这个库com.yanzhenjie:album:1.0.5 这是由于v4包重复导致的,在网上我也找过多种解决方案用了这种,方式 configur ...

Hadoop之Flume详解

Hadoop之Flume详解的更多相关文章

随机推荐

热门专题