带你看懂大数据采集引擎之Flume&采集目录中的日志

一、Flume的介绍：

Flume由Cloudera公司开发，是一种提供高可用、高可靠、分布式海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于采集数据；同时，flume提供对数据进行简单处理，并写到各种数据接收方的能力，如果能用一句话概括Flume，那么Flume是实时采集日志的数据采集引擎。

二、Flume的体系结构：

Flume的体系结构分成三个部分：数据源、Flume、目的地

数据源种类有很多：可以来自directory、http、kafka等，flume提供了source组件用来采集数据源。

1、source作用：采集日志

source种类：1、spooling directory source：采集目录中的日志

2、htttp source：采集http中的日志

3、kafka source：采集kafka中的日志

……

采集到的日志需要进行缓存，flume提供了channel组件用来缓存数据。

2、channel作用：缓存日志

channel种类：1、memory channel：缓存到内存中（最常用）

2、JDBC channel：通过JDBC缓存到关系型数据库中

3、kafka channel：缓存到kafka中

……

缓存的数据最终需要进行保存，flume提供了sink组件用来保存数据。

3、sink作用：保存日志

sink种类：1、HDFS sink：保存到HDFS中

2、HBase sink：保存到HBase中

3、Hive sink：保存到Hive中

4、kafka sink：保存到kafka中

……

官网中有flume各个组件不同种类的列举：

三、安装和配置Flume：

1、安装：tar -zxvf apache-flume-1.7.0-bin.tar.gz -C ~/training

2、创建配置文件a4.conf：定义agent，定义source、channel、sink并组装起来，定义生成日志文件的条件。

以下是a4.conf配置文件中的内容，其中定义了数据源来自目录、数据缓存到内存中，数据最终保存到HDFS中，并且定义了生成日志文件的条件：日志文件大小达到128M或者经过60秒生成日志文件。

#定义agent名， source、channel、sink的名称

a4.sources = r1

a4.channels = c1

a4.sinks = k1

#具体定义source

a4.sources.r1.type = spooldir

a4.sources.r1.spoolDir = /root/training/logs

#具体定义channel

a4.channels.c1.type = memory

a4.channels.c1.capacity = 10000

a4.channels.c1.transactionCapacity = 100

#定义拦截器，为消息添加时间戳

a4.sources.r1.interceptors = i1

a4.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Builder

#具体定义sink

a4.sinks.k1.type = hdfs

a4.sinks.k1.hdfs.path = hdfs://192.168.157.11:9000/flume/%Y%m%d

a4.sinks.k1.hdfs.filePrefix = events-

a4.sinks.k1.hdfs.fileType = DataStream

#不按照条数生成文件

a4.sinks.k1.hdfs.rollCount = 0

#HDFS上的文件达到128M时生成一个日志文件

a4.sinks.k1.hdfs.rollSize = 134217728

#HDFS上的文件达到60秒生成一个日志文件

a4.sinks.k1.hdfs.rollInterval = 60

#组装source、channel、sink

a4.sources.r1.channels = c1

a4.sinks.k1.channel = c1

四、使用Flume语句采集数据：

1、创建目录，用于保存日志：

mkdir /root/training/logs

2、启动Flume，准备实时采集日志：

bin/flume-ng.agent -n a4 -f myagent/a4.conf -c conf -Dflume.root.logger=INFO.console

3、将日志导入到目录中：

cp * ~/training/logs

五、Sqoop和Flume的相同点和不同点：

相同点：sqoop和flume只有一种安装模式，不存在本地模式、集群模式等。

不同点：sqoop批量采集数据，flume实时采集数据。

作者：李金泽AllenLi，清华大学硕士研究生，研究方向：大数据和人工智能

带你看懂大数据采集引擎之Flume&采集目录中的日志的更多相关文章

详解大数据采集引擎之Sqoop&采集oracle数据库中的数据
一.Sqoop的简介: Sqoop是一个数据采集引擎/数据交换引擎,采集关系型数据库(RDBMS)中的数据,主要用于在RDBMS与HDFS/Hive/HBase之间进行数据传递,可以通过sqoop i ...
【全干货】5 分钟带你看懂 Docker ！
欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 作者丨唐文广:腾讯工程师,负责无线研发部地图测试. 导语:Docker,近两年才流行起来的超轻量级虚拟机,它可以让你轻松完成持续集成.自动交付 ...
一文看懂大数据的技术生态圈，Hadoop，hive，spark都有了
一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了转载: 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它 ...
《开源大数据分析引擎Impala实战》目录
当当网图书信息: http://product.dangdang.com/23648533.html <开源大数据分析引擎Impala实战>目录第1章 Impala概述.安装与配置.. ...
一文带你彻底了解大数据处理引擎Flink内存管理
摘要: Flink是jvm之上的大数据处理引擎. Flink是jvm之上的大数据处理引擎,jvm存在java对象存储密度低.full gc时消耗性能,gc存在stw的问题,同时omm时会影响稳定性.同 ...
从源码带你看懂functools的partial方法
1.what? partial是什么, partial也叫偏函数.源码的描述是: 部分应用给定参数和关键字的新函数. New function with partial application of ...
从基础到实践，一文带你看懂HashMap
摘要:HashMap是一个用于存储Key-Value键值对的集合,它是面试中经常问到的一个知识点. HashMap是面试中经常问到的一个知识点,也是判断一个候选人基础是否扎实的标准之一,因为通过Has ...
图文带你看懂JavaScritpt引擎V8与JS执行过程
浏览器原理浏览器内核与js引擎浏览器内核又称"排版引擎","渲染引擎","浏览器引擎",叫法很多,简单来说干的活就是将代码(HTML,X ...
一文教你看懂大数据的技术生态圈:Hadoop,hive,spark
转自:https://www.cnblogs.com/reed/p/7730360.html 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞 ...

随机推荐

js-ES6学习笔记-module（4）
1.<script>标签打开defer或async属性,脚本就会异步加载.渲染引擎遇到这一行命令,就会开始下载外部脚本,但不会等它下载和执行,而是直接执行后面的命令. defer与asyn ...
【代码笔记】iOS-NSJSONSerializationDemo
一,代码. - (void)viewDidLoad { [super viewDidLoad]; // Do any additional setup after loading the view. ...
图片轮播(Jquery)
昨天在博客园里面看到imwtr写的图片轮播(淡入淡出)的文章,觉得是否自己可以将该功能写成Jquery插件的形式,也方便之后如果需要的时候可以直接使用. 经过调整和整合,完成了第一版本的jquery. ...
JDK8下maven使用maven-javadoc-plugin插件报错
由于JDK8的doc生成机制比之前的要严谨许多,导致项目用maven打包的时候出错解决办法: 添加-Xdoclint:none配置完整配置如下: <plugin> <grou ...
微信小程序开发--模板(template)使用，数据加载，点击交互
微信小程序视图层提供了模板(template),可以在模板中定义代码片段,然后在不同的地方调用.结果在数据渲染那懵逼了.按照官网上对模板的说明和对数据的加载. 1.定义模板使用name属性,作为模 ...
Java虚拟机（三）垃圾标记算法与Java对象的生命周期
前言这一节我们来简单的介绍垃圾收集器,并学习垃圾标记的算法:引用计数算法和根搜索算法,为了更好的理解根搜索算法,会在文章的最后介绍Java对象在虚拟机中的生命周期. 1.垃圾收集器概述垃圾收集器( ...
【Redis】Redis学习（六） Redis 基本运维
Redis的单机搭建,主从搭建,Sentinal搭建,以及Redis集群搭建的步骤参照前面的文章.现在来说一下Redis的基本运维,毕竟如果一切正常是最好的,但是当出现问题不能使用的时候,准确定位问题 ...
微信为啥不能直接下载.apk安装包
今天遇到一个很蛋疼问题,我们的微信公众号上想放一个下载自己公司app的点击按钮,如果是苹果手机点击这个按钮就直接跳转到苹果的appstore,如果是android手机的话,就直接跳我们的服务器下载ap ...
（个人记录）Python2 与Python3的版本区别
现在还有些开源模块还没有更新到python3 ,不了解版本区别,无法对不合适的地方进行更改. 由于只追求向Python3靠近,所以对于python2的特别用法不探究. 此文不补全所有版本区别,仅作档案 ...
Python+Selenium笔记（四）：unittest的Test Suite（测试套件）
(一) Test Suite测试套件一个测试套件是多个测试或测试用例的集合,是针对被测程序的对应的功能和模块创建的一组测试,一个测试套件内的测试用例将一起执行. 应用unittest的TestSui ...

带你看懂大数据采集引擎之Flume&采集目录中的日志

带你看懂大数据采集引擎之Flume&采集目录中的日志的更多相关文章

随机推荐

热门专题