Flume组件

1、什么是Flume：apache顶级项目，主要用来做数据采集。分布式、高可用，将海量日志进行采集、聚合、传输的系统。能够对数据进行简单处理在发送到接收方。

2、Flume组件：source、channel、sink，一个Flume可以有一个source，多个channel、多个sink

（1）source：数据收集组件，将日志从不同的client中收集过来。

（2）channel：数据缓冲区。临时存储从source传过来的Event。

（3）sink：将event从channel中读取出来并移除，传输至数据接收方，或者连接下一个agent的线管中。

source、channel、sink共同组成了一个agent，一个agent就是一个JVM，一个angent运行在一台服务器上。

event是一个数据单元，由消息头和消息体组成，可以是日志记录、avro对象。

3、source常见的源：spooling directory、exec、syslog、JMS Source、Avro Source

三种可监控文件或目录的source：

spooling directory source：监控一个目录，并同步目录下的新文件到sink，被同步完的文件可被立即删除或打上标记。适用于同步新文件，不适用于实时追加日志的文件进行监听和同步。可改进解决。

exec source：可以通过tail -f 命令tail住一个文件，然后将日志文件追加的内容实时同步到sink中。但是存在的问题就是agent挂了，再次重启，会有数据重复读取的问题。可通过添加uuid来解决，或改进。

taildir source：可以实时监控一批文件，并记录每个文件最新消费的位置。agent重启后不会有重复消费的问题。

JMS Source：java 消息中间件。

Avro Source：数据序列化系统。

补充：这里的source组件可以自定义：例如项目需要监控mysql中的数据，实时的从mysql中拉取数据，这时我们可以自己实现MysqlSource。参考官方文档，需要继承AbstractSource并实现其中的方法。

4、双层Flume：双层Flume主要用来做负载均衡、容灾

第一层Flume做数据采集，第二层Flume做数据聚合和sink。两层之间采用sinkGroup实现负载均衡。

第一层某个代理失败，那么可以考虑由第一层的其他节点来接管故障节点。如果是第二层代理停止运行，则为了防止数据丢失，只能让每一个第一层代理具有多个冗余的Avro sink，然后把这些sink安排到同一个sink组中，如果第二层代理中的某个代理出现问题，则该事件会被传递给该层sink组的其他代理来完成，以此来实现故障转移和负载均衡。

Flume多层代理防止数据丢失：

https://blog.csdn.net/qq_26442553/article/details/79042603

https://blog.csdn.net/huonan_123/article/details/88421847

参考博客：https://www.cnblogs.com/frankdeng/p/9067102.html

Flume组件的更多相关文章

【Hadoop】10、Flume组件
目录 Flume组件安装配置 1.下载和解压 Flume 2.Flume 组件部署 3.使用 Flume 发送和接受信息 Flume组件安装配置 1.下载和解压 Flume # 传Flume安装包 [ ...
Flume 组件安装配置
下载和解压 Flume 实验环境可能需要回至第四,五,六章(hadoop和hive),否则后面传输数据可能报错(猜测)! 可以从官网下载 Flume 组件安装包 , 下载地址 ...
flume组件汇总 source、sink、channel
Flume Source Source类型说明 Avro Source 支持Avro协议(实际上是Avro RPC),内置支持 Thrift Source 支持Thrift协议,内置支持 Exec ...
Flume组件source，channel，sink源码分析
LifeCycleState: IDLE, START, STOP, ERROR [Source]: org.apache.flume.Source 继承LifeCycleAware{stop() + ...
Flume组件汇总2
Component Interface Type Alias Implementation Class org.apache.flume.Channel memory org.apache.flume ...
flume常用组件
Flume组件 1. Source NetCat Source:绑定的端口(tcp.udp),将流经端口的每一个文本行数据作为Event输入: type:source的类型,必须是netcat. ...
数据采集组件：Flume基础用法和Kafka集成
本文源码:GitHub || GitEE 一.Flume简介 1.基础描述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中 ...
Flume官方文档翻译——Flume 1.7.0 User Guide （unreleased version）（二）
Flume官方文档翻译--Flume 1.7.0 User Guide (unreleased version)(一) Logging raw data(记录原始数据) Logging the raw ...
《OD学Flume》20160806Flume和Kafka
一.Flume http://flume.apache.org/FlumeUserGuide.html Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集.聚集.移动信 ...

随机推荐

[转帖]Linux教程(8)-Linux中的进程和日志㐇、
Linux教程(8)-Linux中的进程和日志 2018-08-20 23:42:23 钱婷婷阅读数 3554更多分类专栏: Linux教程与操作 Linux教程与使用版权声明:本文为博主原 ...
watchdog监控文件变化使用总结——转载
原文链接地址:https://blog.csdn.net/xufive/article/details/93847372 概述首先声明,本文讨论的 watchdog,不是单片机里的 watchdog ...
pandas中的axis参数（看其他人的博客中产生的疑问点，用自己的话解析出来）
axis有两个值:axis=0或者axis=1 看到很多资料都不太理解,把我个人理解说一下: 下面这张图,在很多资料中都看到了,我只能说先死记住 axis=0,代表跨行(注意看这张图的axis=0的箭 ...
Disruptor分布式id生成策略
需要的pom文件:  <dependency> <groupId>com.fasterxml.uuid</groupId> ...
string.join用法
C# String.Join用法 String.Join(String, String[]) 在指定 String 数组的每个元素之间串联指定的分隔符 String,从而产生单个串联的字符串例如: ...
Xinetd服务的安装与配置详解
1．什么是xinetd xinetd即extended internet daemon,xinetd是新一代的网络守护进程服务程序,又叫超级Internet服务器.经常用来管理多种轻量级Interne ...
mybatis generator对于同一个表生成多次代码的问题
原文:https://blog.csdn.net/jiangjun0130/article/details/83055336 现象: mybatis generator是一个持久层代码自动生成工具,能 ...
为什么Java中一个char能存下一个汉字
在Java中,char的长度是2字节,即16位,2的16次方是65536. 1.如果采用utf-8编码,一个汉字占3个字节,char为什么还能存下一个汉字呢? 参考:https://developer ...
vue使用vuex大体结构
store1.js const state = {} const mutations = {} const actions = {} const getters = {} export default ...
9.如何让一个div 上下左右居中?【CS
方法1:[绝对定位50%-本身50%] position:absolute; left:50%; top:50%; transform: tra ...

Flume组件

Flume组件的更多相关文章

随机推荐

热门专题