【Flume】知识总结

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

Source

*Source负责接收events或通过特殊机制产生events，并将events批量放到一个或多个Channels。有驱动和轮询2种类型的Source。

驱动型source:是外部主动发送数据给Flume，驱动Flume接受数据。

轮询source:是Flume周期性主动去获取数据。

*Source必须至少和一个channel关联。

Channel

*Channel位于Source和Sink之间， Channel的作用类似队列，用于临时缓存进来的events，当Sink成功地将events发送到下一跳的channel或最终目的，events从Channel移除。

不同的Channel提供的持久化水平也是不一样的:

Memory Channel:不会持久化。

File Channel: 基于WAL（预写式日志Write-Ahead Log）实现。

JDBC Channel: 基于嵌入式Database实现。

*Channels支持事务，提供较弱的顺序保证，可以连接任何数量的Source和Sink。

memory channel：消息存放在内存中，提供高吞吐，但不提供可靠性；可能丢失数据。

file channel：对数据持久化；但是配置较为麻烦，需要配置数据目录和checkpoint目录；不同的file channel均需要配置一个checkpoint 目录。

jdbc channel：内置的derby数据库，对event进行了持久化，提供高可靠性；可以取代同样具有持久特性的file channel

Sink

*Sink负责将events传输到下一跳或最终目的，成功完成后将events从channel移除。

*必须作用于一个确切的channel。

【Flume】知识总结的更多相关文章

Flume知识扩展
1 常见正则表达式语法元字符描述 ^ 匹配输入字符串的开始位置.如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位置. $ 匹配输入字符串的结束位置.如果设置了 ...
【基本知识】Flume基本环境搭建以及原理
系统:CentOS6.5JDK:1.8.0_144Flume:flume-ng-1.6.0-cdh5.12.0 一.什么是Flume flume 作为 cloudera 开发的实时日志收集系统,受到了 ...
Flume -- 开源分布式日志收集系统
Flume是Cloudera提供的一个高可用的.高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地.这里的日志是一个统称,泛指文件.操作记录等许多数据. 一.Flum ...
linux 运维知识体系
这里将会介绍一下,LINUX运维工程师的知识体系. 只能说是个人理解吧.并不是必要或者充分的,仅供网友参考. 大部分本博客都有涉及,并不完整. 1.LINUX运维基础 1.1.LINUX系统的简介,分 ...
flume【源码分析】分析Flume的启动过程
h2 { color: #fff; background-color: #7CCD7C; padding: 3px; margin: 10px 0px } h3 { color: #fff; back ...
Hadoop应用开发实战(flume应用开发、搜索引擎算法、Pipes、集群、PageRank算法)
Hadoop是2013年最热门的技术之一,通过北风网robby老师<深入浅出Hadoop实战开发>.<Hadoop应用开发实战>两套课程的学习,普通Java开发人员可以在最快的 ...
大数据基础知识问答----spark篇，大数据生态圈
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapredu ...
Flume+Sqoop+Azkaban笔记
大纲(辅助系统) 离线辅助系统数据接入 Flume介绍 Flume组件 Flume实战案例任务调度调度器基础市面上调度工具 Oozie的使用 Oozie的流程定义详解数据导出 sqoop基础 ...
Apache Flume 1.7.0 源码编译导入Eclipse
前言最近看了看Apache Flume,在虚拟机里跑了一下flume + kafka + storm + mysql架构的demo,功能很简单,主要是用flume收集数据源(http上报信息),放入 ...

随机推荐

node基础知识-说说对node的理解
一.说说你对node的理解从定义+特点+作用来说对node的理解定义:node是基于Chrmo v8引擎的JavaScript运行环境; 特点:具有事件驱动,非阻塞I/O模型,高并发和轻量级,单线 ...
MySQL 入门（3）：事务隔离
摘要在这一篇内容中,我将从事务是什么开始,聊一聊事务的必要性. 然后,介绍一下在InnoDB中,四种不同级别的事务隔离,能解决什么问题,以及会带来什么问题. 最后,我会介绍一下InnoDB解决高并发 ...
pyltp安装教程及简单使用
1.pyltp简介 pyltp 是哈工大自然语言工作组推出的一款基于Python 封装的自然语言处理工具(轮子),提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能. 2.pyltp ...
用PHP获取网页上的信息相对于xpath效率低点
用php实现对网页的抓取,及信息的收集,其实就是爬数据,具体实现步骤如下,首先应引入两个文件curl_html_get.php和save_file.php文件,两个文件具体代码是这样的curl_htm ...
Flutter中如何使用WillPopScope
老孟导读:在Flutter中如何实现点击2次Back按钮退出App,如何实现App中多个Route(路由),如何实现Back按钮只退出指定页面,此篇文章将告诉你. WillPopScope WillP ...
NOI Online #2 赛后题解
color 题意 $\;$ 给定$p_1,p_2$,要求$p_1$的倍数格子填红色,$p_2$的倍数格子填蓝色,既是$p_1$又是$p_2$倍数的格子颜色任选.求是否存在一种填 ...
预测算法：基于UCF的电影推荐算法
#基于用户的推荐类算法 from math import sqrt #计算两个person的欧几里德距离 def sim_distance(prefs,person1,person2): si = { ...
Spring全家桶之springMVC（四）
路径变量PathVariable PathVariable Controller除了可以接收表单提交的数据之外,还可以获取url中携带的变量,即路径变量,此时需要使用@PathVariable ...
基于 abp vNext 和 .NET Core 开发博客项目 - 完善与美化，Swagger登场
上一篇文章(https://www.cnblogs.com/meowv/p/12896898.html)已经成功将博客项目跑起来了,那么本篇主要是将之前遗留的问题解决,现在的代码看起来可能还是比较混乱 ...
简单而面试中又常见的知识点：JS执行机制
在开始讲解之前,我们先来看一段代码: console.log('1'); setTimeout(function() { console.log('2'); process.nextTick( ...