分布式日志收集系统- Cloudera Flume 介绍

Flume是Cloudera提供的日志收集系统，具有分布式、高可靠、高可用性等特点,对海量日志采集、聚合和传输, Flume支持在日志系统中定制各类数据发送方，同时，Flume提供对数据进行简单处理，并写到各种数据接受方的能力.

Flume 部署结构

flume架构简单，可靠，灵活, 数据流(data flow）是flume中最主要的抽象,data flow描述了数据从产生，传输、处理并最终写入目的地的一条路径, 数据流由一系列逻辑节点组成，它们能对接受到的事件(EVENT)进行传输，聚合等操作(在上图中，实线描述了data flow)
Agent: 用于采集数据，agent是flume中产生数据流的地方，同时，agent会将产生的数据流传输到collector。
Collector: 用于接受数据，对数据进行聚合，往往会产生一个更大的流。

逻辑节点
逻辑节点是一个非常灵活的抽象, 每一个逻辑节点都有两个组件组成(source 和 sink),source告诉逻辑节点从哪里去收集数据，sink告诉逻辑节点将数据发送到什么地方.在source与sink之间可以添加一些装饰器，用于对经过的数据(event)做简单处理

逻辑节点与物理节点
理解逻辑节点和物理节点之间的区别很重要，物理节点对应于一台机器上的单独的一个JVM进程, 通常一台物理机器对应一个物理节点, 物理节点可以作为逻辑节点的容器，一个物理节点可以映射出多个逻辑节点，这些逻辑节点链接成一起，形成数据流

flume 设计目标 【Reliability,Scalability,Manageability,Extensibility】
Reliability：Flume提供3中数据可靠性选项，包括End-to-end, Store on failure和Best effort, 其中End-to-end使用了磁盘日志和接受端Ack的方式,保证Flume接受到的数据会最终到达目的.Store on failure在目的不可用的时候，数据会保持在本地硬盘。和End-to-end不同的是，如果是进程出现问题，Store on failure可能会丢失部分数据.Best effort不做任何QoS保证。
Scalability：Flume的3大组件：collector、master和storage tier都是可伸缩的。需要注意的是，Flume中对事件的处理不需要带状态，它的Scalability可以很容易实现
Manageability：Flume利用ZooKeeper和gossip，保证配置数据的一致性、高可用。同时，多Master，保证Master可以管理大量的节点.
Extensibility：基于Java，用户可以为Flume添加各种新的功能，如通过继承Source，用户可以实现自己的数据接入方式，实现Sink的子类，用户可以将数据写往特定目标，同时，通过SinkDecorator，用户可以对数据进行预处理。

本文出自 “yyj0531” 博客，请务必保留此出处http://yaoyinjie.blog.51cto.com/3189782/818739

分布式日志收集系统- Cloudera Flume 介绍的更多相关文章

分布式日志收集系统Apache Flume的设计详细介绍
问题导读: 1.Flume传输的数据的基本单位是是什么? 2.Event是什么,流向是怎么样的? 3.Source:完成对日志数据的收集,分成什么打入Channel中? 4.Channel的作用是什么 ...
分布式日志收集系统：Flume
Flume知识点: Event 是一行一行的数据 1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去. 2.flume里面有个核心概念,叫做agent.agent是一个java进程,运 ...
Flume -- 开源分布式日志收集系统
Flume是Cloudera提供的一个高可用的.高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地.这里的日志是一个统称,泛指文件.操作记录等许多数据. 一.Flum ...
Flume分布式日志收集系统
1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去.2.flume里面有个核心概念,叫做agent.agent是一个java进程,运行在日志收集节点.通过agent接收日志,然后暂存起 ...
flume分布式日志收集系统操作
1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去. 2.flume里面有个核心概念,叫做agent.agent是一个java进程,运行在日志收集节点. 3.agent里面包含3个核心 ...
分布式日志收集系统 —— Flume
一.Flume简介 Apache Flume 是一个分布式,高可用的数据收集系统.它可以从不同的数据源收集数据,经过聚合后发送到存储系统中,通常用于日志数据的收集.Flume 分为 NG 和 OG ( ...
分布式日志收集系统--Chukwa
1. 安装部署 1.1 环境要求 1.使用的JDK的版本必须是1.6或者更高版本,本实例中使用的是JDK1.6 2.使用的hadoop的版本必须是Hadoop0.20.205.1及以上版本,本实例中使 ...
分布式日志收集收集系统：Flume(转)
Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统.支持在系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力.Fl ...
基于Flume的美团日志收集系统(一)架构和设计
美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流.美团的日志收集系统基于Flume设计和搭建而成. <基于Flume的美团日志收 ...

随机推荐

C#中静态类、静态方法和静态变量的简单说明
静态方法与静态变量一样,属于类本身,而不属于哪个类的一个对象.调用一个被定义为static的方法,只有通过在它前面加上这个类的名称.一般定义里说是可以通过实例调用的.其他语言我还没测试,但是在C#中是 ...
如何在程序退出的时候清除activity栈
在公司里接手了一个后期的项目,由于项目前期对activity栈管理的不够谨慎,所以导致了在某些情况下程序退出的时候没有将activity栈清除掉.在网上找到的无非就是那几种例子,都不是最好的解决办法. ...
asp.net缓存（一）
ASP.NET页面输出缓存(OutputCache) 页面输出缓存是最为简单的缓存机制,该机制将整个ASP.NET页面内容保存在服务器内存中.当用户请求该页面时,系统从内存中输出相关数据,直到缓存数据 ...
oracle生成随机数
UPDATE busi_chance_info t SET t.exp_amount = (SELECT floor(dbms_random.value(1, 10000000)) ...
IOS 开发调试方法
0.警告尽量一个警告都不要有 1.错误 1)红色提示编译过不去的原因大部分是语法,检查括号的匹配,变量名称,作用域范围 2)编译可以通过,可以运行 a.运行过程中程序崩溃在debug区域的右侧, ...
跨平台渲染框架尝试 - Texture管理
纹理是渲染器重要的资源,也是比较简单的资源.本文将详细讨论纹理资源的管理. 在资源管理概述中提到,资源就是一堆内存和CPU与GPU的访问权限.纹理管理在资源管理之上,要负责如何使用者一堆内存构造纹理对 ...
mysql中查看字符集的cmd指令
参看下面链接:http://blog.chinaunix.net/uid-20180960-id-1972668.html
vs2010中的外部依赖项的含义
vs2010中的项目下拉列表下面有外部依赖项,里面显示的文件是你程序中显示包含的头文件所包含的的头文件.比如,你的main函数里面包含了windows.h头文件,而windows.h头文件又包含其他头 ...
SpringMvc项目 FastJson的数据中有$ref解决办法
这是FastJson返回的数据,经过在线json格式转换工具转换的数据阴影部分套用上面的dept(部门)信息,使用easyui只能获取第一行,凡是引用的都无法获取经各种搜索: 推荐网址:http: ...
JavaScript、Ajax与jQuery的关系
简单总结: 1.JS是一门前端语言. 2.Ajax是一门技术,它提供了异步更新的机制,使用客户端与服务器间交换数据而非整个页面文档,实现页面的局部更新. 3.jQuery是一个框架,它对JS进行了封装 ...

分布式日志收集系统- Cloudera Flume 介绍

分布式日志收集系统- Cloudera Flume 介绍的更多相关文章

随机推荐

热门专题