Flume的Collector】的更多相关文章

Collector的作用是将多个Agent的数据汇总后,加载到Storage中.它的source和sink与agent类似. 数据源(source),如: collectorSource[(port)]:Collector source,监听端口汇聚数据. autoCollectorSource:通过master协调物理节点自动汇聚数据. logicalSource:逻辑source,由master分配端口并监听rpcSink. sink,如: collectorSink( “fsdir”,”f…
./pssh -h ./host/all.txt -P mkdir /usr/local/app ./pssh -h ./host/all.txt -P tar zxf /usr/local/software/apache-flume-1.6.0-bin.tar.gz -C /usr/local/app ./pssh -h ./host/all.txt -P mv /usr/local/app/apache-flume-1.6.0-bin /usr/local/app/apache-flume-…
一.Storm项目 1. 架构 javasdk -> nginx -> 日志文件 -> flume agent(collector) -> hdfs -> kafka -> storm -> hbased kafka吞吐量达,可以被不同的消费者重复消费 2. 项目需求 电商 用户提交订单并且成功支付 收集订单详情 分析: (1)每天(每小时.每分钟)电商网站的总销售额.订单笔数 (2)基于地域(国家.省份.城市).时段 (3)从客户角度,统计客户消费情况 (4)客…
一些需求是原生Flume无法满足的,因此,基于开源的Flume我们增加了许多功能. EventDeserializer的缺陷 Flume的每一个source对应的deserializer必须实现接口EventDeserializer,该接口定义了readEvent/readEvents方法从各种日志源读取Event. flume主要支持两种反序列化器: (1)AvroEventDeserializer:解析Avro容器文件的反序列化器.对Avro文件的每条记录生成一个flume Event,并将…
原文地址:http://www.ttlsa.com/log-system/scribe-chukwa-kafka-flume-log-system-contrast/ 1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦:(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统:(3) 具有高可扩展性.即:当数据…
集成 Flume/kafka/storm 是为了收集日志文件而引入的方法,最终将日志转到storm中进行分析.storm的分析方法见后面文章,这里只讨论集成方法. 以下为具体步骤及测试方法: 1.分别在各个服务器上启动 zookeeper/kafka/storm,[hadoop@master apache-flume-1.5.2-bin]$ jps1926 QuorumPeerMain3659 Kafka3898 Jps3787 core3726 nimbus3838 supervisor [h…
1.基本结构介绍 flume是三层架构,agent,collector,storage.每一层都可水平扩展. 其中,agent就是数据采集方:collector是数据整合方:storage是各种数据落地方,如hdfs. 前两者都是由source和sink组成,source是数据读取组件,sink是数据分发组件. 前两者作为不同类型node统一归master管理.可在master shell活web中动态配置. 2.自带的source text 文件,按行发送 tail 探测新产生数据,安航发送…
1.概述 今天补充一篇关于Flume的博客,前面在讲解高可用的Hadoop平台的时候遗漏了这篇,本篇博客为大家讲述以下内容: Flume NG简述 单点Flume NG搭建.运行 高可用Flume NG搭建 Failover测试 截图预览 下面开始今天的博客介绍. 2.Flume NG简述 Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中.轻量,配置简单,适用于各种日志收集,并支持Failover和负载均衡.并且它拥有非常丰富的组件.Fl…
Flume概念 Flume是一个分布式.可靠.和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力. flume 特点: 1.可靠性 当节点出现故障时,日志能够被传送到其他节点上而不会丢失.Flume提供了三种级别的可靠性保障,所有的数据以event为单位传输,从强到弱依次分别为:end-to-end( 收到数据agent首先将event写到磁盘上,当数据传送成功后,再删除:如果数据发送失败,可以…
flume优点 1.存储数据到任何中央数据库 2.进入数据速率大于写出速率,可以起到缓存作用,保证流的平稳 3.提供文本式路由 4.支持事务 5.可靠.容错.可伸缩.可定制.可管理 put的缺点 1.put命令一次只能put一个文件,不能满足文件告诉被生成的场景,需要实时传输数据 2.put命令操作文件时是固定的,不能是持续累加的 3.需要传递流动数据到hdfs,延迟很低 flume架构:水槽 1.  flume event header + payload(byte array) 2.  fl…