Kafka VS Flume

【采集层】Kafka 与 Flume 如何选择--转自悟性的博文

[采集层]Kafka 与 Flume 如何选择收藏悟性发表于 2年前阅读 23167 收藏 16 点赞 4 评论 1 摘要: Kafka, Flume 采集层主要可以使用Flume, Kafka两种技术. Flume:Flume 是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API. Kafka:Kafka是一个可持久化的分布式的消息队列. Kafka 是一个非常通用的系统.你可以有许多生产者和很多的消费者共享多个主题Topics.相比之下,Flume是一个专用工具被设…

kafka和flume的对比

摘要: (1)kafka和flume都是日志系统.kafka是分布式消息中间件,自带存储,提供push和pull存取数据功能.flume分为agent(数据采集器),collector(数据简单处理和写入),storage(存储器)三部分,每一部分都是可以定制的.比如agent采用RPC(Thrift-RPC).text(文件)等,storage指定用hdfs做. (2)kafka做日志缓存应该是更为合适的,但是 flume的数据采集部分做的很好,可以定制很多数据源,减少开…

<kafka><应用场景><Kafka VS Flume>

前言最近在搭一个离线Hadoop + 实时SparkStreaming的日志处理系统,然后发现基本上网上的这种系统都集成了kafka. 自己对kafka有一点点的认识,之前看过官网文档,用过一次,就了解到它是个消息队列.好像说是比起其他的消息队列,对多subscriber更友好. 所以google了一些kafka的应用场景,来加深一下理解. Use Cases Kafka documentation - use cases Messaging Kafka works well as a rep…

从0到1搭建基于Kafka、Flume和Hive的海量数据分析系统(一)数据收集应用

大数据时代,一大技术特征是对海量数据采集.存储和分析的多组件解决方案.而其中对来自于传感器.APP的SDK和各类互联网应用的原生日志数据的采集存储则是基本中的基本.本系列文章将从0到1,概述一下搭建基于Kafka.Flume.Zookeeper.HDFS.Hive的海量数据分析系统的框架.核心应用和关键模块. 项目源代码存储于GitHub:源码系统架构概述本系列文章所介绍的数据分析系统,定位于一种通用的大数据分析系统,可用于电商.互联网和物联网的实际解决方案中.该应用主要解决从多种多样的互联…

【采集层】Kafka 与 Flume 如何选择

转自:http://my.oschina.net/frankwu/blog/355298 采集层主要可以使用Flume, Kafka两种技术. Flume:Flume 是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API. Kafka:Kafka是一个可持久化的分布式的消息队列. Kafka 是一个非常通用的系统.你可以有许多生产者和很多的消费者共享多个主题Topics.相比之下,Flume是一个专用工具被设计为旨在往HDFS,HBase发送数据.它对HDFS有特殊的优化,并且…

scribe、chukwa、kafka、flume日志系统对比

scribe.chukwa.kafka.flume日志系统对比 1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦:(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统:(3) 具有高可扩展性.即:当数据量增加时,可以通过增加节点进行水平扩展. 本文从设计架构,负载均衡,可扩展性和容错性等方面对比了当…

【采集层】Kafka 与 Flume 如何选择（转）

原文链接:[采集层]Kafka 与 Flume 如何选择采集层主要可以使用Flume, Kafka两种技术. Flume:Flume 是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API. Kafka:Kafka是一个可持久化的分布式的消息队列. Kafka 是一个非常通用的系统.你可以有许多生产者和很多的消费者共享多个主题Topics.相比之下,Flume是一个专用工具被设计为旨在往HDFS,HBase发送数据.它对HDFS有特殊的优化,并且集成了Hadoop的安全特性.所…

【日志处理、监控ELK、Kafka、Flume等相关资料】

服务介绍随着实时分析技术的发展及成本的降低,用户已经不仅仅满足于离线分析.目前我们服务的用户包括微博,微盘,云存储,弹性计算平台等十多个部门的多个产品的日志搜索分析业务,每天处理约32亿条(2TB)日志. 技术架构简单介绍一下服务的技术架构: 这是一个再常见不过的架构了: (1)Kafka:接收用户日志的消息队列 (2)Logstash:做日志解析,统一成json输出给Elasticsearch (3)Elasticsearch:实时日志分析服务的核心技术,一个schemaless,实时的数…

(1)kafka和flume都是日志系统.kafka是分布式消息中间件,自带存储,提供push和pull存取数据功能.flume分为agent(数据采集器),collector(数据简单处理和写入),storage(存储器)三部分,每一部分都是可以定制的.比如agent采用RPC(Thrift-RPC).text(文件)等,storage指定用hdfs做. (2)kafka做日志缓存应该是更为合适的,但是 flume的数据采集部分做的很好,可以定制很多数据源,减少开发量.所以比较流行flum…

Kafka与Flume之集成比较

Kafka与Flume之集成比较一.Kafka与Flume比较在企业中必须要清楚流式数据采集框架flume和kafka的定位是什么:flume:cloudera公司研发: 适合多个生产者: 适合下游数据消费者不多的情况: 适合数据安全性要求不高的操作: 适合与Hadoop生态圈对接的操作.kafka:linkedin公司研发: 适合数据下游消费众多的情况: 适合数据安全性要求较高的操作,支持replication.因此我们常用的一种模型是: 线上数据 --> flume --> kafka…

【转载】scribe、chukwa、kafka、flume日志系统对比

原文地址:http://www.ttlsa.com/log-system/scribe-chukwa-kafka-flume-log-system-contrast/ 1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦:(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统:(3) 具有高可扩展性.即:当数据…

scribe、chukwa、kafka、flume日志系统对比 -摘自网络

1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦:(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统:(3) 具有高可扩展性.即:当数据量增加时,可以通过增加节点进行水平扩展. 本文从设计架构,负载均衡,可扩展性和容错性等方面对比了当今开源的日志系统,包括facebook的scribe,apache的c…

开源日志系统比较：scribe、chukwa、kafka、flume

1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征: (1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦: (2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统: (3) 具有高可扩展性.即:当数据量增加时,可以通过增加节点进行水平扩展. 本文从设计架构,负载均衡,可扩展性和容错性等方面对比了当今开源的日志系统,包括facebook的scribe,apac…

开源数据采集组件比较: scribe、chukwa、kafka、flume

针对每天TB级的数据采集,一般而言,这些系统需要具有以下特征: 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦: 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统: 具有高可扩展性.即:当数据量增加时,可以通过增加节点进行水平扩展. 从设计架构,负载均衡,可扩展性和容错性等方面对开源的个关组件进行说明 FaceBook的Scribe Scribe是facebook开源的日志收集系统,在facebook内部已经得到大量的应用.它能够从各种日志源上收集日志,存储到一个中央存储系统…

大数据入门第十八天——kafka整合flume、storm

一.实时业务指标分析 1.业务业务: 订单系统---->MQ---->Kakfa--->Storm 数据:订单编号.订单时间.支付编号.支付时间.商品编号.商家名称.商品价格.优惠价格.支付金额统计双十一当前的订单金额,订单数量,订单人数订单金额(整个网站,各个业务线,各个品类,各个店铺,各个品牌,每个商品架构支付系统+kafka+storm/Jstorm集群+redis集群 1.支付系统发送mq到kafka集群中,编写storm程序消费kafka的数据并计算实时的订单数量.订…

windows安装zookeeper和kafka，flume

一.安装JDK 过程比较简单,这里不做说明. 最后打开cmd输入如下内容,表示安装成功二.安装zooeleeper 下载安装包:http://zookeeper.apache.org/releases.html#download 下载后解压到一个目录: 1.进入Zookeeper设置目录,笔者D:\Java\Tool\zookeeper-3.4.6\conf2. 将“zoo_sample.cfg”重命名为“zoo.cfg”3. 在任意文本编辑器(如notepad)中打开zoo.cfg4. 找到…

大数据笔记（三十二）——SparkStreaming集成Kafka与Flume

三.集成:数据源 1.Apache Kafka:一种高吞吐量的分布式发布订阅消息系统 (1) (*)消息的类型 Topic:主题(相当于:广播) Queue:队列(相当于:点对点) (*)常见的消息系统 Kafka.Redis -----> 只支持Topic JMS(Java Messaging Service标准):Topic.Queue -----> Weblogic (*)角色:生产者:产生消息消费者:接收消息(处理消息) (2)Kafka的消息系统的体系结构 (3)搭建Kafka的环…

kafka和flume进行整合的日志采集的confi文件编写

配置flume.conf 为我们的source channel sink起名 a1.sources = r1 a1.channels = c1 a1.sinks = k1 指定我们的source收集到的数据发送到哪个管道 a1.sources.r1.channels = c1 指定我们的source数据收集策略 a1.sources.r1.type = spooldir a1.sources.r1.spoolDir = /export/servers/flumedata a1.sources.r…

【Kafka】Flume整合Kafka

目录需求一.Flume下载地址二.上传解压Flume 三.配置flume.conf 四.启动flume 五.测试整合需求实现flume监控某个目录下面的所有文件,然后将文件收集发送到kafka消息系统中一.Flume下载地址 http://archive.cloudera.com/cdh5/cdh/5 二.上传解压Flume cd /export/softwares tar -zxvf apache-flume-1.6.0-cdh5.14.0 -C ../servers 三.配置fl…

KafKa+Zookeeper+Flume部署脚本

喜欢学习的朋友可以收藏愿意了解框架技术或者源码的朋友直接加求求(企鹅):2042849237…

flume＋kafka＋hbase＋ELK

一.架构方案如下图: 二.各个组件的安装方案如下: 1).zookeeper+kafka http://www.cnblogs.com/super-d2/p/4534323.html 2)hbase http://www.cnblogs.com/super-d2/p/4755932.html 3)flume安装: 安装安装JDK Flume 运行系统要求1.6以上的Java 运行环境,从oracle网站下载JDK 安装包,解压安装: $tar zxvf jdk-8u65-linux-x64.t…

flume与kafka整合

flume与kafka整合前提: flume安装和测试通过,可参考:http://www.cnblogs.com/rwxwsblog/p/5800300.html kafka安装和测试通过,可参考:http://www.cnblogs.com/rwxwsblog/p/5800224.html 在上诉条件满足的情况下才能进行flume和kafka的整合. flume与kafka整合修改/usr/local/flume/conf/flume-conf.properties agent.sinks…

《OD学Flume》20160806Flume和Kafka

一.Flume http://flume.apache.org/FlumeUserGuide.html Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集.聚集.移动信息的服务. 1. 架构方式 1)所有应用使用一台flume服务器: 2)所有应用共享flume集群: 3)每个应用使用一台flume,然后使用一个flume节点收集分散的flume数据: 2. flume组件 1)启动的每个flume进程(jvm进程),称为agent 每个flume agent:…

Flume 与Kafka区别

今天开会讨论日志处理为什么要同时使用Flume和Kafka,是否可以只用Kafka 不使用Flume?当时想到的就只用Flume的接口多,不管是输入接口(socket 和文件)以及输出接口(Kafka/HDFS/HBase等). 考虑单一应用场景,从简化系统的角度考虑,在满足应用需求的情况下可能只使用一个比较好.但是考虑到现有系统业务发展,为了后面的灵活扩展,在先用系统设计时留有一定的扩展性感觉更重要,可能使用Flume+kafka架构相对只使用Kafka会多占用1-2台机器做Flume日志采…

Flume简介与使用（三）——Kafka Sink消费数据之Kafka安装

前面已经介绍了如何利用Thrift Source生产数据,今天介绍如何用Kafka Sink消费数据. 其实之前已经在Flume配置文件里设置了用Kafka Sink消费数据 agent1.sinks.kafkaSink.type = org.apache.flume.sink.kafka.KafkaSink agent1.sinks.kafkaSink.topic = TRAFFIC_LOG agent1.sinks.kafkaSink.brokerList = ,, agent1.sinks…

Flume - Kafka日志平台整合

1. Flume介绍 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力. agent agent本身是一个Java进程,运行在日志收集节点-所谓日志收集节点就是服务器节点. agent里面包含3个核心的组件:source-->channel-–>sink,类似生产者.仓库.消费者的架构. source sour…

使用Flume消费Kafka数据到HDFS

1.概述对于数据的转发,Kafka是一个不错的选择.Kafka能够装载数据到消息队列,然后等待其他业务场景去消费这些数据,Kafka的应用接口API非常的丰富,支持各种存储介质,例如HDFS.HBase等.如果不想使用Kafka API编写代码去消费Kafka Topic,也是有组件可以去集成消费的.下面笔者将为大家介绍如何使用Flume快速消费Kafka Topic数据,然后将消费后的数据转发到HDFS上. 2.内容在实现这套方案之间,可以先来看看整个数据的流向,如下图所示: 业务数据实时…

Flafka: Apache Flume Meets Apache Kafka for Event Processing

The new integration between Flume and Kafka offers sub-second-latency event processing without the need for dedicated infrastructure. In this previous post you learned some Apache Kafka basics and explored a scenario for using Kafka in an online appl…

大数据新手之路四：联合使用Flume和Kafka

Ubuntu16.04+Kafka1.0.0+Flume1.8.0 1.目标 ①使用Flume作为Kafka的Producer: ②使用Kafka作为Flume的Sink: 其实以上两点是同一个事情在Flume和Kafka两个立场上的不同描述而已,其实就是同一个事情. 2.启动zookeeper(这里使用kafka自带的zookeeper,也可以独立部署zookeeper使用) 使用默认的zookeeper.properties配置文件 zookeeper-server-start.sh /us…

Windows上结合使用Flume和Kafka

Win7+Flume1.8.0 + Kafka1.0.0 1.目标 ①使用Flume作为Kafka的Producer: ②使用Kafka作为Flume的Sink: 其实以上两点是同一个事情在Flume和Kafka两个立场上的不同描述而已,其实就是同一个事情. 2.运行Kafka ①运行Zookeeper zkserver ②运行Kafka 这里注意一下是否正常运行了,如果日志报错则将日志文件夹删除后再让其自动重新生成. .\bin\windows\kafka-server-start.bat .…

【Kafka VS Flume】的更多相关文章