Kafka实战－Flume到Kafka

Kafka 2015-07-03 08:46:24 发布

您的评价:

0.0

收藏 2收藏

1.概述

前面给大家介绍了整个Kafka项目的开发流程，今天给大家分享Kafka如何获取数据源，即Kafka生产数据。下面是今天要分享的目录：

数据来源
Flume到Kafka
数据源加载
预览

下面开始今天的分享内容。

2.数据来源

Kafka生产的数据，是由Flume的Sink提供的，这里我们需要用到Flume集群，通过Flume集群将Agent的日志收集分发到 Kafka（供实时计算处理）和HDFS（离线计算处理）。关于Flume集群的Agent部署，这里就不多做赘述了，不清楚的同学可以参考《高可用Hadoop平台－Flume NG实战图解篇》一文中的介绍，下面给大家介绍数据来源的流程图，如下图所示：

这里，我们使用Flume作为日志收集系统，将收集到的数据输送到Kafka中间件，以供Storm去实时消费计算，整个流程从各个Web节点上，通过Flume的Agent代理收集日志，然后汇总到Flume集群，在由Flume的Sink将日志输送到Kafka集群，完成数据的生产流程。

3.Flume到Kafka

从图，我们已经清楚了数据生产的流程，下面我们来看看如何实现Flume到Kafka的输送过程，下面我用一个简要的图来说明，如下图所示：

这个表达了从Flume到Kafka的输送工程，下面我们来看看如何实现这部分。

首先，在我们完成这部分流程时，需要我们将Flume集群和Kafka集群都部署完成，在完成部署相关集群后，我们来配置Flume的Sink数据流向，配置信息如下所示：

首先是配置spooldir方式，内容如下所示：

producer.sources.s.type = spooldir

producer.sources.s.spoolDir = /home/hadoop/dir/logdfs

当然，Flume的数据发送方类型也是多种类型的，有：Console、Text、HDFS、RPC等，这里我们系统所使用的是Kafka中间件来接收，配置内容如下所示：

producer.sinks.r.type = org.apache.flume.plugins.KafkaSink

producer.sinks.r.metadata.broker.list=dn1:9092,dn2:9092,dn3:9092

producer.sinks.r.partition.key=0

producer.sinks.r.partitioner.class=org.apache.flume.plugins.SinglePartition

producer.sinks.r.serializer.class=kafka.serializer.StringEncoder

producer.sinks.r.request.required.acks=0

producer.sinks.r.max.message.size=1000000

producer.sinks.r.producer.type=sync

producer.sinks.r.custom.encoding=UTF-8

producer.sinks.r.custom.topic.name=test

这样，我们就在Flume的Sink端配置好了数据流向接受方。

4.数据加载

在完成配置后，接下来我们开始加载数据，首先我们在Flume的spooldir端生产日志，以供Flume去收集这些日志。然后，我们通过Kafka的KafkaOffsetMonitor监控工具，去监控数据生产的情况，下面我们开始加载。

启动ZK集群，内容如下所示：

zkServer.sh start

注意：分别在ZK的节点上启动。

启动Kafka集群

kafka-server-start.sh config/server.properties &

在其他的Kafka节点输入同样的命令，完成启动。

启动Kafka监控工具

java -cp KafkaOffsetMonitor-assembly-0.2.0.jar \

 com.quantifind.kafka.offsetapp.OffsetGetterWeb \

 --zk dn1:2181,dn2:2181,dn3:2181 \

 --port 8089 \

 --refresh 10.seconds \

 --retain 1.days

启动Flume集群

flume-ng agent -n producer -c conf -f flume-kafka-sink.properties -Dflume.root.logger=ERROR,console

然后，我在/home/hadoop/dir/logdfs目录下上传log日志，这里我只抽取了一少部分日志进行上传，如下图所示，表示日志上传成功。

5.预览

下面，我们通过Kafka的监控工具，来预览我们上传的日志记录，有没有在Kafka中产生消息数据，如下所示：

启动Kafka集群，为生产消息截图预览

通过Flume上传日志，在Kafka中产生消息数据

6.总结

本篇文章给大家讲述了Kafka的消息产生流程，后续会在Kafka实战系列中为大家讲述Kafka的消息消费流程等一整套流程，这里只是为后续的Kafka实战编码打下一个基础，让大家先对Kafka的消息生产有个整体的认识。

来自：http://www.cnblogs.com/smartloli/p/4615908.html

【转】Kafka实战－Flume到Kafka的更多相关文章

【Kafka】Flume整合Kafka
目录需求一.Flume下载地址二.上传解压Flume 三.配置flume.conf 四.启动flume 五.测试整合需求实现flume监控某个目录下面的所有文件,然后将文件收集发送到kafk ...
Kafka实战宝典：Kafka的控制器controller详解
一.控制器简介控制器组件(Controller),是 Apache Kafka 的核心组件.它的主要作用是在 Apache ZooKeeper 的帮助下管理和协调整个 Kafka 集群.集群中任意一 ...
Flume 与Kafka区别
今天开会讨论日志处理为什么要同时使用Flume和Kafka,是否可以只用Kafka 不使用Flume?当时想到的就只用Flume的接口多,不管是输入接口(socket 和文件)以及输出接口(Kafk ...
Kafka实战－Flume到Kafka
1.概述前面给大家介绍了整个Kafka项目的开发流程,今天给大家分享Kafka如何获取数据源,即Kafka生产数据.下面是今天要分享的目录: 数据来源 Flume到Kafka 数据源加载预览下面 ...
Kafka实战－Flume到Kafka （转）
原文链接:Kafka实战-Flume到Kafka 1.概述前面给大家介绍了整个Kafka项目的开发流程,今天给大家分享Kafka如何获取数据源,即Kafka生产数据.下面是今天要分享的目录: 数据来 ...
Kafka实战分析（一）- 设计、部署规划及其调优
1. Kafka概要设计 kafka在设计之初就需要考虑以下4个方面的问题: 吞吐量/延时消息持久化负载均衡和故障转移伸缩性 1.1 吞吐量/延时对于任何一个消息引擎而言,吞吐量都是至关重要的 ...
《Apache Kafka 实战》读书笔记-认识Apache Kafka
<Apache Kafka 实战>读书笔记-认识Apache Kafka 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.kafka概要设计 kafka在设计初衷就是 ...
Kafka实战－数据持久化
1.概述经过前面Kafka实战系列的学习,我们通过学习<Kafka实战-入门>了解Kafka的应用场景和基本原理,<Kafka实战-Kafka Cluster>一文给大家分享 ...
Kafka实战－Kafka到Storm
1.概述在<Kafka实战-Flume到Kafka>一文中给大家分享了Kafka的数据源生产,今天为大家介绍如何去实时消费Kafka中的数据.这里使用实时计算的模型——Storm.下面是 ...

随机推荐

Java反射机制的作用
假如我们有两个程序员,一个程序员在写程序的时候,需要使用第二个程序员所写的类,但第二个程序员并没完成他所写的类.那么第一个程序员的代码能否通过编译呢?这是不能通过编译的.利用Java反射的机制,就可以 ...
CameraFlash手电筒
有时候晚上找不到电棒,电灯,咱们可以写个小程序,利用照相机的闪光灯临时顶替上代码: 1 package com.linux.cameraflash; import android.hardware.C ...
Hibernate学习-在线书城后台管理系统的设计
写在前面:小编经历了昨天一晚上加今天一整天的“不吃不喝(夸张点…总之就是把时间全分享给TA了)”终于把程序的问题全部解决了,小编现在的心情十分的开森,开森,开森,Happy,话不多说,直接进入正题: ...
Windows下Nginx+Mysql+Php(wnmp)环境搭建
前言最近想在windows下使用nginx搭建web环境,本来想用套件(WNMP)一键安装,但后来放弃了,觉得还是自己动手,丰衣足食的好,而且套件的局限性太大.所以后来就各种搜索,看到前辈写关于wn ...
HDU 4857 逃生（反向拓扑排序）
传送门 Description 糟糕的事情发生啦,现在大家都忙着逃命.但是逃命的通道很窄,大家只能排成一行. 现在有n个人,从1标号到n.同时有一些奇怪的约束条件,每个都形如:a必须在b之前.同时,社 ...
CF 84D Doctor（二分）
题目链接: 传送门 Doctor time limit per test:1 second memory limit per test:256 megabytes Description Th ...
网络存储（四）之ISCSI的进阶
前言上一篇博客中我们讲了如何搭建一个简单的iscsi网络存储系统,这块有个安全问题就是,任何知道target name的客户端都可以随意连接ISCSI服务器.但是很多时候,通过授权认证连接共享磁盘或 ...
java函数substring()
String str; str＝str.substring(int beginIndex);截取掉str从首字母起长度为beginIndex的字符串,将剩余字符串赋值给str: str＝str.sub ...
理解和使用 JavaScript 中的回调函数
理解和使用 JavaScript 中的回调函数标签: 回调函数指针js 2014-11-25 01:20 11506人阅读评论(4) 收藏举报分类: JavaScript(4) 目录( ...
hibernate----(Hql)查询
package com.etc.test; import java.util.List;import java.util.Properties; import org.hibernate.Query; ...

【转】Kafka实战－Flume到Kafka