Flume+kakfa+sparkStream实时处理数据测试

flume：从数据源拉取数据

kafka：主要起到缓冲从flume拉取多了的数据

sparkStream：对数据进行处理

一.flume拉取数据

1.源数据文件读取配置

在flume目录的conf目录下配置读取数据源的配置，配置一个test.properties文件，内容如下:

a1.sources = r1

a1.channels = c1

a1.sinks = k1

a1.sources.r1.type = exec

a1.sources.r1.command = tail -F /home/hadoop/hjh/spark/test.txt

a1.sources.r1.restartThrottle =

a1.sources.r1.logStdErr = true

#a1.sources.r1.restart = true

a1.sources.r1.channels = c1

a1.channels.c1.type = memory

a1.channels.c1.capacity =

a1.channels.c1.transactionCapacity =

a1.channels.c1.keepalive =

a1.sinks.k1.type =org.apache.flume.plugins.KafkaSink

a1.sinks.k1.metadata.broker.list=192.168.22.7:,192.168.22.8:,192.168.22.9:

a1.sinks.k1.serializer.class=kafka.serializer.StringEncoder

a1.sinks.k1.request.required.acks=

a1.sinks.k1.max.message.size=

a1.sinks.k1.producer.type=sync

a1.sinks.k1.custom.encoding=UTF-

a1.sinks.k1.custom.topic.name=test

a1.sinks.k1.channel=c1

a1.sinks.k1.product.source.name=

配置读取源文件的读取路径如下:

a1.sources.r1.command = tail -F /home/hadoop/hjh/spark/test.txt

读取的数据传到kafka的哪个topic下:

a1.sinks.k1.custom.topic.name=test

2.启动flume读取数据

nohup bin/flume-ng  agent -c conf -f conf/test.properties -n a1 -Dflume.root.logger=INFO,console &

二.kafka缓冲数据

1.启动zookeeper服务(启动kafka自带的单机zookeeper)

bin/zookeeper-server-start.sh config/zookeeper.properties

2.启动kafka服务

nohup bin/kafka-server-start.sh config/server.properties &

3.创建一个topic

bin/kafka-topics.sh --create --zookeeper localhost: --replication-factor  --partitions  --topic test

集群情况下，localhost换成集群的master地址

4.查看kafka的topic

bin/kafka-topics.sh --list --zookeeper localhost:

三.SparkStream处理数据

1.用spark中自带例子进行测试

进入spark目录

bin/run-example org.apache.spark.examples.streaming.KafkaWordCount zoo01,zoo02,zoo03 my-consumer-group test

zoo01,zoo02,zoo03替换为集群的zookeeper地址

2.往源文件中加入数据

echo "test test" >> test.txt

sparkStream会统计源数据中单词的数量并输出

Flume+kakfa+sparkStream实时处理数据测试的更多相关文章

[Flume][Kafka]Flume 与 Kakfa结合例子（Kakfa 作为flume 的sink 输出到 Kafka topic）
Flume 与 Kakfa结合例子(Kakfa 作为flume 的sink 输出到 Kafka topic) 进行准备工作: $sudo mkdir -p /flume/web_spooldir$su ...
Kakfa的设计思想
Kafka Kafka是最初由Linkedin公司开发,是一个分布式.支持分区的(partition).多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实 ...
本地文件到通过flume到kafka
配置文件 cd /usr/app/flume1.6/conf vi flume-dirKakfa.properties #agent1 name agent1.sources=source1 agen ...
Flume+Kafka+storm的连接整合
Flume-ng Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统. Flume的文档可以看http://flume.apache.org/FlumeUserGuide.html ...
【采集层】Kafka 与 Flume 如何选择--转自悟性的博文
[采集层]Kafka 与 Flume 如何选择收藏悟性发表于 2年前阅读 23167 收藏 16 点赞 4 评论 1 摘要: Kafka, Flume 采集层主要可以使用Flume, Kaf ...
Storm与Spark：谁才是我们的实时处理利器
Storm与Spark:谁才是我们的实时处理利器 ——实时商务智能目前已经逐步迈入主流,而Storm与Spark开源项目的支持无疑在其中起到了显著的推动作用.那么问题来了:实时处理到底哪家强? 实时商 ...
flume+kafka+smart数据接入实施手册
1. 概述本手册主要介绍了,一个将传统数据接入到Hadoop集群的数据接入方案和实施方法.供数据接入和集群运维人员参考. 1.1. 整体方案 Flume作为日志收集工具,监控一个文件目录或者一 ...
Apache Storm 与 Spark：对实时处理数据，如何选择【翻译】
原文地址实时商务智能这一构想早已算不得什么新生事物(早在2006年维基百科中就出现了关于这一概念的页面).然而尽管人们多年来一直在对此类方案进行探讨,我却发现很多企业实际上尚未就此规划出明确发展思路 ...
Flume FileChannel优化（扩展）实践指南
本文系微博运维数据平台(DIP)在Flume方面的优化扩展经验总结,在使用Flume FileChannel的场景下将吞吐率由10M/s~20M/s提升至80M/s~90M/s,分为四个部分进行介绍: ...

随机推荐

AJPFX实现兔子问题
有一对小兔子,从第三个月长成开始每个月生一对小兔子,新出生的小兔子从第三个月长成开始每个月也生一对小兔子,假设所有的兔子都不会死,问每个月兔子的总数?(月数可以是6,12).大神看看我笨方法谢的对吗? ...
Java 设置Word页面背景色
Word中可以针对不同文档排版设计要求来设置背景设置颜色.常见的可设置单一颜色.渐变色或加载指定图片来设置成背景.下面通过Java来设置以上3种Word页面背景色. 使用工具:Spire.Doc fo ...
jsonp对付同源策略
当协议不同或者域名/ip不同或者端口号不同 , 都不算是同源这时候源生的ajax 就不能进行数据请求了 JSONP json with padding 在平时的开发中也发现了 ,当我们请求 ...
Javaweb学习笔记5—Cookie&Session
今天来讲javaweb的第五阶段学习. Cookie和Session同样是web开发常用到的地方. 老规矩,首先先用一张思维导图来展现今天的博客内容. ps:我的思维是用的xMind画的,如果你对我的 ...
原创Couldn't read packet: Connection reset by peer 错误排查思路（推荐）
作为一个运维不是你懂多少知识才是你的价值你有幸能遇到多少错误才是你的最大的价值知识你有我有大家有错误我有你没有这便是我的价值我遇到一个错误蛮难遇到的一个错误所以想分享给大家下面我 ...
js Math 对象
Math 对象方法方法描述 abs(x) 返回数的绝对值. acos(x) 返回数的反余弦值. asin(x) 返回数的反正弦值. atan(x) 以介于 -PI/2 与 PI/2 弧度之间的数值 ...
DROP USER - 删除一个数据库用户帐号
SYNOPSIS DROP USER name DESCRIPTION 描述 DROP USER 从数据库中删除指定的用户. 它不删除数据库里此用户所有的表,视图或其他对象. 如果该用户拥有任何数据库 ...
process data
# version 1.0def connect_mysql(sql, oper_type="select", data_l=None): conn = pymysql.conne ...
LinkedHashMap/HashMap(数҉据҉缓҉存҉准҉备҉)
顾名思义LinkedHashMap是比HashMap多了一个链表的结构.与HashMap相比LinkedHashMap维护的是一个具有双重链表的HashMap,LinkedHashMap支持2中排序一 ...
j数组对象去重
var Arrlist = [ {name:"张三",age:25,time:"2018-07-30 17:45:13"}, {name:"赵六&qu ...

Flume+kakfa+sparkStream实时处理数据测试

Flume+kakfa+sparkStream实时处理数据测试的更多相关文章

随机推荐

热门专题