sparkStreaming与Kafka整合

createStream那几个参数折腾了我好久。。网上都是一带而过,最终才搞懂..关于sparkStreaming的还是太少，最终尝试成功。。。

首先启动zookeeper

./bin/zookeeper-server-start.sh config/zookeeper.properties &

启动kafka

bin/kafka-server-start.sh config/server.properties &

创建一个topic

./kafka-topics.sh  --create --zookeeper 192.168.77.133:2181 \ --replication-factor 1\ --partitions 1\ --topic yangsy

随后启动一个终端为9092的提供者

./kafka-console-producer.sh --broker-list 192.168.77.133:9092 --topic yangsy

代码如下:

import org.apache.spark.SparkConf

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.kafka.KafkaUtils

import org.apache.spark.streaming.{Seconds, StreamingContext}

/**

 * Created by root on 11/28/15.

 */

object SparkStreaming {

  def main(args: Array[String]) {

/*    val sparkConf = new SparkConf().setMaster("local").setAppName("cocapp")

      .set("spark.executor.memory", "1g")

    val sc = new StreamingContext(sparkConf, Seconds(20))

    val lines = sc.textFileStream("/usr/local/spark-1.4.0-bin-2.5.0-cdh5.2.1/streaming")

    val words = lines.flatMap(_.split(" "))

    val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)

    wordCounts.print()

    sc.start()

    sc.awaitTermination()*/

　　//zookeeper的地址

    val zkQuorum = "192.168.77.133:2181"
   //group_id可以通过kafka的conf下的consumer.properties中查找

    val group ="test-consumer-group"
　　//创建的topic 可以是一个或多个

    val topics = "yangsy"

    val sparkConf = new SparkConf().setMaster("local").setAppName("cocapp").set("spark.executor.memory", "1g")

    val sc = new StreamingContext(sparkConf, Seconds(2))

    val numThreads = 2

    val topicpMap = topics.split(",").map((_, numThreads.toInt)).toMap
    //StorageLevel.MEMORY_AND_DISK_SER为存储的级别

    val lines  = KafkaUtils.createStream(sc, zkQuorum, group, topicpMap, StorageLevel.MEMORY_AND_DISK_SER).map(_._2)
    //对于收到的消息进行wordcount

    val words = lines.flatMap(_.split(" "))

    val pairs = words.map(word => (word, 1))

    val wordCounts = pairs.reduceByKey(_ + _)

    wordCounts.print()

    sc.start()

    sc.awaitTermination()

  }

}

随后再你启动的kafka的生产者终端随便输入消息，我这里设置的参数是每2秒获取一次，统计一次单词个数~OK~

sparkStreaming与Kafka整合的更多相关文章

【SparkStreaming学习之三】 SparkStreaming和kafka整合
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark ...
【Spark】SparkStreaming和Kafka的整合
文章目录 Streaming和Kafka整合概述使用0.8版本下Receiver DStream接收数据进行消费步骤一.启动Kafka集群二.创建maven工程,导入jar包三.创建一个k ...
SparkStreaming与Kafka，SparkStreaming接收Kafka数据的两种方式
SparkStreaming接收Kafka数据的两种方式 SparkStreaming接收数据原理一.SparkStreaming + Kafka Receiver模式二.SparkStreami ...
SparkStreaming+Kafka整合
SparkStreaming+Kafka整合 1.需求使用SparkStreaming,并且结合Kafka,获取实时道路交通拥堵情况信息. 2.目的对监控点平均车速进行监控,可以实时获取交通拥堵情 ...
图解SparkStreaming与Kafka的整合，这些细节大家要注意！
前言老刘是一名即将找工作的研二学生,写博客一方面是复习总结大数据开发的知识点,一方面是希望帮助更多自学的小伙伴.由于老刘是自学大数据开发,肯定会存在一些不足,还希望大家能够批评指正,让我们一起进步! ...
【转】Spark Streaming和Kafka整合开发指南
基于Receivers的方法这个方法使用了Receivers来接收数据.Receivers的实现使用到Kafka高层次的消费者API.对于所有的Receivers,接收到的数据将会保存在Spark ...
spark第十篇：Spark与Kafka整合
spark与kafka整合需要引入spark-streaming-kafka.jar,该jar根据kafka版本有2个分支,分别是spark-streaming-kafka-0-8和spark-str ...
SparkStreaming和Kafka基于Direct Approach如何管理offset实现exactly once
在之前的文章<解析SparkStreaming和Kafka集成的两种方式>中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Di ...
flume与kafka整合
flume与kafka整合前提: flume安装和测试通过,可参考:http://www.cnblogs.com/rwxwsblog/p/5800300.html kafka安装和测试通过,可参考: ...

随机推荐

nginx和apache下的url rewrite
将服务器上面的数据同步到本地之后,发现打开首页显示不正常,本地服务器是apache,经过打开url rewrite之后本地首页正常显示. 原因是phpwind本身支持了url rewrite的功能,但 ...
HDU-4747 Mex（线段树区间更新）
题目大意:给一个长度为n的整数序列,定义mex(i,j)表示区间[i,j]中没有出现过的最小非负整数,求sigma(mex(i,j)),即序列中所有连续非空子区间的mex之和. 题目分析: answe ...
js获取ifram对象
1.获取iframe对象 var doc=document.getElementById('frameId').contentWindow.document; //var doc=parent.doc ...
ES
https://www.elastic.co/guide/en/elasticsearch/reference/current/setup-service-win.html https://www.e ...
Git-rebase与merge小结
git merge是用来合并两个分支的. git merge b # 将b分支合并到当前分支同样 git rebase b,也是把 b分支合并到当前分支 ---------------------- ...
Textarea高度随内容自适应地增长，无滚动条
<HTML> <HEAD> <meta http-equiv="Content-Type" content="text/html; char ...
拿什么来拯救你，我的table
分类: Html/CSS | 转载请注明: 出自海玉的博客本文地址: http://www.hicss.net/how-to-save-you-my-table/ table曾经在网页开发中占据着 ...
Python字典笔记
1.字典是Python中=唯一的映射类型.映射类型对象里哈希值(键,key)和只指向的对象(值,value)是一对多的关系,一个字典是可变的,是一个容器类型.字典类型和序列类型(元组,列表)的不同在于 ...
Python--类定义
转自:http://kanwoerzi.iteye.com/blog/1304466 Python笔记——类定义一.类定义: class <类名>: <语句> 类实例化后,可 ...
easyui datagrid 表格组件列属性formatter和styler使用方法
明确单元格DOM结构要想弄清楚formatter和styler属性是怎么工作的,首先要弄清楚datagrid组件内容单元格的DOM接口,注意,这里指的是内容单元格,不包括标题单元格,标题单元格的结构 ...

sparkStreaming与Kafka整合

sparkStreaming与Kafka整合的更多相关文章

随机推荐

热门专题