spark+kafka 小案例

（1）下载kafka的jar包

http://kafka.apache.org/downloads

spark2.1 支持kafka0.8.2.1以上的jar,我是spark2.0.2,下载的kafka_2.11-0.10.2.0

（2）Consumer代码

package com.sparkstreaming

import org.apache.spark.SparkConf

import org.apache.spark.streaming.Seconds

import org.apache.spark.streaming.StreamingContext

import org.apache.spark.streaming.kafka010.KafkaUtils

import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent

import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe

import org.apache.kafka.common.serialization.StringDeserializer

object SparkStreamKaflaWordCount {

def main(args: Array[String]): Unit = {

//创建streamingContext

var conf=new SparkConf().setMaster("spark://192.168.177.120:7077")

.setAppName("SparkStreamKaflaWordCount Demo");

var ssc=new StreamingContext(conf,Seconds());

//创建topic

//var topic=Map{"test" -> 1}

var topic=Array("test");

//指定zookeeper

//创建消费者组

var group="con-consumer-group"

//消费者配置

val kafkaParam = Map(

"bootstrap.servers" -> "192.168.177.120:9092,anotherhost:9092",//用于初始化链接到集群的地址

"key.deserializer" -> classOf[StringDeserializer],

"value.deserializer" -> classOf[StringDeserializer],

//用于标识这个消费者属于哪个消费团体

"group.id" -> group,

//如果没有初始化偏移量或者当前的偏移量不存在任何服务器上，可以使用这个配置属性

//可以使用这个配置，latest自动重置偏移量为最新的偏移量

"auto.offset.reset" -> "latest",

//如果是true，则这个消费者的偏移量会在后台自动提交

"enable.auto.commit" -> (false: java.lang.Boolean)

);

//创建DStream，返回接收到的输入数据

var stream=KafkaUtils.createDirectStream[String,String](ssc, PreferConsistent,Subscribe[String,String](topic,kafkaParam))

 //每一个stream都是一个ConsumerRecord

stream.map(s =>(s.key(),s.value())).print();

ssc.start();

ssc.awaitTermination();

}

}

（3）启动zk

//我是已经配置好zookeeper的环境变量了，

zoo1.cfg配置

# The number of milliseconds of each tick

tickTime=

# The number of ticks that the initial

# synchronization phase can take

initLimit=

# The number of ticks that can pass between

# sending a request and getting an acknowledgement

syncLimit=

# the directory where the snapshot is stored.

dataDir=/home/zhangxs/datainfo/developmentData/zookeeper/zkdata1

# the port at which the clients will connect

clientPort=

server.=zhangxs::

启动zk服务

zkServer.sh start zoo1.cfg

（4）启动kafka服务

【bin/kafka-server-start.sh config/server.properties】

[root@zhangxs kafka_2.]# bin/kafka-server-start.sh config/server.properties

[-- ::,] INFO KafkaConfig values:

advertised.host.name = null

advertised.listeners = null

advertised.port = null

authorizer.class.name =

auto.create.topics.enable = true

auto.leader.rebalance.enable = true

background.threads =

broker.id =

broker.id.generation.enable = true

broker.rack = null

compression.type = producer

connections.max.idle.ms =

controlled.shutdown.enable = true

controlled.shutdown.max.retries =

controlled.shutdown.retry.backoff.ms =

controller.socket.timeout.ms =

create.topic.policy.class.name = null

default.replication.factor =

delete.topic.enable = false

fetch.purgatory.purge.interval.requests =

group.max.session.timeout.ms =

group.min.session.timeout.ms =

host.name =

inter.broker.listener.name = null

inter.broker.protocol.version = 0.10.-IV0

leader.imbalance.check.interval.seconds =

（5）（重新打开一个终端）启动生产者进程

[root@zhangxs kafka_2.]# bin/kafka-console-producer.sh --broker-list 192.168.177.120: --topic test

（6）将代码打成jar，jar名【streamkafkademo】，放到spark_home/jar/ 下面

（7）提交spark应用程序（消费者程序）

./spark-submit --class com.sparkstreaming.SparkStreamKaflaWordCount  /usr/local/development/spark-2.0/jars/streamkafkademo.jar

(8)在生产者终端上输入数据

zhang xing sheng

（9）打印结果

// :: INFO cluster.CoarseGrainedSchedulerBackend$DriverEndpoint: Launching task  on executor id:  hostname: 192.168.177.120.

// :: INFO storage.BlockManagerInfo: Added broadcast_99_piece0 in memory on 192.168.177.120: (size: 1913.0 B, free: 366.3 MB)

// :: INFO scheduler.TaskSetManager: Finished task 0.0 in stage 99.0 (TID ) in  ms on 192.168.177.120 (/)

// :: INFO scheduler.TaskSchedulerImpl: Removed TaskSet 99.0, whose tasks have all completed, from pool

// :: INFO scheduler.DAGScheduler: ResultStage  (print at SparkStreamKaflaWordCount.scala:) finished in 0.019 s

// :: INFO scheduler.DAGScheduler: Job  finished: print at SparkStreamKaflaWordCount.scala:, took 0.023450 s

-------------------------------------------

Time:  ms

-------------------------------------------

(null,zhang xing sheng)

遇到过的问题：

（1）在使用eclipse编写消费者程序时发现没有KafkaUtils类。这个jar是需要另下载的。然后build到你的工程里就可以了

maven

<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming_2.11</artifactId>
<version>2.1.0</version>
</dependency>

jar下载

http://search.maven.org/#search%7Cga%7C1%7Cg%3A%22org.apache.spark%22%20AND%20v%3A%222.1.0%22

（2）在提交spark应用程序的时候，抛出类找不到

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/StringDeserializer

at com.sparkstreaming.SparkStreamKaflaWordCount$.main(SparkStreamKaflaWordCount.scala:)

at com.sparkstreaming.SparkStreamKaflaWordCount.main(SparkStreamKaflaWordCount.scala)

at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
------------------------------------------------------------------------

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/streaming/kafka010/KafkaUtils$

at com.sparkstreaming.SparkStreamKaflaWordCount$.main(SparkStreamKaflaWordCount.scala:)

at com.sparkstreaming.SparkStreamKaflaWordCount.main(SparkStreamKaflaWordCount.scala)

at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

这个需要你将【spark-streaming-kafka-0-10_2.11-2.1.0】，【kafka-clients-0.10.2.0】这两个jar添加到 spark_home/jar/路径下就可以了。（这个只是我这个工程里缺少的jar）

spark+kafka 小案例的更多相关文章

kafka 小案例【二】 --kafka 设置多个消费着集群
这个配是我在http://www.cnblogs.com/zhangXingSheng/p/6646972.html 的基础上再添加的配置设置多个消息集群 (1)复制两份配置文件 > cp c ...
kafka 小案例【一】---设置但个消息集群
启动kafka服务 [ bin/kafka-server-start.sh config/server.properties ] [root@zhangxs kafka_2.]# bin/kafka- ...
大数据Spark+Kafka实时数据分析案例
本案例利用Spark+Kafka实时分析男女生每秒购物人数,利用Spark Streaming实时处理用户购物日志,然后利用websocket将数据实时推送给浏览器,最后浏览器将接收到的数据实时展现, ...
Scala进阶之路-Spark底层通信小案例
Scala进阶之路-Spark底层通信小案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Spark Master和worker通信过程简介 1>.Worker会向ma ...
_00017 Kafka的体系结构介绍以及Kafka入门案例(0基础案例+Java API的使用)
博文作者:妳那伊抹微笑 itdog8 地址链接 : http://www.itdog8.com(个人链接) 博客地址:http://blog.csdn.net/u012185296 博文标题:_000 ...
Spark Streaming updateStateByKey案例实战和内幕源码解密
本节课程主要分二个部分: 一.Spark Streaming updateStateByKey案例实战二.Spark Streaming updateStateByKey源码解密第一部分: upda ...
graph小案例
(小案例,有五个人他们参见相亲节目,这个五个人分别是0,1,2,3,4,号选手,计算出追随者年龄大于被追随者年龄的人数和平均年龄) scala> import org.apache.spark. ...
机械表小案例之transform的应用
这个小案例主要是对transform的应用. 时钟的3个表针分别是3个png图片,通过setInterval来让图片转动.时,分,秒的转动角度分别是30,6,6度. 首先,通过new Date函数获取 ...
shell讲解-小案例
shell讲解-小案例一.文件拷贝输出检查下面测试文件拷贝是否正常,如果cp命令并没有拷贝文件myfile到myfile.bak,则打印错误信息.注意错误信息中basename $0打印脚本名.如 ...

随机推荐

CF986A Fair【图论/BFS】
[题意]: 有些公司将在Byteland举办公平的会议.Byteland的n个城镇,m条两镇之间的双向道路.当然,你可以使用道路从任一个城镇到达任何城镇. 有k种商品产自Byteland,并且每个城镇 ...
Hadoop之Vmware通过仅Use Host-Only networking（使用主机网络）主机链接
Use Host-Only networking(使用主机网络)连接方式 [1]现在宿主机也就是本地电脑上设置IP地址 [2]设置虚拟机 Host-Only 方式验证宿 ...
Python的支持工具[1] -> 可执行文件生成工具[1] -> cx_freeze
cx_freeze cx_Freeze 是一个第三方库,可以用于将 Python 的代码打包成可执行文件,下面介绍如何利用一个脚本文件将 Python 代码变为 exe 可执行文件. 首先,需要安装 ...
poj3311（状态压缩DP）
poj3311 题意给出一个矩阵,i 行 j 列表示位置 i 到 j 的时间. 求从 0 点出发经过 1 到 n 所有点后并返回 0 点最短耗时. 分析先用 Floyd 算法,求出两点之间最短路, ...
liunx安装telnet
安装环境:CentOS 6.4 一.安装telnet 1.检测telnet-server的rpm包是否安装 [root@localhost ~]# rpm -qa telnet-server 若无 ...
为Chrome多账户添加单独的快捷方式
Chrome的多账户功能非常好用,每个账户都有自己的独立的收藏夹.个人设置等.但是,当你要使用的账户不是默认账户时,必须经过一个切换的操作.本文将简单的介绍一个如何各账户添加快捷方式,从而实现直接登陆 ...
SONY的一款Win8平板
今天看到了SONY新发布的一款x86的平板电脑: 铝合金的机身,分离的屏幕,非常漂亮.参数上还是很给力的,i5-4210/i7-4610的处理器,1920x1080的屏幕.4G的内存.9.9mm的厚度 ...
ZoomControls控件是一个可以缩放控件，可以实现两个按钮控制图片的大小
<?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android=&quo ...
ServicePointManager.ServerCertificateValidationCallback 冲突的解决
ServicePointManager是用于创建. 维护和删除的实例的静态类ServicePoint类. 当应用程序请求对 Internet 资源统一资源标识符 (URI) 的连接通过ServiceP ...
Go -- 在Go语言中使用JSON struct
Encode 将一个对象编码成JSON数据,接受一个interface{}对象,返回[]byte和error: func Marshal(v interface{}) ([]byte, error) ...

spark+kafka 小案例

spark+kafka 小案例的更多相关文章

随机推荐

热门专题