原文地址：http://www.infoq.com/cn/articles/spark-sreaming-practice

本篇文章用Spark Streaming ＋Hbase为列，Spark Streaming专为流式数据处理，对Spark核心API进行了相应的扩展。

什么是Spark Streaming？

首先，什么是流式处理呢？数据流是一个数据持续不断到达的无边界序列集。流式处理是把连续不断的数据输入分割成单元数据块来处理。流式处理是一个低延迟的处理和流式数据分析。Spark Streaming对Spark核心API进行了相应的扩展，支持高吞吐、低延迟、可扩展的流式数据处理。实时数据处理应用的场景有下面几个：

网站监控和网络监控；
异常监测；
网页点击；
广告数据；

物联网（IOT）

图1

Spark Streaming支持的数据源包括HDFS文件，TCP socket，Kafka，Flume，Twitter等，数据流可以通过Spark核心API、DataFrame SQL或者机器学习API处理，并可以持久化到本地文件、HDFS、数据库或者其它任意支持Hadoop输出格式的形式。

Spark Streaming如何工作？

Spark Streaming以X秒（batch size）为时间间隔把数据流分割成Dstream，组成一个RDD序列。你的Spark应用处理RDD，并把处理的结果批量返回。

图2

Spark Streaming例子的架构图

图3

Spark Streaming例子代码分下面几部分：
- 读取流式数据；
- 处理流式数据；
- 写处理结果倒Hbase表。

Spark处理部分的代码涉及到如下内容：

读取Hbase表的数据；
按天计算数据统计；
写统计结果到Hbase表，列簇：stats。

数据集

数据集来自油泵信号数据，以CSV格式存储在指定目录下。Spark Streaming监控此目录，CSV文件的格式如图3。

图4

采用Scala的case class来定义数据表结构，parseSensor函数解析逗号分隔的数据。

Hbase表结构

流式处理的Hbase表结构如下：

油泵名字＋日期＋时间戳组合成row key；
列簇是由输入数据列、报警数据列等组成，并设置过期时间。
每天等统计数据表结构如下：
油泵名和日期组成row key；

列簇为stats，包含列有最大值、最小值和平均值；

图5

配置写入Hbase表

Spark直接用TableOutputFormat类写数据到Hbase里，跟在MapReduce中写数据到Hbase表一样，下面就直接用TableOutputFormat类了。

Spark Streaming代码

Spark Streaming的基本步骤：

初始化Spark StreamingContext对象；
在DStream上进行transformation操作和输出操作；
开始接收数据并用streamingContext.start()；
等待处理停止，streamingContext.awaitTermination()。

初始化Spark StreamingContext对象

创建 StreamingContext对象，StreamingContext是Spark Streaming处理的入口，这里设置2秒的时间间隔。

val sparkConf = new SparkConf().setAppName("HBaseStream")

// create a StreamingContext, the main entry point for all streaming functionality

val ssc = new StreamingContext(sparkConf, Seconds(2))

接下来用StreamingContext的textFileStream(directory)创建输入流跟踪Hadoop文件系统的新文件，并处理此目录下的所有文件，这里directory指文件目录。

// create a DStream that represents streaming data from a directory source

val linesDStream = ssc.textFileStream("/user/user01/stream")

linesDStream是数据流，每条记录是按行记录的text格式。

图6

对DStream进行transformation操作和输出操作

接下来进行解析，对linesDStream进行map操作，map操作是对RDD应用Sensor.parseSensor函数，返回Sensor的RDD。

// parse each line of data in linesDStream into sensor objects

val sensorDStream = linesDStream.map(Sensor.parseSensor)

图7

对DStream的每个RDD执行foreachRDD 方法，使用filter过滤Sensor中低psi值来创建报警，使用Hbase的Put对象转换sensor和alter数据以便能写入到Hbase。然后使用PairRDDFunctions的saveAsHadoopDataset方法将最终结果写入到任何Hadoop兼容到存储系统。

// for each RDD. performs function on each RDD in DStream

sensorRDD.foreachRDD { rdd =>

// filter sensor data for low psi

val alertRDD = rdd.filter(sensor => sensor.psi < 5.0)

// convert sensor data to put object and write to HBase Table CF data

rdd.map(Sensor.convertToPut).saveAsHadoopDataset(jobConfig)

// convert alert to put object write to HBase Table CF alerts

rdd.map(Sensor.convertToPutAlert).saveAsHadoopDataset(jobConfig)

}

sensorRDD经过Put对象转换，然后写入到Hbase。

图8

开始接收数据

通过streamingContext.start()显式的启动数据接收，然后调用streamingContext.awaitTermination()来等待计算完成。

// Start the computation

    ssc.start()

    // Wait for the computation to terminate

    ssc.awaitTermination()

Spark读写Hbase

现在开始读取Hbase的sensor表，计算每条的统计指标并把对应的数据写入stats列簇。

图9

下面的代码读取Hbase的sensor表psi列数据，用StatCounter计算统计数据，然后写入stats列簇。

// configure HBase for reading

    val conf = HBaseConfiguration.create()

    conf.set(TableInputFormat.INPUT_TABLE, HBaseSensorStream.tableName)

    // scan data column family psi column

    conf.set(TableInputFormat.SCAN_COLUMNS, "data:psi")

// Load an RDD of (row key, row Result) tuples from the table

    val hBaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat],

      classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],

      classOf[org.apache.hadoop.hbase.client.Result])

    // transform (row key, row Result) tuples into an RDD of Results

    val resultRDD = hBaseRDD.map(tuple => tuple._2)

    // transform into an RDD of (RowKey, ColumnValue)s , with Time removed from row key

    val keyValueRDD = resultRDD.

              map(result => (Bytes.toString(result.getRow()).

              split(" ")(0), Bytes.toDouble(result.value)))

    // group by rowkey , get statistics for column value

    val keyStatsRDD = keyValueRDD.

             groupByKey().

             mapValues(list => StatCounter(list))

    // convert rowkey, stats to put and write to hbase table stats column family

    keyStatsRDD.map { case (k, v) => convertToPut(k, v) }.saveAsHadoopDataset(jobConfig)

下面的流程图显示newAPIHadoopRDD输出，（row key，result）的键值对。PairRDDFunctions 的saveAsHadoopDataset方法把Put对象存入到Hbase。

图10

运行Spark Streaming应用

运行Spark Streaming应用跟运行Spark应用类似，比较简单，此处不赘述，参见Spark Streaming官方文档。

用实例讲解Spark Sreaming--转的更多相关文章

Spark Sreaming与MLlib机器学习
Spark Sreaming与MLlib机器学习本来这篇是准备5.15更的,但是上周一直在忙签证和工作的事,没时间就推迟了,现在终于有时间来写写Learning Spark最后一部分内容了. 第10 ...
float实例讲解
float实例讲解 float是个强大的属性,在实际前端开发过程中,人们经常拿它来进行布局,但有时,使用的不好,也麻烦多多啊. 比如,现在我们要实现一个两列布局,左边的列,宽度固定:右边的列,宽度自动 ...
S3C2440上RTC时钟驱动开发实例讲解(转载)
嵌入式Linux之我行,主要讲述和总结了本人在学习嵌入式linux中的每个步骤.一为总结经验,二希望能给想入门嵌入式Linux的朋友提供方便.如有错误之处,谢请指正. 共享资源,欢迎转载:http:/ ...
实例讲解Oracle数据库设置默认表空间问题
实例讲解Oracle数据库设置默认表空间问题实例讲解Oracle数据库设置默认表空间问题,阅读实例讲解Oracle数据库设置默认表空间问题,DBA们经常会遇到一个这样令人头疼的问题:不知道谁在O ...
基于tcpdump实例讲解TCP/IP协议
前言虽然网络编程的socket大家很多都会操作,但是很多还是不熟悉socket编程中,底层TCP/IP协议的交互过程,本文会一个简单的客户端程序和服务端程序的交互过程,使用tcpdump抓包,实例讲 ...
makefile基础实例讲解分类： C/C++ 2015-03-16 10:11 66人阅读评论(0) 收藏
一.makefile简介定义:makefile定义了软件开发过程中,项目工程编译链.接接的方法和规则. 产生:由IDE自动生成或者开发者手动书写. 作用:Unix(MAC OS.Solars)和Li ...
实例讲解Linux系统中硬链接与软链接的创建
导读 Linux链接分两种,一种被称为硬链接(Hard Link),另一种被称为符号链接(Symbolic Link).默认情况下,ln命令产生硬链接.硬链接与软链接的区别从根本上要从Inode节点说 ...
spring事务传播机制实例讲解
http://kingj.iteye.com/blog/1680350 spring事务传播机制实例讲解博客分类: spring java历险天温习spring的事务处理机制,总结 ...
实例讲解MySQL联合查询
好了终于贴完了MySQL联合查询的内容了,加上上一篇一共2篇,都是我转载的,实例讲解MySQL联合查询.那下面就具体讲讲简单的JOIN的用法了.首先我们假设有2个表A和B,他们的表结构和字段分别为: ...

随机推荐

Async/Await FAQ
From time to time, I receive questions from developers which highlight either a need for more inform ...
00.PHP学习建议
各位师弟师妹,大家好~PHP不是我们专业的本该有的方向.我不知道大家为什么来学习这门语言,也许是自己了解之后喜欢这门语言(我想这种可能在我们专业是挺少的),也许是听守中哥说这门语言简单好学,为了躲避学 ...
Memcached & Redis使用
Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载.它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态.数据库驱动网站的速度.Memcached ...
Ubuntu/Linux 下pdf阅读器Zathura(类vim操作)
Ubuntu下源安装: sudo apt-get install zathura 操作总结: 基本操作与vim一致,对于熟悉vim快捷键的十分方便: 向下移动一页是J(Ctrl+f),向上移动一页是K ...
Windows phone8.1教务在线客户端
本人是个大二学生,由于学校的教务在线一直没出windows phone的教务在线,而且本身也对wp开发感兴趣,所以就尝试着开发一下由于没有系统的学习,只能在摸索中前进,这背后的原理很简单,可不容易实 ...
（转载）JAVA线程池管理
平时的开发中线程是个少不了的东西,比如tomcat里的servlet就是线程,没有线程我们如何提供多用户访问呢?不过很多刚开始接触线程的开发攻城师却在这个上面吃了不少苦头.怎么做一套简便的线程开发模式 ...
Win10 UWP开发中的重复性静态UI绘制小技巧 2
小技巧1 地址:http://www.cnblogs.com/ms-uap/p/4641419.html 介绍我们在上一篇博文中展示了通过Shape.Stroke族属性实现静态重复性UI绘制,使得U ...
hadoop学习笔记：zookeeper学习（上）
在前面的文章里我多次提到zookeeper对于分布式系统开发的重要性,因此对zookeeper的学习是非常必要的.本篇博文主要是讲解zookeeper的安装和zookeeper的一些基本的应用,同时我 ...
Java提高篇（三五）-----Java集合细节（一）：请为集合指定初始容量
集合是我们在Java编程中使用非常广泛的,它就像大海,海纳百川,像万能容器,盛装万物,而且这个大海,万能容器还可以无限变大(如果条件允许).当这个海.容器的量变得非常大的时候,它的初始容量就会显得很重 ...
跟我一起云计算（3）——hbase
hbase HBase是一个分布式的.面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”.就像Bigtable利用了Go ...

用实例讲解Spark Sreaming--转