1、基本概念（了解）

　　①流（Streaming）：

　　　　　　是一种数据传送技术，它把客户机收到的数据变成一个稳定连续的流，源源不断地送出，使用户听到的声音或看到的图象十分平稳，
　　　　　　而且用户在整个文件送完之前就可以开始在屏幕上浏览文件。

　　②常见的流式计算框架

　　　　　　Apache Storm
　　　　　　Spark Streaming
　　　　　　Apache Flink

　　　　　　上述三种实时计算系统都是开源的分布式系统，具有低延迟、可扩展和容错性诸多优点，它们的共同特色在于：

　　　　　　允许你在运行数据流代码时，将任务分配到一系列具有容错能力的计算机上并行运行。
　　　　　　此外，它们都提供了简单的API来简化底层实现的复杂程度。

　　③Spark Streaming：

　　　　　　Spark Streaming 其实是构建在spark core之上的一个应用程序，支持实时数据流的处理。

　　　　　　实时处理大致流程：

　　　　　　输入—–计算—–输出

　　　　　　　　1. 输入：可以从Kafka，Flume,HDFS等获取数据
　　　　　　　　2. 计算：我们可以通过map，reduce,join等一系列算子通过spark计算引擎进行计算（基本和RDD一样，使用起来更方便。）
　　　　　　　　3. 输出：可以输出到HDFS,数据库，HBase等。

　　　　　　特点：

　　　　　　　　高可扩展性：可以运行在上百台机器上

　　　　　　　　低延迟：可以在秒级别上对数据进行处理

　　　　　　　　高可容错性

　　　　　　　　能够集成并行计算程序

2、Spark Streaming工作原理

　　①基础概念理解：

　　　　　　1. 离散流：是我们处理的一个实时数据流，在spark streaming中对应一个DStream，DStream本质是一组时间序列上连续的RDD；

　　　　　　2. 时间片（批处理时间间隔 Batch Interval）：这是人为地对流数据进行定量的标准，以时间片作为我们拆分流数据的依据。一个时间片的数据对应一个RDD实例。

　　　　　　注：通过时间片设置的时间将连续的流数据变化为一批一批的数据，这个过程叫批处理

　　　　　　3. 窗口长度(windowDuration)：一个窗口覆盖的流数据的时间长度。必须是批处理时间间隔的倍数。

　　　　　　注：比如说要每隔5分钟统计过去30分钟的数据，窗口长度为30分钟，30分钟是batch interval （批处理时间间隔）的倍数；

　　　　　　4. 滑动时间间隔(slideDuration)：前一个窗口到后一个窗口所经过的时间长度。必须是批处理时间间隔的倍数。

　　　　　　注：比如说要每隔10分钟统计过去30分钟的数据，窗口时间间隔为10分钟；batch interval （批处理时间间隔）的倍数

　　　　　　5. input DStream :一个inputDStream是一个特殊的DStream 将spark streaming连接到一个外部数据源来读取数据。

　　　　　　6. Receiver :长时间（可能7*24小时）运行在Excutor之上，每个Receiver负责一个inuptDStream (比如读取一个kafka消息的输入流)。

　　　　　　7. JobGenerator: 主要是从DStream产生job, 且根据指定时间执行checkpoint. 他维护了一个定时器，该定时器在批处理时间到来的时候会进行生成作业的操作。

　　　　　　8. JobScheduler: 主要用于调度job。JobScheduler主要通过JobGenerator产生job，并且通过ReceiverTracker管理流数据接收器Receiver

　　　　　　注：JobGenerator每隔一段时间从DStream中产生job，且根据时间执行checkpoint！！！！

　　　　　　注：设置时间片（批处理时间间隔）为5分钟，那么流数据，每五分钟对应一个RDD实例！每隔5分钟统计过去30分钟的数据，那么每隔五分钟处理6个RDD，也就是一个DStream

　　　　　　注：DStream本质是一组时间序列上连续的RDD。每个RDD都包含了自己特定时间间隔内的数据流

　　②工作流程（根据代码）

　　　　　　1、客户端提交作业后启动Driver，Driver是Spark作业的Master。

　　　　　　2、Receiver接收数据后生成Block，并把BlockId汇报给Driver，然后备份到另外一个Executor上。 //未开启wal机制，使用内存备份，但是只备份1份

　　　　　　3、Driver定时启动JobGenerator，根据DStream生成逻辑RDD，然后创建Jobset，交给JobScheduler。 //将DStream转化为RDD，然后创建Jobset

　　　　　　4、JobScheduler负责调度Jobset，交给DAGScheduler，DAGScheduler根据逻辑RDD，生成相应的Stages，每个stage包含一到多个task。

　　　　　　5、TaskScheduler负责把task调度到Executor上，并维护task的运行状态。

　　　　　　注：每个Spark Streaming至少包含一个receiver task。 //receiver task不在Driver节点上,是RM给任务分配的一个剩余资源多的节点

　　　　　　注：每个Receiver负责一个input DStream（连接一个外部数据源来读取数据），具体的数据如果未开启wal，默认保存在内存中，但会内存备份

　　③工作流程（根据逻辑）

　　　　　　Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Core，也就是把Spark Streaming的
　　　　　　输入数据按照batch size（如1秒）分成一段一段的数据（Discretized Stream），每一段数据都转换成Spark中的RDD，
　　　　　　然后将Spark Streaming中对DStream的Transformation操作变为针对Spark中对RDD的Transformation操作，将RDD经过操作变成中间结果保存在内存中（比如shuffle前的数据落地）

3、DStream操作

    ①普通转换

        map、flatMap、filter

        repartition

        union、join(otherStream, [numTasks])

        count、reduce

        countByValue、reduceByKey(func, [numTasks])

        cogroup(otherStream,[numTasks])        //两DStream分别为(K,V)和(K,W)对，返回(K,(Seq[V],Seq[W])对新DStreams

        transform    (func)                //对原DStream的每个RDD做func操作，

        updateStateByKey(func)            //这个方法可以被用来维持每个键的任何状态数据。就是维持每个job的k，v值，然后可以进行处理，可以用于全局key计数

        注：https://blog.csdn.net/qq_21383435/article/details/80573725    （transform过滤黑名单实例）

        注：https://blog.csdn.net/lmb09122508/article/details/80537881    （updateStateByKey全局计数）

        注：UpdateStateByKey：统计全局的key的状态，但是就算没有数据输入，他也会在每一个批次的时候返回之前的key的状态。

                             假设5s产生一个批次的数据，那么5s的时候就会更新一次的key的值，然后返回。

　　　　　　　　　　　　　　　　这样的缺点就是，如果数据量太大的话，而且我们需要checkpoint数据，这样会占用较大的存储。

            MapWithState：也是用于全局统计key的状态，但是它如果没有数据输入，便不会返回之前的key的状态，有一点增量的感觉。

                这样做的好处是，我们可以只是关心那些已经发生的变化的key，对于没有数据输入，则不会返回那些没有变化的key的数据。

                这样的话，即使数据量很大，checkpoint也不会像updateStateByKey那样，占用太多的存储。 

    ②窗口转换

        window                (windowLength, slideInterval)                //返回一个基于参数slideInterval * windowLength 计算后得到新的DStream。        

        countByWindow            (windowLength,slideInterval)                //返回基于滑动窗口的DStream中的元素的数量

        reduceByWindow            (func, windowLength,slideInterval)            //基于滑动窗口对源DStream中的元素进行聚合操作，得到一个新的DStream。

        reduceByKeyAndWindow        (func,windowLength, slideInterval, [numTasks])

        reduceByKeyAndWindow        (func, invFunc,windowLength, slideInterval, [numTasks])

        countByValueAndWindow        (windowLength,slideInterval, [numTasks])

    ③输出操作

        print()                        //在Driver中打印出DStream中数据的前10个元素

        saveAsTextFiles  saveAsObjectFiles  saveAsHadoopFiles 

        foreachRDD(func)                    //遍历每个RDD

    注：无状态转化操作就是把简单的 RDD 转化操作应用到每个批次上，也就是转化 DStream 中的每一个 RDD

    注：有状态的转化操作updateStateByKey、窗口转换

4、Spark Streaming的容错和数据无丢失机制（WAL机制 <------>预写文件机制）

　　　　背景：对于一些文件的数据源，driver的恢复机制可以保证数据无丢失，因为所有的数据都保存在HDFS或S3上面，因为节点宕机可以在现有的数据上重新计算。

　　　　　　　对于一些像kafka,flume等数据源，接收的数据保存在内存中将有可能丢失，这是因为spark应用分布式运行的，如果driver进程挂了，所有的executor进程将团灭，
　　　　　　　保存在这些进程所持有内存中的数据将会丢失

　　　　　　　注：Spark也有内存备份，所以不是整个集群挂掉的话（driver宕机），内存中的数据也比较难丢失。不开启wal的话，数据保存在内存中！

　　　　wal：

　　　　　　WAL使用在文件系统和数据库中用于数据操作的持久性，先把数据写到一个持久化的日志中，然后对数据做操作，如果操作过程中系统挂了，
　　　　　　恢复的时候可以重新读取日志文件再次进行操作

　　　　　　对于像kafka和flume这些使用接收器来接收数据的数据源。接收器作为一个长时间的任务运行在executor中，负责从数据源接收数据，如果数据源支持的话，
　　　　　　向数据源确认接收到数据，然后把数据存储在executor的内存中，然后driver在exector上运行任务处理这些数据。（数据越大，则对内存要求越高）

　　　　　　如果wal启用了，所有接收到的数据会保存到一个日志文件中去（HDFS), 这样保存接收数据的持久性，此外，如果只有在数据写入到log中之后接收器才向数据源确认，
　　　　　　这样drive重启后那些保存在内存中但是没有写入到log中的数据将会重新发送，这两点保证的数据的无丢失。

　　　　　　注：wal的日志文件是保存在HDFS或者本地磁盘上的

　　　　　　注：但是实时数据过来，会进入缓冲区，然后会写入一个持久化的日志中,但是缓存区的数据不会清空，会直接拿来进行spark计算！！持久化的日志仅仅是系统挂了，用于恢复数据！！
　　　　　　　　但是还是容易内存溢出，所以wal在实际中，如果不开启，则内存必须够！

　　　　　　注：值得注意的是WAL开启了以后会减少Spark Streaming处理数据的吞吐，因为所有接收的数据会被写到到容错的文件系统上，这样文件系统的吞吐和网络带宽将成为瓶颈。
　　　　　　　　可以通过添加更多接收器进行解决

　　　　wal实现：

　　　　　　给streamingContext设置checkpoint的目录，该目录必须是HADOOP支持的文件系统，用来保存WAL和做Streaming的checkpoint

　　　　　　checkpoint("hdfs://xxxx/xx")

5、Spark Streaming中的Receiver方式和直连方式

　　　　　　Spark Streaming从Kafka中接受数据的时候有两种方式，一种是使用Receiver的老方法，另一种是使用直连的方法

　　1.Receiver方式

　　　　　　　　从Kafka中拉取数据，每次接受固定时间间隔的数据存储到内存中，但是这样可能会因为数据量太大，而造成内存溢出，溢出的数据就会发生丢失。

　　　　　　　　所以要么内存充足，要么使用WAL，将数据通过预写日志中保存在HDFS或者磁盘中，以保证数据不丢失。但一般为了保证突发情况，都是开启WAL。

　　　　　　　　（如果Receiver的是Kafka，那么WAL写入还是数据！！不是偏移量）

　　　　　　　　实际生产中，已经不使用这种了。

　　2.director(直连方式)

　　　　　　　　这种方法不是使用接收器来接收数据，而是定期向Kafka查询每个主题+分区中的最新偏移量，并相应地定义要在每个批次中处理的偏移量范围，
　　　　　　　　然后直接从kafka的分区文件中进行读消息，而不是将这个偏移量范围内的数据全部加入内存。

　　　　　　　　当启动处理数据的作业时，Kafka的简单消费者API用于读取Kafka定义的偏移范围（类似于从文件系统读取的文件）

　　　　　　　　该方法是直接将RDD中的分区连接到Kafka的分区上，相当于连接了一条水管，这样读取数据的效率更高（但是需要自己维护偏移量---定期维护每个kafka的每个主题每个分区的偏移量）

　　　　　　　　1、直连方式从Kafka集群中读取数据，并且在Spark Streaming系统里面维护偏移量相关的信息，实现零数据丢失，保证不重复消费，比createStream更高效（数据读且只读一次）

　　　　　　　　2、创建的DStream的rdd的partition做到了和Kafka中topic的partition一一对应。（读数据、处理数据在同一个节点！这样可以边读边处理！速度得到提高）

　　　　　　　　3、zookeeper更新zookeeper中的consumer offsets还需要自己去实现。但是Receiver不用手动实现。

　　　　　　　　大体思路：

　　　　　　　　　　在采用直连的方式消费kafka中的数据的时候，大体思路是首先获取保存在zookeeper中的偏移量信息，
　　　　　　　　　　根据偏移量信息去创建stream，消费数据后再把当前的偏移量写入zk中。

　　　　　　　　　　//zookeeper更新zookeeper中的consumer offsets还需要自己去实现，而不是zookeeper进行监控
　　　　　　　　　　//director不用开启wal机制，因为数据不会发生丢失！！

　　　　　　　　优势：

　　　　　　　　　　1、降低资源。Direct不需要Receivers，其申请的Executors全部参与到计算任务中

　　　　　　　　　　2、降低内存。在计算时读取数据，然后直接计算，而不是数据全部在内存中。所以对内存的要求很低

　　　　　　　　不足：

　　　　　　　　　　1、提高成本。Direct需要用户采用checkpoint或者第三方存储来维护offsets（zk、mysql等），
　　　　　　　　　　而不像Receiver-based那样，通过ZooKeeper自动维护Offsets，此提高了用户的开发成本。

　　　　　　　　　　注：consumer offsets是必须要保存的，但是不一定用zookeeper，可以用checkpoint，mysql等。（Checkpoint保存偏移量，Receiver Checkpoint是开启wal，其中保存的是数据）

6、Spark Streaming 容错、持久化和性能调优

    ①容错

        DStream基于RDD组成，RDD的容错性依旧有效：

            1、RDD是一个不可变的、确定性的可重复计算的分布式数据集。RDD的某些partition丢失了，可以通过血统（lineage）信息重新计算恢复；

            2、如果RDD任何分区因worker节点故障而丢失，那么这个分区可以从原来依赖的容错数据集中恢复；            //节点故障，从数据中进行重新计算

            3、即使集群出现故障，只要输入数据集存在，所有的中间结果都是可以被计算的                    //集群故障，从数据中进行重新计算

        Spark Streaming是可以从HDFS和S3这样的文件系统读取数据的，这种情况下所有的数据都可以被重新计算，不用担心数据的丢失。

        但是在大多数情况下，Spark Streaming是基于网络来接受数据的，

            1、内存备份：在接受网络的数据时会在集群的多个Worker节点间进行数据的复制（默认的复制数是2）

            2、wal：预写日志文件

    ②持久化

        1、缓存（persisit）

            ①Dstream是由一系列的RDD构成的，它同一般的RDD一样，也可以将流式数据持久化，采用同样的persisit方法，调用该方法后DStream将持久化所有的RDD数据。

            ②reduceByWindow、reduceByKeyAndWindow等基于窗口操作的方法，它们默认都是有persisit操作的。因为这些都是相当于全局运算。所以系统会自动缓存

        2、Checkpoint

            Spark Streaming应用程序如果不手动停止，则将一直运行下去，在实际中应用程序一般是24小时*7天不间断运行的，因此Streaming必须对诸如系统错误，

            JVM出错等与程序逻辑无关的错误(failures)具体很强的弹性，具备一定的非应用程序出错的容错性。Spark Streaming的Checkpoint机制便是为此设计的

            它将足够多的信息checkpoint到某些具备容错性的存储系统如hdfs上，以便出错时能够迅速恢复。

            ①什么时候需要启用checkpoint？

                1、对于窗口和有状态的操作如updateStateByKey、reduceByKeyAndWindow必须checkpoint，必须通过StreamingContext的checkpoint来指定目录

                     来允许定时的RDD checkpoint 。因为这些操作都是相当于全局运算。不指定目录，不容易恢复。

                2、希望能从意外中恢复driver ，如非程序的系统错误！

                3、Receiver可以用Checkpoint开启wal机制，Director也可以用Checkpoint保存偏移量（Receiver在checkpoint 存入的是数据，Director存入的是偏移量）

                注：类似的全局操作都必须使用checkpoint ，不管是director还是Receiver方式连接kafka

            ②如何使用checkpoint？

                ssc.checkpoint(ckeckpointDirectory)                            //指定目录

                - 若application为首次重启，将创建一个新的StreamContext实例

                - 如果application是从失败中重启，将会从checkpoint目录导入checkpoint数据来重新创建StreamingContext实例。

                val ssc = StreamingContext.getOrCreate(ckeckpointDirectory,functionToCreateContext _)        //从现有的ckeckpointDirectory读取ssc，

                需要注意的是，随着streaming application的持续运行，checkpoint数据占用的存储空间会不断变大。

                因此，需要小心设置checkpoint的时间间隔。设置的越小 ，checkpoint次数会越多，占用空间会越大；

                如果设置越大，会导致恢复时丢失的数据和进度越多。

    ③调优

        1.  优化运行时间

            ①增加并行度 

                确保使用整个集群的资源，而不是把任务集中在几个特定的节点上。对于包含shuffle的操作，增加其并行度以确保更为充分地使用集群资源；

            ②减少数据序列化，反序列化的负担

            ③设置合理的batch duration（批处理时间间）

                在Spark Streaming中，Job之间有可能存在依赖关系，后面的Job必须确保前面的作业执行结束后才能提交。若前面的Job执行的时间超出了批处理时间间隔，

                那么后面的Job就无法按时提交，这样就会进一步拖延接下来的Job，造成后续Job的阻塞。

                因此设置一个合理的批处理间隔以确保作业能够在这个批处理间隔内结束时必须的；

        2.  优化内存使用

            ①控制batch size（批处理间隔内的数据量）

                Spark Streaming会把批处理间隔内接收到的所有数据存放在Spark内部的可用内存区域中，因此必须确保当前节点Spark的可用内存中

                能容纳这个批处理时间间隔内的所有数据，否则必须增加新的资源以提高集群的处理能力；

            ②及时清理不再使用的数据

                前面讲到Spark Streaming会将接受的数据全部存储到内部可用内存区域中，因此对于处理过的不再需要的数据应及时清理，

                以确保Spark Streaming有富余的可用内存空间。通过设置合理的spark.cleaner.ttl时长来及时清理超时的无用数据，

                这个参数需要小心设置以免后续操作中所需要的数据被超时错误处理；

04-spark streaming的更多相关文章

基于案例贯通 Spark Streaming 流计算框架的运行源码
本期内容 : Spark Streaming+Spark SQL案例展示基于案例贯穿Spark Streaming的运行源码一. 案例代码阐述 : 在线动态计算电商中不同类别中最热门的商品排名,例 ...
Spark Streaming 事务处理彻底掌握
本期内容: 1. Exactly once容错 2. 数据输出不重复一. 事务场景 : 以银行转帐一次为例,A用户转账给B用户,如何保证事务的一致性,即A用户能够转出且只能转出一次,B用户能够收到且 ...
转：Sharethrough使用Spark Streaming优化实时竞价
文章来自于:http://www.infoq.com/cn/news/2014/04/spark-streaming-bidding 来自于Sharethrough的数据基础设施工程师Russell ...
[Spark][Streaming]Spark读取网络输入的例子
Spark读取网络输入的例子: 参考如下的URL进行试验 https://stackoverflow.com/questions/46739081/how-to-get-record-in-strin ...
大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化
第1章 Spark Streaming 概述1.1 什么是 Spark Streaming1.2 为什么要学习 Spark Streaming1.3 Spark 与 Storm 的对比第2章运行 S ...
Spark Streaming中空batches处理的两种方法（转）
原文链接:Spark Streaming中空batches处理的两种方法 Spark Streaming是近实时(near real time)的小批处理系统.对给定的时间间隔(interval),S ...
Spark Streaming on Kafka解析和安装实战
本课分2部分讲解: 第一部分,讲解Kafka的概念.架构和用例场景: 第二部分,讲解Kafka的安装和实战. 由于时间关系,今天的课程只讲到如何用官网的例子验证Kafka的安装是否成功.后续课程会接着 ...
[Spark] 07 - Spark Streaming Programming
Streaming programming 一.编程套路编写Streaming程序的套路创建DStream,也就定义了输入源. 对DStream进行一些 “转换操作” 和 "输出操作&q ...
spark streaming 3: Receiver 到 submitJobSet
对于spark streaming来说,receiver是数据的源头.spark streaming的框架上,将receiver替换spark-core的以磁盘为数据源的做法,但是数据源(如监听某个 ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...

随机推荐

逻辑回归原理（python代码实现）
Logistic Regression Classifier逻辑回归主要思想就是用最大似然概率方法构建出方程,为最大化方程,利用牛顿梯度上升求解方程参数. 优点:计算代价不高,易于理解和实现. 缺点: ...
js switch 函数类型序列化转义
switch(name){ case '1': age = 123; break; case '2': age = 456; break; default : age = 777; } 函数 func ...
Delphi 的 Bit
我一直感觉 Delphi 下的Bit操作不是很好使, 所以一直屏蔽着这方面的学习.不过最近收集整理了一下代码. 原因是这样的. 由于某个需求被分解成在 0~n(不定) 中,有几个数字被置换成了“tr ...
让WebBrowser在非兼容模式下运行
32 bit: HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Internet Explorer\MAIN\FeatureControl\FEATURE_BROWSER_ ...
win7 上运行 php7 +
win7 安装 php7+ 很简单, 这里不赘述如何在phpstudy 添加 php7 百度也很容易找到. 但是在 php 7 运行的时候总是报0x0000007 或者缺少 .dll 文 ...
黄聪：wordpress教程
又一个作品完成!<跟黄聪学Wordpress主题开发>,国内最好的Wordpress主题模版开发视频教程!! 目录预览: WordPress官方源文件层式结构讲解 WordPress数据库 ...
java 1.8新特性（二）关于 function 接口的使用
需求1:从user集合中找出age=15的用户传统方法就不说了举例明一下 java1.8 使用Predicate接口解决该需求: @FunctionalInterface public in ...
服务容错保护断路器Hystrix之三：断路器监控(Hystrix Dashboard)-单体监控
turbine:英 [ˈtɜ:baɪn] 美 [ˈtɜ:rbaɪn] n.汽轮机;涡轮机;透平机一.Hystrix Dashboard简介在微服务架构中为了保证程序的可用性,防止程序出错导致网络阻 ...
[转][C#]BarCodeToHTML
/// <summary> /// 类说明:Assistant /// 编码人:苏飞 /// 联系方式:361983679 /// 更新网站:http://www.sufeinet.c ...
[UE4]Format Text
蓝图会自动把字符串中的占位换成参数输入. 字符串不会自动转换,需要手动转换

04-spark streaming

1、基本概念（了解）

①流（Streaming）：

②常见的流式计算框架

③Spark Streaming：

2、Spark Streaming工作原理

①基础概念理解：

②工作流程（根据代码）

③工作流程（根据逻辑）

3、DStream操作

4、Spark Streaming的容错和数据无丢失机制（WAL机制 <------>预写文件机制）

5、Spark Streaming中的Receiver方式和直连方式

1.Receiver方式

2.director(直连方式)

6、Spark Streaming 容错、持久化和性能调优

04-spark streaming的更多相关文章

随机推荐

热门专题

　　①流（Streaming）：

　　②常见的流式计算框架

　　③Spark Streaming：

　　①基础概念理解：

　　②工作流程（根据代码）

　　③工作流程（根据逻辑）

　　1.Receiver方式

　　2.director(直连方式)