066 基于checkpoint的HA机制实现

1.说明

　　针对需要恢复的应用场景，提供了HA的的机制

　　内部实现原理：基于checkpoint的

　　当程序被kill的时候，下次恢复的时候，会从checkpoint对用的文件中进行数据的恢复

2.HA原理

　　当job执行的时候，将数据同步到checkpoint设置的对应文件夹中
　　同步的数据包括：
　　　　类的信息(包名 + 类名)
　　　　Job DAG执行图(在运行后，代码的DAG图不能进行任何修改，否则下次执行的时候会报错<类型不匹配>; 只要DAG图不变，其它API内部的代码执行逻辑可以随便更改)
　　Job执行的源数据

二：程序

1.程序

 package com.stream.it

 import kafka.serializer.StringDecoder

 import org.apache.spark.storage.StorageLevel

 import org.apache.spark.streaming.kafka.KafkaUtils

 import org.apache.spark.streaming.{Seconds, StreamingContext}

 import org.apache.spark.{SparkConf, SparkContext}

 object HAKafkaWordcount {

   def main(args: Array[String]): Unit = {

     val conf=new SparkConf()

         .setAppName("spark-streaming-wordcount")

           .setMaster("local[*]")

     val sc=SparkContext.getOrCreate(conf)

     val checkpointDir = "hdfs://linux-hadoop01.ibeifeng.com:8020/beifeng/spark/streaming/chkdir02"

     /**

       * 构造StreamingContext对象

       *

       * @return

       */

     def createStreamingContextFunc(): StreamingContext = {

       val ssc = new StreamingContext(sc, Seconds(5))

       ssc.checkpoint(checkpointDir)

       val kafkaParams=Map("group.id"->"stream-sparking-0",

         "zookeeper.connect"->"linux-hadoop01.ibeifeng.com:2181/kafka",

         "auto.offset.reset"->"smallest"

       )

       val topics=Map("beifeng"->1)

       val dStream=KafkaUtils.createStream[String,String,StringDecoder,StringDecoder](

         ssc,             //给定sparkStreaming的上下文

         kafkaParams,     //kafka的参数信息，通过kafka HightLevelComsumerApi连接

         topics,          //给定读取对应的topic的名称以及读取数据的线程数量

         StorageLevel.MEMORY_AND_DISK_2     //数据接收器接收到kafka的数据后的保存级别

       ).map(_._2)

       val resultWordcount=dStream

         .filter(line=>line.nonEmpty)

         .flatMap(line=>line.split(" ").map((_,1)))

         .reduceByKey(_+_)

       resultWordcount.foreachRDD(rdd=>{

         rdd.foreachPartition(iter=>iter.foreach(println))

       })

       ssc

     }

     val ssc = StreamingContext.getOrCreate(

       checkpointPath = checkpointDir,

       creatingFunc = createStreamingContextFunc

     )

     //启动

     ssc.start()

     //等到

     ssc.awaitTermination()

   }

 }

2.注意点

　　HA第一次执行后，以后如果代码进行改动(创建StreamingContext的代码改动)，不会得到反应(会直接从checkpoint中读取数据进行StreamingContext的恢复) ===> 解决SparkStreaming和Kafka集成的时候offset偏移量管理的问题

066 基于checkpoint的HA机制实现的更多相关文章

Hadoop_HDFS架构和HA机制
Hadoop学习笔记总结 01.HDFS架构 1. NameNode和ResourceManager NameNode负责HDFS,从节点是DataNode:ResourceManager负责MapR ...
HA机制下的Hadoop配置
[版权申明:本文系作者原创,转载请注明出处] 文章出处:http://www.cnblogs.com/sdksdk0/p/5585355.html 作者: 朱培 ID:sdksdk0 ----- ...
HDFS的HA机制
传统的HDFS机制如下图所示: 也就是存在一个NameNode,一个SecondaryNameNode,然后若干个DataNode.这样的机制虽然元数据的可靠性得到了保证(靠edits,fsimage ...
kafka的HA机制
1.kafka的HA机制:副本机制+消息同步+leader选举. 每个topic有多个partition,每个partition又有多个副本,这些副本当中也存在不同的角色,leader.followe ...
基于A2DFramework的事件机制实现
随笔- 102 文章- 3 评论- 476 发布订阅 - 基于A2DFramework的事件机制实现 SUMMARY 能做什么 DEMO 原理图应用场景能做什么 A2DFramework ...
一脸懵逼学习Hadoop-HA机制（以及HA机制的配置文件，测试）
1:能否让两个NameNode都正常影响客户端请求? 应该让两个NameNode节点在某个时间只能有一个节点正常影响客户端请求,相应请求的必须为Active状态的那一台. 2:standBy状态的节点 ...
通过tarball形式安装HBASE Cluster（CDH5.0.2）——Hadoop NameNode HA 切换引起的Hbase错误，以及Hbase如何基于NameNode的HA进行配置
通过tarball形式安装HBASE Cluster(CDH5.0.2)——Hadoop NameNode HA 切换引起的Hbase错误,以及Hbase如何基于NameNode的HA进行配置配置H ...
MyBatis 内置日志工厂基于运行时自省机制选择合适的日志工具
mybatis – MyBatis 3 | 日志 http://www.mybatis.org/mybatis-3/zh/logging.html MyBatis 内置日志工厂基于运行时自省机制选择合 ...
Spark集群基于Zookeeper的HA搭建部署笔记（转）
原文链接:Spark集群基于Zookeeper的HA搭建部署笔记 1.环境介绍 (1)操作系统RHEL6.2-64 (2)两个节点:spark1(192.168.232.147),spark2(192 ...

随机推荐

[PHP]常量的一些特性
1. define()函数如果定义了两个名称一模一样的常量,那么它将不会抛出错误,并且只有第一次的定义是生效的,再次定义并不会覆盖先前的值: define('ABC', 0); define('ABC ...
zxing源码编译与运行
编译的jar文件下载地址:http://files.cnblogs.com/rainboy2010/zxing.zip zxing是一个开源的解析条形码/二维码的类库,广泛应用于Android 各大A ...
LuoGu P1083 借教室
题目传送门借教室这个题有两种做法,差分+前缀和或者是线段树线段树维护区间最小值,因为能不能借教室使用是由这几天中可用教室最少的一天决定的其实这题是个很裸的线段树维护区间最小值,但有一点需要注意, ...
windows.open()
引:Window_Open详解一.window.open()支持环境:JavaScript1.0+/JScript1.0+/Nav2+/IE3+/Opera3+ 二.基本语法:window.op ...
jquery easyui datagrid 加每页合计和总合计
jquery easyui datagrid 加每页合计和总合计一:效果图二:代码实现这个只有从后台来处理后台根据rows 和page两个参数返回的datatable 命名为dt 然后根据dt ...
Confluence 6 为发送邮件配置服务器
配置你的 Confluence 服务器发送电子邮件消息能够允许你的 Confluence 用户: 接受邮件通知和每天更新报表. 通过电子邮件发送一个页面. 你可以通过配置 'From' 字段中的内容来 ...
Confluence 6 查看空间活动
空间活动信息是默认禁用(disabled by default)的.活动(Activity)的标没有显示,如果你的 Confluence Usage Stats 插件没有启用的.请查看下面的说明: ...
nginx之访问控制http_access_module与http_auth_basic_module
http_access_module 作用基于IP的访问控制语法使用局限性解决办法 1. http_x_forwarded_for http_auth_basic_module 作用基于用 ...
select下拉框使用完毕后，重置按钮使其清空
需求描述:select下拉框后边有两个按钮,一个查询,一个重置,点击重置,select会清空之前选择的那个查询条件解决思路:卧槽,这不so easy 么,用那个jQ封装的trigger函数搞定啊,对 ...
codeforce 240E 最小树形图+路径记录更新
最小树形图的路径是在不断建立新图的过程中更新的,因此需要开一个结构体cancle记录那些被更新的边,保存可能会被取消的边和边在旧图中的id 在朱刘算法最后添加了一个从后往前遍历新建边的循环,这可以理解 ...

066 基于checkpoint的HA机制实现

066 基于checkpoint的HA机制实现的更多相关文章

随机推荐

热门专题