在sparkStreaming实时存储时的问题

1.实时插入mysql时遇到的问题，使用的updateStaeBykey有状态的算子必须设置checkpoint 如果报错直接删掉checkpoint

在创建的时候自己保存偏移量即可再次启动时读取正确偏移量就行了管他checkpoint 无关的事了

实时插入时有个问题是怎么进行mysql的数据覆盖掉一批次的值：

1.使用局部更新的sql ：

insert into area_user_amt (date,country,provence,amt)  values('${datekey}','${countrykey}','${provencekey}','${amt}') ON DUPLICATE KEY UPDATE `amt`= '${amt}'

2.使用replace 相当于先删除在插入

replace into stream_offset(topic,partitions,groupid,brokerlist,offset)values (?,?,?,?,?)

2.使用redis 不使用叠加状态的updateStaeBykey ，进行完reduceBykey(list1，list2)=>(list.zip(list2)).map(_.1+_.2)  reduceBykey的两个参（累计值，当前值）一直做zip操作，做完后
（10,1）.zip（20,2）=》（(10,20),(1,2)）在做map对里面每一个进行相加就是累加值 （只是当前批次的）

使用redis的hincrby 值增加的方法实现累加求和

.foreachPartition(iter=>{  
 //在各分区获取redis连接   
val jedis=JedisUtil.getJedisClient()   
iter.foreach(tp=>{     
//B2019040114 ,成功量 ,总量    
 jedis.hincrBy("P-"+tp._1._1.substring(0,8),tp._1._2,tp._2(0).toLong)
    //设置key的有效时间    
 jedis.expire(tp._1._1,60*60*24*7)   })   jedis.close()
 })

SparkStreaming使用checkpoint存在的问题

SparkStreaming在处理kafka中的数据时，存在一个kafka offset的管理问题：

官方的解决方案是checkpoint:
- checkpoint是对sparkstreaming运行过程中的元数据和每次rdds的数据状态保存到一个持久化系统中，当然这里面也包含了offset，一般是HDFS,S3，如果程序挂了，或者集群挂了，下次启动仍然能够从checkpoint中恢复，从而做到生产环境的7*24高可用。如果checkpoint存储做hdfs中，会带来小文件的问题。

但是checkpoint的最大的弊端在于，一旦你的流式程序代码或配置改变了，或者更新迭代新功能了，这个时候，你先停旧的sparkstreaming程序，然后新的程序打包编译后执行运行，会出现两种情况：

（1）启动报错，反序列化异常
（2）启动正常，但是运行的代码仍然是上一次的程序的代码。

为什么会出现上面的两种情况？

这是因为checkpoint第一次持久化的时候会把整个相关的jar给序列化成一个二进制文件，每次重启都会从里面恢复，但是当你新的程序打包之后序列化加载的仍然是旧的序列化文件，这就会导致报错或者依旧执行旧代码。有的同学可能会说，既然如此，直接把上次的checkpoint删除了，不就能启动了吗？确实是能启动，但是一旦你删除了旧的checkpoint，新启动的程序，只能从kafka的smallest或者largest的偏移量消费，默认是从最新的，如果是最新的，而不是上一次程序停止的那个偏移量就会导致有数据丢失，如果是老的，那么就会导致数据重复。不管怎么样搞，都有问题。

在sparkStreaming实时存储时的问题的更多相关文章

js读写Cookie问题（Cookie存储时长、Cookie存储域）汇总
在采集网站用户行为数据/使用js对用户行为做交互时,经常会使用到Cookie,了解Js Cookie的读写,以及一些细节,非常重要. 什么是Cookie 所谓Cookie,只是一条极为短小的信息, ...
求int型正整数在内存中存储时1的个数
题目描述: 输入一个int型的正整数,计算出该int型数据在内存中存储时1的个数. 输入描述: 输入一个整数(int类型) 输出描述: 这个数转换成2进制后,输出1的个数输入例子: 5 输出例子: ...
基于spark-streaming实时推荐系统
基于spark-streaming实时推荐系统(一) 基于spark-streaming实时推荐系统( 二) 基于spark-streaming实时推荐系统(三)
华为oj之求int型正整数在内存中存储时1的个数
题目: 求int型正整数在内存中存储时1的个数热度指数:4427 时间限制:1秒空间限制:32768K 题目描述输入一个int型的正整数,计算出该int型数据在内存中存储时1的个数. 输入描述: ...
（一）求 int 型数据在内存中存储时 1 的个数
题目:求 int 型数据在内存中存储时 1 的个数描述:输入一个 int 型数据,计算出该 int 型数据在内存中存储时 1 的个数运行时间限制: 10 sec 内存限制:128 MByte 输入 ...
Oracle RAC：使用 NFS 共享存储时的 mount 选项总结
oracle rac 使用nfs作为共享存储时,mount的选项有要求,不能随便设置 grid的要求: rw,bg,hard,nointr,rsize=32768,wsize=32768, ...
华为机试求int型数据在内存中存储时1的个数
题目描述输入一个int型的正整数,计算出该int型数据在内存中存储时1的个数. 输入描述: 输入一个整数(int类型) 输出描述: 这个数转换成2进制后,输出1的个数输入 5 输出 2 普通运算方 ...
求int型数据在内存中存储时1的个数
1.求int型数据在内存中存储时1的个数输入一个int型数据,计算出该int型数据在内存中存储时1的个数. 我们非常easy想到例如以下方法: #include <iostream> u ...
php实现求int型数据在内存中存储时1的个数（函数都可自己实现）
php实现求int型数据在内存中存储时1的个数(函数都可自己实现) 一.总结一句话总结:函数我们自己都可以实现,尤其是很多基础函数,没有工具的时候自己写. 1.php进制转换函数? base_co ...

随机推荐

react_结合 redux - 高阶函数 - 高阶组件 - 前端、后台项目打包运行
Redux 独立的集中式状态管理 js 库 - 参见 My Git 不是 react 库,可以与 angular.vue 配合使用,通常和 react 用 yarn add redux import ...
AWS Nginx Started but not Serving AWS上Nginx服务器无法正常工作
After install the Nginx on AWS instance, and visit your public ip address, you might see the followi ...
hook NtTerminateProcess进行应用的保护
这段时间在学习驱动,然后看到hook ssdt的代码,找了一个写的清晰的学习了一下:http://www.netfairy.net/?post=218 这里是hook NtOpenProcess,但是 ...
nginx + rtmp 搭建流媒体服务器
一.安装nginx服务器 1.路径说明: 路径:/usr/local/src 2.下载nginx-rtmp-module (我这里的目录是在/usr/local/src/下面) cd /usr/loc ...
【Java】递归递推的应用
利用阶乘公式来计算组合式: 程序设计思想: 根据公式来计算组合数的大小,从键盘输入n,k的值,设计一个计算阶乘的大小,如果输入的数a为1或0,则直接return 1,否则运用递归,计算a-1的阶乘,直 ...
洛谷P3385 【模板】负环
题目描述暴力枚举/SPFA/Bellman-ford/奇怪的贪心/超神搜索寻找一个从顶点1所能到达的负环,负环定义为:一个边权之和为负的环. 输入输出格式输入格式: 第一行一个正整数T表示数据组 ...
微信小程序组件 Demo
文字跑马灯效果: http://www.wxapp-union.com/portal.php?mod=view&aid=1038 触摸水波涟漪效果: http://www.wx ...
js 利用jquery.gridly.js实现拖拽并且排序
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
mysql统计库下所有表数据行数
一.执行下面sql select concat( 'select "', TABLE_name, '", count(*) from ', TABLE_SCHEMA, '.', T ...
Freemaker Replace函数的正则表达式运用
replace(param1,param2,param3) param1 正则表达式:param2 将匹配的字符替换成指定字符:param3 模式 param3 参数如下模式 i r m ...

在sparkStreaming实时存储时的问题

SparkStreaming使用checkpoint存在的问题

在sparkStreaming实时存储时的问题的更多相关文章

随机推荐

热门专题