spark streaming 流式计算---跨batch连接池共享（JVM共享连接池）

在流式计算过程中，难免会连接第三方存储平台（redis,mysql...)。在操作过程中，大部分情况是在foreachPartition/mapPartition算子中做连接操作。每一个分区只需要连接一次第三方存储平台就可以了。假如，当前streaming有100分区，当前流式计算宫分配了20个cpu，有4个cpu负责接收数据。那么，在一个批次中一共需要对第三方平台创建100次连接，同时最大并行连接第三方平台个数20-4=16个。假如30s一个批次，一天就需要频繁释放连接24*60*60/2=43200次，假如每次创建连接和释放连接总共需要100ms,那么一天中有43200/10/60/60=4.8h的cpu时间在做创建连接和释放连接操作。这个消耗还是比较大的。

那个，该如何优化这个问题？

大家可以这样想一下：既然每一个executor就是一个JVM进程。那么，流式计算每一个批次结束，会销毁执行任务的executor吗？答案显然不会！既然executor不会被销毁，在executor(JVM）中保持一个连接池达到连接池共享就有了可能。其次，一个executor可能会分配多于一个cpu core的情况，在执行前期，每一个executor(JVM)会同时执行多于一个的task。每一个task都需要一个连接。那么在executor中保持一个连接池，不仅可以达到跨batch的连接池共享，而且还可以达到同一个批次，被分到同一个executor(JVM）的任务的连接池共享。这样的优化可以大大减少，因为频繁连接第三方存储平台的压力，其次还可以节省频繁创建连接所消耗的时间。缺点就是，连接不释放，第三方平台需要更高的内存，才能提供更高的连接要求。

问题已经清楚，解决方案也出来了。该怎么编程，才能实现executor持有全局连接池？

别告诉我说你会在driver端创建好连接，然后通过广播将连接广播到executor中。因为大部分连接类在实现过程没有考虑序列化的问题（实现Externalizable或Serializable接口），所以无法将连接池广播。即使能够广播，这个方式在获取连接时也会遇到千奇百怪的错误。

spark streaming 流式计算---跨batch连接池共享（JVM共享连接池）的更多相关文章

spark streaming流式计算---监听器
随着对spark的了解,有时会觉得spark就像一个宝盒一样时不时会出现一些难以置信的新功能.每一个新功能被挖掘,就可以使开发过程变得更加便利一点.甚至使很多不可能完成或者完成起来比较复杂的操作,变成 ...
Spark Streaming流式处理
Spark Streaming介绍 Spark Streaming概述 Spark Streaming makes it easy to build scalable fault-tolerant s ...
Spark之 Spark Streaming流式处理
SparkStreaming Spark Streaming类似于Apache Storm,用于流式数据的处理.Spark Streaming有高吞吐量和容错能力强等特点.Spark Streamin ...
从Storm和Spark 学习流式实时分布式计算的设计
0. 背景最近我在做流式实时分布式计算系统的架构设计,而正好又要参加CSDN博文大赛的决赛.本来想就写Spark源码分析的文章吧.但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量 ...
流式计算（一）-Java8Stream
大约各位看官君多少也听说了Storm/Spark/Flink,这些都是大数据流式处理框架.如果一条手机组装流水线上不同的人做不同的事,有的装电池,有的装屏幕,直到最后完成,这就是典型的流式处理.如果手 ...
Dream_Spark-----Spark 定制版：005~贯通Spark Streaming流计算框架的运行源码
Spark 定制版:005~贯通Spark Streaming流计算框架的运行源码本讲内容: a. 在线动态计算分类最热门商品案例回顾与演示 b. 基于案例贯通Spark Streaming的运 ...
Storm：分布式流式计算框架
Storm是一个分布式的.高容错的实时计算系统.Storm适用的场景: Storm可以用来用来处理源源不断的消息,并将处理之后的结果保存到持久化介质中. 由于Storm的处理组件都是分布式的,而且处理 ...
Others-阿里专家强琦：流式计算的系统设计和实现
阿里专家强琦:流式计算的系统设计和实现更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 阿里云数据事业部强琦为大家带来题为“流式计算的系统设计与实现”的演讲,本 ...
demo2 Kafka+Spark Streaming+Redis实时计算整合实践 foreachRDD输出到redis
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming.Spark SQL.MLlib.GraphX,这些内建库都提供了 ...

随机推荐

oracle 11g导出少了空表,原因分析
oracle 11g导出少了空表使用exp命令的时候,会出现少表的情况,是因为在11g版本中如果一个表里面是空的,为了节省空间,默认是不会给这个表分配空间的,在导出的时候也就不会将空表导出的,自然导 ...
MySQL/MariaDB数据库的主主复制
MySQL/MariaDB数据库的主主复制作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.主主复制概述 1>.什么是主主复制所谓的主主复制,说白了就是两台节点互为 ...
Fuel
1. fuel简介 fuel是Mirantis公司提供的一款开源的自动化安装部署OpenStack的工具.为OpenStack相关的社区项目和插件的部署和管理提供了一种直观的GUI驱动体验. Fuel ...
SQL进阶系列之7用SQL进行集合运算
写在前面集合论是SQL语言的根基,因为这种特性,SQL也被称为面向集合语言导入篇:集合运算的几个注意事项注意事项1:SQL能操作具有重复行的集合(multiset.bag),可以通过可选项ALL ...
dbms_lob包学习笔记之三：instr和substr存储过程
instr和substr存储过程,分析内部大对象的内容 instr函数与substr函数 instr函数用于从指定的位置开始,从大型对象中查找第N个与模式匹配的字符串. 用于查找内部大对象中的字符串的 ...
铺砖头问题（完美）——爆搜&&插头DP
题意给定一个 $n \times m$ 的格子,每个格子被染成了黑色或白色.现在要用 $1 \times 2$ 的砖块覆盖这些格子,要求块与块之间互不重叠,且覆盖了所有白色的格子,但不覆盖任意黑色格 ...
file 的类型 input
上传你选择的文件和相关信息.在 HTML 文档中 <input type="file"> 标签每出现一次,一个 FileUpload 对象就会被创建.该元素包含一个文本 ...
文件搜索命令find
1.路径加文件名搜索(find): 查找的是etc目录下的以init为名字的文件. 加通配符后为模糊搜索,只要文件名中含有init即可. 查找etc目录下以init开头的七位文件名. 2.搜索时不区分 ...
虚拟机Linux系统ip查询失败问题
当用SSH连接Linux需要ip地址,但是不论是通过ipconfig命令,还是通过ip addr命令都无法获取Linux的ip,通过以下方法成功解决了该问题: 1.点击编辑里面的虚拟网络编辑器出现如下 ...
洛谷 P2947 [USACO09MAR]向右看齐Look Up
目录题目思路 $Code$ 题目戳思路单调栈裸题 $Code$ #include<stack> #include<cstdio> #include<st ...

spark streaming 流式计算---跨batch连接池共享（JVM共享连接池）

spark streaming 流式计算---跨batch连接池共享（JVM共享连接池）的更多相关文章

随机推荐

热门专题