kafka+spark-streaming实时推荐系统性能优化笔记

1) --conf spark.dynamicAllocation.enabled=false

如果正在使用的是CDH的Spark，修改这个配置为false；开源的Spark版本则默认是false。

当为true时，即使指定了num-executors个数，spark-streaming应用也会占用整个集群的资源。

2) --conf spark.streaming.concurrentJobs=10

这个配置项的默认值为1，代表着新的batch过来之后只能在队列中等待之前的batch执行完之后再执行。

如果batch执行的时间超过了batch本身的时间，可以将该配置增大。

修改该配置的风险：kafka的单个partition只支持顺序消费，如果排在后面的batch先执行完成，kafka consumer 在commit offset时会出现混乱。

建议，使用之前充分评估风险，否则尽量不修改该配置。

3) cache persist 和broadcast的选择

使用spark-streaming的应用一般是实时或者准实时的应用，所以需要预加载的变量(如模型，矩阵等)，一般不会选择cache和persist，而是使用广播变量broadcast（只读，类似于全局变量，但是如果在spark中直接使用全局变量会大幅降低程序性能)。

另一方面，将rdd/df的cache改为map(key,value)形式后进行广播，可以在需要对该rdd/df进行join的地方采用rdd.map{m=>get(m.key)}的形式来代替。减少了join带来的开销。

4)预加载broadcast变量

广播变量是懒加载的,首次在dataDStream.foreachRDD中使用该广播变量会导致第一批数据处理比较慢，广播变量越大延迟也越大。

懒加载在Spark离线任务中是比较好的策略，但是对线上实时推荐来说，延迟10s以上的行为数据可能都已经没有处理价值了。

所以可以在还没有进入到foreachRDD中时，先让广播变量能够预加载到每台服务器，设置kafka读取的offset为latest，这样能够保证spark-streaming总是能够处理到最新的数据。

预加载的方法利用了懒加载的性质,随便新建一个df，按照executor的个数repartition之后，在每个partition中读取广播变量的value中的任意一个值(不存在的也可以)，这样就能保证每个executor都能加载到该广播变量。

someDF.repartition(sparkSession.sparkContext.getConf.getInt("spark.executor.instances", 10)).foreachPartition {
  p =>
    bcVariables.value.get("_")
}

5)去掉所有不必要的join

join确实有很多可以优化的配置，但是没必要把时间花在join的优化上，尤其是在可以用广播变量来作为代替方案的情况下。

需要注意的是，广播变量和broadcast join是不一样的，前者效率在大部分时候要更高。

6)kafka partition个数和executor个数的关系

executor个数要能被partition个数整除。例如，如果partition个数为24个，那么12个executor和18个executor处理数据的性能差距不大。如果集群可以分配的executor个数为18个，那么partition数可以从24个调整为18个(或者36个等等)。

原因比较明显，就不多提了。展示几个实验数据

下图为性能测试实验中3，6，12个executor下数据处理时间(纵坐标)和数据量(横坐标)的关系,是明显的线性关系。

下图为性能测试实验中在处理600条数据时，executor数(横坐标)和时间(纵坐标)的关系(分区个数为executor的整数倍)

由图一的三组数据也可以看出，每秒能处理的数据的条数和executor的个数约等于线性关系。即如果当前集群每3秒能处理x条数据，那么集群扩容一倍后，每3秒应该能处理2x条数据。

由图二可看出，executor数和数据的处理时间不是简单的线性关系，也就是说，如果当前集群处理100条数据耗时6秒，并不能保证将集群扩容一倍后100条数据的处理时间变为3秒。

7)kafka的hash分区

kafka的各个分区处理的数据应该保证尽量按照某一特征(比如用户id)hash分区，这样能够保证某一用户的所有记录都在某一个partition，这样spark-streaming在处理reduceByKey时会提升效率。
8)提交任务时指定sql shuffle partition ，否则默认是200
--conf spark.sql.shuffle.partitions=6

kafka+spark-streaming实时推荐系统性能优化笔记的更多相关文章

【转】Spark Streaming 实时计算在甜橙金融监控系统中的应用及优化
系统架构介绍整个实时监控系统的架构是先由 Flume 收集服务器产生的日志 Log 和前端埋点数据, 然后实时把这些信息发送到 Kafka 分布式发布订阅消息系统,接着由 Spark Streami ...
demo2 Kafka+Spark Streaming+Redis实时计算整合实践 foreachRDD输出到redis
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming.Spark SQL.MLlib.GraphX,这些内建库都提供了 ...
Spark Streaming实时计算框架介绍
随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐.用户行为分析等. Spark Streaming是建立在 ...
【Streaming】30分钟概览Spark Streaming 实时计算
本文主要介绍四个问题: 什么是Spark Streaming实时计算? Spark实时计算原理流程是什么? Spark 2.X下一代实时计算框架Structured Streaming Spark S ...
Apache Kafka + Spark Streaming Integration
1.目标为了构建实时应用程序,Apache Kafka - Spark Streaming Integration是最佳组合.因此,在本文中,我们将详细了解Kafka中Spark Streamin ...
Spark练习之通过Spark Streaming实时计算wordcount程序
Spark练习之通过Spark Streaming实时计算wordcount程序 Java版本 Scala版本 pom.xml Java版本 import org.apache.spark.Spark ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十一）NIFI1.7.1安装
一.nifi基本配置 1. 修改各节点主机名,修改/etc/hosts文件内容. 192.168.0.120 master 192.168.0.121 slave1 192.168.0.122 sla ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十三）kafka+spark streaming打包好的程序提交时提示虚拟内存不足（Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 G）
异常问题:Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical mem ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十二）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。
Centos7出现异常:Failed to start LSB: Bring up/down networking. 按照<Kafka:ZK+Kafka+Spark Streaming集群环境搭 ...

随机推荐

Final关键字解析
final 在 Java 中是一个保留的关键字,可以声明变量.方法.类. 什么是final变量 / 类 / 方法? 任何变量前被 final 修饰就是 final 变量,定义的类前被 final 修饰 ...
eslint 的配置
安装可以全局安装,也可以在项目下面安装. 如下是在项目中安装示例,只需要在 package.json 中添加如下配置,并进行安装: >"eslint": "^4. ...
【题解】TES-Intelligence Test
[题解]\(TES-Intelligence\) \(Test\) 逼自己每天一道模拟题传送:\(TES-Intelligence\) \(Test\) \([POI2010]\) \([P3500 ...
ROS-URDF仿真
前言:URDF (标准化机器人描述格式),是一种用于描述机器人及其部分结构.关节.自由度等的XML格式文件. 一.首先做一个带有四个轮子的机器人底座. 1.1 新建urdf文件在chapter4_t ...
C# 文件操作（摘抄）
——选自<c# 编程兵书>第11章张志强胡君编著 11 文件操作概述 11.1 驱动器在Windows操作系统中,存储介质统称为驱动器,硬盘由于可以划分为多个区域,每一个区域称为一 ...
Java对象简单实用（计算器案例）
对 Java中的对象与属性,方法的使用,简单写了个案例 import java.util.Scanner; class Calculste { int a; //定义两个整数 int b; Strin ...
Farseer.net轻量级开源框架中级篇：自定义配置文件
导航目录:Farseer.net轻量级开源框架目录上一篇:Farseer.net轻量级开源框架中级篇: 数据绑定下一篇:Farseer.net轻量级开源框架中级篇: 动态数据库访问 ...
Windows10环境中 laravel任务调度如何启动调度
Windows10环境中 laravel任务调度如何启动调度一:问题由来 1:今天在做用laravel开发订单系统的时候,需要使用定时任务来大批量提交订单,测试一下订单金额是否有误.发现larav ...
CNN结构：场景分割与Relation Network
参考第一个回答:如何评价DeepMind最新提出的RelationNetWork 参考链接:Relation Network笔记 ,暂时还没有应用到场景中 LiFeifei阿姨的课程:CV与ML课程 ...
redhat之数据挖掘R语言软件及rstudio-server服务的安装
安装时间:2015年8月25日 22:55:35 作者:luomg 软件:R.Rstudio-server 环境:redhat6.2 联系:luomgf@163.com 声明:如果你有遇到安装中的问题 ...

kafka+spark-streaming实时推荐系统性能优化笔记

kafka+spark-streaming实时推荐系统性能优化笔记的更多相关文章

随机推荐

热门专题