性能：Transform层面

数据处理的并行度

1、BlockRDD的分区数

（1）通过Receiver接受数据的特点决定

（2）也可以自己通过repartition设置

2、ShuffleRDD的分区数

（1）默认的分区数为spark.default.parallelism(core的大小)

（2）通过我们自己设置决定

 val lines1 = ssc.socketTextStream("master", 9998, StorageLevel.MEMORY_AND_DISK_SER)

    val lines2 = ssc.socketTextStream("master", 9997, StorageLevel.MEMORY_AND_DISK_SER)

    val lines = lines1.union(lines2)

    lines.repartition(100)  //通过repartition设置  

    //处理的逻辑，就是简单的进行word count

    val words = lines.repartition(100).flatMap(_.split(" "))

     //自己设置决定ShuffleRDD的分区数 以及分区算法，默认是core的数量

    val wordCounts = words.map(x => (x, 1)).reduceByKey((a: Int, b: Int) => a + b, new HashPartitioner(10))   //并发度是10个分区，根据集群资源情况调节

数据的序列化

两种需要序列化的数据：

1、输入数据

默认是以StorageLevel.MEMORY_AND_DISK_SER_2的形式存储在executor上的内存中（以序列化的方式存储在内存中，内存不够放在DISK中）

2、Streaming操作中产生的缓存RDD

默认是以StorageLevel.MEMORY_ONLY_SER的形式存储的内存中

使用Kryo序列化机制，比Java序列化机制性能好

import com.esotericsoftware.kryo.Kryo

import org.apache.spark.serializer.KryoRegistrator

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.{SparkConf, SparkContext}

/**

  * WordCount程序，Spark Streaming消费TCP Server发过来的实时数据的例子：

  *

  * 1、在master服务器上启动一个Netcat server

  * `$ nc -lk 9998` (如果nc命令无效的话，我们可以用yum install -y nc来安装nc)

  *

  * 2、用下面的命令在在集群中将Spark Streaming应用跑起来

  * spark-submit --class com.twq.wordcount.JavaNetworkWordCount \

  * --master spark://master:7077 \

  * --deploy-mode client \

  * --driver-memory 512m \

  * --executor-memory 512m \

  * --total-executor-cores 4 \

  * --executor-cores 2 \

  * /home/hadoop-twq/spark-course/streaming/spark-streaming-basic-1.0-SNAPSHOT.jar

  */

object KryoNetworkWordCount {

  def main(args: Array[String]) {

    val sparkConf = new SparkConf().setAppName("KryoNetworkWordCount")

    sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")    //指定spark.serializer.KryoSerializer

    sparkConf.set("spark.kryo.registrator", "com.twq.spark.rdd.example.ClickTrackerKryoRegistrator")  //  自定义的数据类型通过Kryo序列化

    val sc = new SparkContext(sparkConf)

    // Create the context with a 1 second batch size

    val ssc = new StreamingContext(sc, Seconds(1))

    //如果一个batchInterval中的数据量不大，并且没有window等操作，则可以使用MEMORY_ONLY

    val lines = ssc.socketTextStream("master", 9998, StorageLevel.MEMORY_ONLY_SER)

    //处理的逻辑，就是简单的进行word count

    val words = lines.flatMap(_.split(" "))

    val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)

    //将结果输出到控制台

    wordCounts.print()

    //启动Streaming处理流

    ssc.start()

    //等待Streaming程序终止

    ssc.awaitTermination()

  }

}

class ClickTrackerKryoRegistrator extends KryoRegistrator {

  override def registerClasses(kryo: Kryo): Unit = {

    kryo.register(classOf[TrackerLog])

  }

}

case class TrackerLog(id: String, name: String)

内存调优

1、需要内存大小

和transform类型有关系

数据存储的级别

2、GC

driver端和executor端都使用CMS垃圾收集器

CMS(Concurrent Mark Sweep 标记清除算法)收集器是一种以获取最短回收停顿时间为目标的收集器

（通过--driver-java-options和spark.executor.extraJavaOptions）

性能：Transform层面的更多相关文章

PHP 性能分析与实验——性能的宏观分析
[编者按]此前,阅读过了很多关于 PHP 性能分析的文章,不过写的都是一条一条的规则,而且,这些规则并没有上下文,也没有明确的实验来体现出这些规则的优势,同时讨论的也侧重于一些语法要点.本文就改变 P ...
QQ会员AMS平台PHP7升级实践
作者:徐汉彬链接:https://zhuanlan.zhihu.com/p/21493018来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. QQ会员活动运营平台(AMS ...
日请求亿级的 QQ 会员 AMS 平台 PHP7 升级实践
QQ会员活动运营平台(AMS),是QQ会员增值运营业务的重要载体之一,承担海量活动运营的Web系统.AMS是一个主要采用PHP语言实现的活动运营平台, CGI日请求3亿左右,高峰期达到8亿.然而,在之 ...
日请求亿级的QQ会员AMS平台PHP7升级实践
版权声明:本文由PHP7升级项目组原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/74 来源:腾云阁 https://www ...
缓存中间件-Redis(二)
在上一篇中我们简单总结和介绍了Redis的几个方面 1.使用Redis背景 2.Redis通信多路复用的基本原理 3.Redis基本数据结构 4.Redis持久化方式这一篇我们使用简单的业务场景来介 ...
移动端动画使用transform提升性能
在移动端做动画,对性能要求较高而通常的改变margin属性是性能极低的,即使使用绝对定位改变top,left这些属性性能也很差因此应该使用transform来进行动画效果,如transform:tra ...
如何从软硬件层面提升 Android 动画性能？
若是有人问如何解决动画性能不佳的问题,Dan Lew Codes 总会反问:你是否使用了硬件层? 动画放映过程中每帧画面可能都要重绘.如果使用视图层,,渲染过的视图可以存入离屏缓存以待将来重用,而无需 ...
Unity3D性能优化小tips——把this.transform缓存缓存起来
Unity3D开发时中有一个小tips,这在官方的文档里其实有提及的,但不那么显眼,这里小说一下: 在MonoBehaviour进行编程时,我们经常会用this.transform, this.gam ...
有效提升Python代码性能的三个层面
使用python进入一个熟练的状态之后就会思考提升代码的性能,尤其是python的执行效率还有很大提升空间(委婉的说法).面对提升效率这个话题,python自身提供了很多高性能模块,很多大牛开发出了高 ...

随机推荐

[转帖]Flink（一）Flink的入门简介
Flink(一)Flink的入门简介 https://www.cnblogs.com/frankdeng/p/9400622.html 一. Flink的引入这几年大数据的飞速发展,出现了很多热门的 ...
C++中const限定符
const基础 C++中的const,用于定义一个常量,这个常量的值不能被修改.因为const对象一旦创建就不能修改,所以const对象必须初始化.const常量特征仅仅在执行改变其本身的操作时才会发 ...
POJ 1321 棋盘问题（C）回溯
Emmm,我又来 POJ 了,这题感觉比上次做的简单点.类似皇后问题.但是稍微做了一点变形,比如棋子数量是不定的.棋盘形状不在是方形等等. 题目链接:POJ 1321 棋盘问题解题思路基本思路:从 ...
C++ Primer中文第四版
C++ Primer中文第四版在简书上发现有挂羊头卖狗肉的,发的plus,而且压缩包还得付钱获取密码,我直接去github搜到了第四版,在此分享一下. 格式:pdf 书签目录:有下载地址: ...
一文搞定Flask
Flask 一 .Flask简介 Flask是一个基于Python开发并且依赖jinja2模板和Werkzeug WSGI服务的一个微型框架,对于Werkzeug本质是Socket服务端,其用于接收h ...
Jenkins+Gitlab配置Webhook实现提交自动部署
一.概述在上一篇文章,链接如下: https://www.cnblogs.com/xiao987334176/p/11434849.html 已经实现了 Jenkins+harbor+gitlab+ ...
ubuntu 安装和配置 GitLab
一.概述 GitLab 是一个基于 Web 的开源 Git 软件仓库管理器,用 Ruby 编写,包括 wiki,问题管理,代码审查,监控以及持续集成和部署.它使开发人员能够创建,审查和部署他们的项目. ...
python 打包前三天日志
日志格式 app-2019-07-24.log app-2019-07-24.1.log 该脚本适合一天之内有多个日志文件 # /usr/bin/python #-*- coding: utf-8 - ...
vue设置全局变量和修改
1. 只读的全局变量对于只读的全局变量,知道的有以下两种使用方式: 1)global.js 模块中定义:其他模块import后再使用即可 1.1)定义 import Vue from 'vue'; ...
python Mock 示例
在Python3.x中,mock已经被集成到了unittest单元测试框架中,所以,可以直接使用. 可能你和我初次接触这个概念的时候会有这样的疑问:把要测的东西都模拟掉了还测试什么呢? 但在,实际生产 ...