Spark菜鸟记录

1、RDD[(k,v)] join()优化，join之前会对两个RDD的key做hash，通过网络把相同hash值的数据传到同一个节点，因此对多次join的RDD 做预分区与持久化可提高效率。

map()操作会失去父RDD的信息，因为key值有可能发生改变，但 mapValues()、flatMapValues()不会。多父RDD已分区，默认采取第一个父RDD的分区方式

cogroup() 、groupWith() 、 join() 、 leftOuterJoin() 、 rightOuterJoin() 、 groupByKey() 、 reduceByKey() 、combineByKey() 以及 lookup() 等发生跨节点数据混洗的操作都可以进行优化。

RDD.partitionBy( new HashPartitioner(3)).persist(StorageLevel.MEMORY_AND_DISK_SER)//构造3个分区

RDD.partitioner//获取分区信息

2.累加器，行动操作中每个任务只会对累加器修改一次，转换操作也许会由于缓存移出又重新使用等操作导致多次修改。（spark1.2）

只有驱动器可以读，对执行器是只写变量。

 val accu = sc.accumulator(initialValue)

3.广播变量，只被发到各节点一次，类似BitTorrent通信机制，只读，修改不会影响其他节点的值，

val broad = sc.broadcast(T)

4.task、stage、job

一个RDD有多少partition 就会生成多少task；一个或多个RDD生成一个stage（一般以shuffle操作为分隔）；一个action 生成一个job

spark读取文件的并行度与HDFS block有关，HBASE region数有关，hive文件不可分割则与文件数有关，可分割文件与分割数有关。未压缩文件和BZip2Codec压缩类型可分割。

  /**

   This input format overrides computeSplitSize() to make sure that each split only contains full records. Each InputSplit passed to FixedLengthBinaryRecordReader will start at the first byte of a record, and the last byte will the last byte of a record.

   */

  override def computeSplitSize(blockSize: Long, minSize: Long, maxSize: Long): Long = {

    val defaultSize = Math.max(minSize, Math.min(maxSize, blockSize))

    // If the default size is less than the length of a record, make it equal to it Otherwise, make sure the split size is as close to possible as the default size,but still contains a complete set of records, with the first record starting at the first byte in the split and the last record ending with the last byte

    if (defaultSize < recordLength) {

      recordLength.toLong

    } else {

      (Math.floor(defaultSize / recordLength) * recordLength).toLong

    }

  }

5.性能调优

a.调整并行度

val rdd2 = rdd1.map((_,1)).reduceByKey(_+_,10)//shuffle时调整并行度 shuffle原理：https://www.cnblogs.com/diaozhaojian/p/9635829.html
//Mapreduce和spark shuffle区别（https://mp.weixin.qq.com/s/FT2V9IwNoMl_JU_UDulJ-w）

rdd2.repartition(10)//对RDD做重分区，会打乱数据做重分区

rdd2.coalesce(10)//减少分区，调用Repartition(numPartitions, shuffle = false, logicalPlan)

6.RDD.CheckPoint与RDD.persist（https://www.cnblogs.com/jcchoiling/p/6513569.html）（https://blog.csdn.net/rlnLo2pNEfx9c/article/details/81417061）

　　CheckPoint 把RDD持久化到HDFS上，增强容错性。job运行时若检测到RDD.CheckPoint会启动一个新job做checkpoint操作，同时删除父RDD，截断依赖链，改变lineage（谱系图）。

设置检查点目录sc.setCheckpointDir("hdfs://IP:9000/checkpoint/")。因为checkpoint要重新计算，因此checkpoint之前建议先persist。

persist 根据存储级别，把数据缓存到不同介质上，只是保存数据，不改变DAG。

Persist 由executor的blockManager管理，因此driver结束之后persist到磁盘的数据也会清除，而checkpoint 持久化到HDFS，利用HDFS高可用，不调用remove不会清除。

7.Parquet与ORC（https://blog.csdn.net/yu616568/article/details/51868447）（ORC：https://www.cnblogs.com/ITtangtang/p/7677912.html）

　　parquet支持嵌套数据结构，通过repeated和group实现Map、Array等复杂数据结构。（每个字段有重复次数（required（出现一次）repeated（0或多次）optional（0或1次））、字段类型（group和primitive）和字段名三个属性）。

多行记录构成一个行组（row group），行组中每个列作为一个列块（column chunk），不同列块可采取不同压缩方式，列块划分为多个页。为了更好地存储嵌套格式，页的成员值由value、Repetition level和Definition level三部分组成，对于repeated类型列，repetition lever标记了所处哪条记录已经在该记录位置。

每个行组的统计信息包括schema、列块的最大最小值空值数等信息。每个页的元数据包括value数目，数据页、索引页的offset等信息。

　　ORC格式通过把struct类型生成一个schema树，struct类型作为根节点，中序遍历子节点，得到所有叶子节点的数据，交由父节点封装成嵌套数据结构。以此来支持LIST、STRUCT、MAP等复杂结构。

Spark菜鸟记录的更多相关文章

Spark菜鸟学习营Day5 分布式程序开发
Spark菜鸟学习营Day5 分布式程序开发这一章会和我们前面进行的需求分析进行呼应,完成程序的开发. 开发步骤分布式系统开发是一个复杂的过程,对于复杂过程,我们需要分解为简单步骤的组合. 针对每 ...
Spark菜鸟学习营Day3 RDD编程进阶
Spark菜鸟学习营Day3 RDD编程进阶 RDD代码简化对于昨天练习的代码,我们可以从几个方面来简化: 使用fluent风格写法,可以减少对于中间变量的定义. 使用lambda表示式来替换对象写 ...
Spark菜鸟学习营Day1 从Java到RDD编程
Spark菜鸟学习营Day1 从Java到RDD编程菜鸟训练营主要的目标是帮助大家从零开始,初步掌握Spark程序的开发. Spark的编程模型是一步一步发展过来的,今天主要带大家走一下这段路,让我 ...
Spark菜鸟学习营Day6 分布式代码运行调试
Spark菜鸟学习营Day6 分布式代码运行调试作为代码调试,一般会分成两个部分语法调试,也就是确定能够运行结果调试,也就是确定程序逻辑的正确其实这个都离不开运行,所以我们说一下如何让开发的S ...
Spark菜鸟学习营Day4 单元测试程序的编写
Spark菜鸟学习营Day4 单元测试程序的编写 Spark相比于传统代码是比较难以调试的,单元测试的编写是非常必要的. Step0:需求分析在测试案例编写前,需完成需求分析工作,明确程序所有的输入 ...
Spark菜鸟学习营Day2 分布式系统需求分析
Spark菜鸟学习营Day2 分布式系统需求分析本分析主要针对从原有代码向Spark的迁移.要注意的是Spark和传统开发有着截然不同的思考思路,所以我们需要首先对原有代码进行需求分析,形成改造思路 ...
Spark问题记录
Spark 多线程时的序列化问题临时记录 Exception in thread "Thread-28" org.apache.spark.SparkException: Ta ...
Spark数据分析-记录关联问题
1. 问题描述记录关联问题(Record Linkage):有大量从一个或多个源系统来的记录,其中有些记录可能代表了相同的基础实体. 每个实体有若干个属性,比如姓名.地址.生日.我们需要根据这些属性 ...
hadoop和spark搭建记录
因玩票需要,使用三台搭建spark(192.168.1.10,192.168.1.11,192.168.1.12),又因spark构建在hadoop之上,那么就需要先搭建hadoop.历经一个两个下午 ...

随机推荐

Python随笔--继承
javascript--返回顶部效果
window.onload = function(){ var obtn = document.getElementById('btn'); //客户端页面可视区高度 var clientHeight ...
[SCOI2005]扫雷
我们可以发现...最开始的两个...只有两种情况...直接枚举一下...递推出结果好了... 呆码: #include<iostream> #include<cstring> ...
通过sqlalchemy操作mysql
# 安装 pip3 install sqlalchemy import sqlalchemy from sqlalchemy import create_enginefrom sqlalchemy.e ...
git 命令提交项目到github
git 命令提交项目到github步骤如下: 1.使用git 命令客户端进入项目根路径,输入 git init 命令,创建github本地根目录 2.把文件加入到本地项目 git add . ,如 ...
vue实现pc端上拉加载功能，不兼容移动端
所用插件:Mock.js 这个只用到它简单的功能,拦截ajax请求. vue和axios,vue基础知识请看文档. axios类似于jquery的ajax方法. 以下是是该功能所有代码,其中mock的 ...
IDEA新建项目时，没有Spring Initializr选项
换了台新电脑,然后重新安装了Intellij IDEA,创建spring boot项目的时候找不到Spring Initializr选项了. 然后百度了下,发现有前辈做出了回答,就复制存到了自己随笔里 ...
C++面试笔记(1)
1. C和C++的区别 C++面向对象的三大特性面向对象的三个基本特征:封装.继承.多态 1.封装:把客观事物封装成抽象的类,类进行信息隐藏关键字 |当前类 |包内 |子孙类| 包外 --|--| ...
OpenGL中VA,VAO,VBO和EBO的区别
1,顶点数组(Vertex Array) VA,顶点数组也是收集好所有的顶点,一次性发送给GPU.不过数据不是存储于GPU中的,绘制速度上没有显示列表快,优点是可以修改数据. 4.VBO(Vertex ...
Java - Java入门（2-1am）
第一讲.Java入门 1. 计算机语言是人和计算机进行交互的一种工具,人们通过使用计算机语言编写程序来向计算机施令,计算机则执行程序,并把结果输出给用户. 2. 机器语言:由0.1序列构成的指令码组成 ...

Spark菜鸟记录

Spark菜鸟记录的更多相关文章

随机推荐

热门专题