Spark RDD概念学习系列之Pair RDD的分区控制

　　不多说，直接上干货！

Pair RDD的分区控制

　　Pair RDD的分区控制

　　（1） Spark 中所有的键值对RDD 都可以进行分区控制---自定义分区

　　（2）自定义分区的好处：

　　　　 1) 避免数据倾斜

　　　　 2) 控制task并行度

　　自定义分区方式

class DomainNamePartitioner(numParts: Int) extends Partitioner {

    override def numPartitions: Int = numParts

    override def getPartition(key: Any): Int = {

        val domain = new Java.net.URL(key.toString).getHost()

        val code = (domain.hashCode % numPartitions)

        if(code < 0) {

            code + numPartitions // 使其非负

        }else{

            code

        }

    }

    // 用来让Spark区分分区函数对象的Java equals方法

    override def equals(other: Any): Boolean = other match {

        case dnp: DomainNamePartitioner =>

            dnp.numPartitions == numPartitions

        case _ =>

            false

    }

Spark RDD概念学习系列之Pair RDD的分区控制的更多相关文章

Spark RDD概念学习系列之Pair RDD的action操作
不多说,直接上干货! Pair RDD的action操作所有基础RDD 支持的行动操作也都在pair RDD 上可用
Spark RDD概念学习系列之Pair RDD的transformation操作
不多说,直接上干货! Pair RDD的transformation操作 Pair RDD转换操作1 Pair RDD 可以使用所有标准RDD 上转化操作,还提供了特有的转换操作. Pair RDD转 ...
Spark RDD概念学习系列之典型RDD的特征
不多说,直接上干货!
Spark RDD概念学习系列之如何创建Pair RDD
不多说,直接上干货! 创建Pair RDD Python语言 pairs = lines.map(lambda x: (x.split(], x)) scala语言 val pairs = line ...
Spark RDD概念学习系列之什么是Pair RDD
不多说,直接上干货! 什么是Pair RDD (1)包含键值对类型的RDD被称作Pair RDD. (2)Pair RDD通常用来进行聚合计算. (3)Pair RDD通常由普通RDD做ETL转换而来 ...
Spark RDD概念学习系列之RDD的checkpoint（九）
RDD的检查点首先,要清楚.为什么spark要引入检查点机制?引入RDD的检查点? 答:如果缓存丢失了,则需要重新计算.如果计算特别复杂或者计算耗时特别多,那么缓存丢失对于整个Job的影响是不容 ...
Spark RDD概念学习系列之RDD是什么？（四）
RDD是什么? 通俗地理解,RDD可以被抽象地理解为一个大的数组(Array),但是这个数组是分布在集群上的.详细见 Spark的数据存储 Spark的核心数据模型是RDD,但RDD是个抽象类 ...
Spark RDD概念学习系列之RDD的依赖关系（宽依赖和窄依赖）（三）
RDD的依赖关系? RDD和它依赖的parent RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency). 1)窄依赖指的是每 ...
Spark RDD概念学习系列之Spark的数据存储（十二）
Spark数据存储的核心是弹性分布式数据集(RDD). RDD可以被抽象地理解为一个大的数组(Array),但是这个数组是分布在集群上的. 逻辑上RDD的每个分区叫一个Partition. 在Spar ...

随机推荐

Winform开发如何为dataGridView 添加CheckBox列，并获取选中行
//添加CheckBox列 DataGridViewCheckBoxColumn columncb = new DataGridViewCheckBoxColumn(); columncb.Heade ...
使用一行代码解决IE浏览器兼容问题
在网站开发中不免因为各种兼容问题苦恼,针对兼容问题,其实IE给出了解决方案Google也给出了解决方案百度也应用了这种方案去解决IE的兼容问题百度源代码如下 <!Doctype html&g ...
SciSharpCube：容器中的SciSharp，.NET机器学习开箱即用
SciSharp Cube 在Docker容器中快速体验SciSharp机器学习工具的最新功能. 项目地址:https://github.com/SciSharp/SciSharpCube 从Dock ...
树（2）-----leetcode(层、深度、节点)
1.树的类实现: class TreeNode(object): def __init__(self, x): self.val = x self.left = None self.right = N ...
【codeforces 731D】80-th Level Archeology
[题目链接]:http://codeforces.com/contest/731/problem/D [题意] 给你n个象形文; 每个象形文由l[i]个数字组成; 你可以把所有的组成象形文的数字同时增 ...
C/C++ 图像二进制存储与读取
本系列文章由 @yhl_leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/50782792 在深度学习时,制作样本数 ...
The Basics of Numpy
在python语言中,Tensorflow中的tensor返回的是numpy ndarray对象. Numpy的主要对象是齐次多维数组,即一个元素表(通常是数字),所有的元素具有相同类型,可以通过有序 ...
LinkedList 注意事项
public E getFirst() 返回此列表的第一个元素. public E getLast() 返回此列表的最后一个元素. public E removeFirst() 移除并返回此列表的 ...
BindingResult不能获取错误对象
BindingResult不能获取错误对象,代码如下: @RequestMapping(value = "/login") public String error4( Model ...
排序算法Python（冒泡、选择、快速、插入、希尔、归并排序）
排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存. 我们通常所说的排序算法往往指的是内部排序算法,即数据 ...

Spark RDD概念学习系列之Pair RDD的分区控制

Pair RDD的分区控制

Spark RDD概念学习系列之Pair RDD的分区控制的更多相关文章

随机推荐

热门专题