spark算子：partitionBy对数据进行分区

def partitionBy(partitioner: Partitioner): RDD[(K, V)]

该函数根据partitioner函数生成新的ShuffleRDD，将原RDD重新分区。

scala> var rdd1 = sc.makeRDD(Array((1,"A"),(2,"B"),(3,"C"),(4,"D")),2)

rdd1: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[23] at makeRDD at :21

scala> rdd1.partitions.size

res20: Int = 2

//查看rdd1中每个分区的元素

scala> rdd1.mapPartitionsWithIndex{

     |         (partIdx,iter) => {

     |           var part_map = scala.collection.mutable.Map[String,List[(Int,String)]]()

     |             while(iter.hasNext){

     |               var part_name = "part_" + partIdx;

     |               var elem = iter.next()

     |               if(part_map.contains(part_name)) {

     |                 var elems = part_map(part_name)

     |                 elems ::= elem

     |                 part_map(part_name) = elems

     |               } else {

     |                 part_map(part_name) = List[(Int,String)]{elem}

     |               }

     |             }

     |             part_map.iterator

     |

     |         }

     |       }.collect

res22: Array[(String, List[(Int, String)])] = Array((part_0,List((2,B), (1,A))), (part_1,List((4,D), (3,C))))

//(2,B),(1,A)在part_0中，(4,D),(3,C)在part_1中

//使用partitionBy重分区

scala> var rdd2 = rdd1.partitionBy(new org.apache.spark.HashPartitioner(2))

rdd2: org.apache.spark.rdd.RDD[(Int, String)] = ShuffledRDD[25] at partitionBy at :23

scala> rdd2.partitions.size

res23: Int = 2

//查看rdd2中每个分区的元素

scala> rdd2.mapPartitionsWithIndex{

     |         (partIdx,iter) => {

     |           var part_map = scala.collection.mutable.Map[String,List[(Int,String)]]()

     |             while(iter.hasNext){

     |               var part_name = "part_" + partIdx;

     |               var elem = iter.next()

     |               if(part_map.contains(part_name)) {

     |                 var elems = part_map(part_name)

     |                 elems ::= elem

     |                 part_map(part_name) = elems

     |               } else {

     |                 part_map(part_name) = List[(Int,String)]{elem}

     |               }

     |             }

     |             part_map.iterator

     |         }

     |       }.collect

res24: Array[(String, List[(Int, String)])] = Array((part_0,List((4,D), (2,B))), (part_1,List((3,C), (1,A))))

//(4,D),(2,B)在part_0中，(3,C),(1,A)在part_1中

参考：http://lxw1234.com/archives/2015/07/356.htm

spark算子：partitionBy对数据进行分区的更多相关文章

Spark算子--partitionBy
转载请标明出处http://www.cnblogs.com/haozhengfei/p/923b11fce561e82748baa016bcfb8421.html partitionBy--Trans ...
Spark算子使用
一.spark的算子分类转换算子和行动算子转换算子:在使用的时候,spark是不会真正执行,直到需要行动算子之后才会执行.在spark中每一个算子在计算之后就会产生一个新的RDD. 二.在编写sp ...
Spark算子选择策略
摘要 1.使用reduceByKey/aggregateByKey替代groupByKey 2.使用mapPartitions替代普通map 3.使用foreachPartitions替代forea ...
(转)Spark 算子系列文章
http://lxw1234.com/archives/2015/07/363.htm Spark算子:RDD基本转换操作(1)–map.flagMap.distinct Spark算子:RDD创建操 ...
Spark算子总结及案例
spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key-Value数据类型的Tran ...
Spark算子代码实践
package com.dingxin.datainit import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.Spa ...
spark算子之DataFrame和DataSet
前言传统的RDD相对于mapreduce和storm提供了丰富强大的算子.在spark慢慢步入DataFrame到DataSet的今天,在算子的类型基本不变的情况下,这两个数据集提供了更为强大的的功 ...
Spark算子总结（带案例）
Spark算子总结(带案例) spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key ...
（二）spark算子分为3大类
transgormation的算子对key-value类型的数据有三种: (1)输入与输出为一对一关系 mapValue();针对key-value类型的数据并只对其中的value进行操作,不对 ...

随机推荐

PHP之防御sql注入攻击的方式
长期以来,web的安全性存在着巨大的争议与挑战.其中,sql注入就是一种常见的一种攻击方法,开发人员普遍的做法就是不停的过滤,转义参数,可是我们php大法天生弱类型的机制,总是让黑客有机可乘,绕过防御 ...
Java中常见的URL问题及解决方案
URL无处不在,不过似乎开发人员并没有真正地理解它们,因为在Stack Overflow上经常看到有人在问如何正确的创建一个URL.想知道URL语法是如何工作的,可以看下兄弟连教育总结的这篇文章,非常 ...
async generator promise异步方案实际运用
es7 async方案 /******************async***********************/ var timeFn=function(time){ return new P ...
关于Oracle-SQL语句性能优化
Oracle-Sql语句性能优化相信许多从事几年的开发人员都有过一些经验,相对于刚出来的毕业生而言,对于同种操作sql结果,他们的代码性能会更高一些.虽然本人还是个实习生,在这还是写写自己 ...
shell 文本操作命令
vi 编辑器中有三种状态模式 [vi 文件名(或路径+文件名)] 1.命令模式 2.输入模式 3.末行模式三种模式间的相互转换 vi编辑器的启动与退出直接进入编辑环境 $ vi 进入编辑环境并打 ...
hi-nginx-1.3.4编译安装
hi-nginx既是 web 服务器,也是 application 服务器.它开源在https://github.com/webcpp/hi-nginx 它是NGINX的超集,因此与编译NGINX稍有 ...
redis 相关知识
1. 什么是Redis Redis是由意大利人Salvatore Sanfilippo(网名:antirez)开发的一款内存高速缓存数据库.Redis全称为:Remote Dictionary Ser ...
庖丁解牛Linux内核学习笔记（1）--计算机是如何工作的
存储程序计算机模型冯诺依曼体系结构冯诺依曼体系结构是存储程序计算机,什么叫存储程序计算机?从硬件角度说,假设有cpu和内存,两者通过总线连接,在cpu内部有一个寄存器叫ip(instruction ...
《团队-Oldnote-最终程序》
托管平台地址:https://github.com/Vcandoit/Notepad 小组名称:TOP 小组成员合照:待添加程序运行方法:手机app,安装到手机点击即可运行,打开页面会有图标提示. ...
Beta敏捷冲刺每日报告——Day5
1.情况简述 Beta阶段Scrum Meeting 敏捷开发起止时间 2017.11.6 00:00 -- 2017.11.7 00:00 讨论时间地点 2017.11.6 早9:30,电话会议会议 ...

spark算子：partitionBy对数据进行分区

spark算子：partitionBy对数据进行分区的更多相关文章

随机推荐

热门专题