spark自定义分区器实现

在spark中，框架默认使用的事hashPartitioner分区器进行对rdd分区，但是实际生产中，往往使用spark自带的分区器会产生数据倾斜等原因，这个时候就需要我们自定义分区，按照我们指定的字段进行分区。具体的流程步骤如下：

1、创建一个自定义的分区类，并继承Partitioner，注意这个partitioner是spark的partitioner

2、重写partitioner中的方法

　 override def numPartitions: Int = ？？？
   override def getPartition(key: Any): Int = ？？？

代码实现：
测试数据集：

cookieid,createtime,pv

cookie1,2015-04-10,1

cookie1,2015-04-11,5

cookie1,2015-04-12,7

cookie1,2015-04-13,3

cookie1,2015-04-14,2

cookie1,2015-04-15,4

cookie1,2015-04-16,4

cookie2,2015-04-10,2

cookie2,2015-04-11,3

cookie2,2015-04-12,5

cookie2,2015-04-13,6

cookie2,2015-04-14,3

cookie2,2015-04-15,9

cookie2,2015-04-16,7

　　指定按照第一个字段进行分区

步骤1：

package _core.sourceCodeLearning.partitioner

import org.apache.spark.Partitioner

import scala.collection.mutable.HashMap

/**

  * Author Mr. Guo

  * Create 2019/6/23 - 12:19

  */

class UDFPartitioner(args: Array[String]) extends Partitioner {

  private val partitionMap: HashMap[String, Int] = new HashMap[String, Int]()

  var parId = 0

  for (arg <- args) {

    if (!partitionMap.contains(arg)) {

      partitionMap(arg) = parId

      parId += 1

    }

  }

  override def numPartitions: Int = partitionMap.valuesIterator.length

  override def getPartition(key: Any): Int = {

    val keys: String = key.asInstanceOf[String]

    val sub = keys

    partitionMap(sub)

  }

}

　　步骤2：

主类测试：

package _core.sourceCodeLearning.partitioner

import org.apache.spark.{SparkConf, TaskContext}

import org.apache.spark.sql.SparkSession

/**

  * Author Mr. Guo

  * Create 2019/6/23 - 12:21

  */

object UDFPartitionerMain {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getSimpleName)

    val ssc = SparkSession

      .builder()

      .config(conf)

      .getOrCreate()

    val sc = ssc.sparkContext

    sc.setLogLevel("WARN")

    val rdd = ssc.sparkContext.textFile("file:///E:\\TestFile\\analyfuncdata.txt")

    val transform = rdd.filter(_.split(",").length == 3).map(x => {

      val arr = x.split(",")

      (arr(0), (arr(1), arr(2)))

    })

    val keys: Array[String] = transform.map(_._1).collect()

    val partiion = transform.partitionBy(new UDFPartitioner(keys))

    partiion.foreachPartition(iter => {

      println(s"**********分区号：${TaskContext.getPartitionId()}***************")

      iter.foreach(r => {

        println(s"分区:${TaskContext.getPartitionId()}###" + r._1 + "\t" + r._2 + "::" + r._2._1)

      })

    })

    ssc.stop()

  }

}

　　运行结果：

这样就是按照第一个字段进行了分区，当然在分区器的中，对于key是可以根据自己的需求随意的处理，比如添加随机数等等

spark自定义分区器实现的更多相关文章

Spark自定义分区(Partitioner)
我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略,这两种分区策略在很多情况下都适合我们的场景.但是有些情况下,Spark内部不能符合咱们的需求 ...
MapReduce之自定义分区器Partitioner
@ 目录问题引出默认Partitioner分区自定义Partitioner步骤 Partition分区案例实操分区总结问题引出要求将统计结果按照条件输出到不同文件中(分区). 比如:将统计 ...
kafka 自定义分区器
package cn.xiaojf.kafka.producer; import org.apache.kafka.clients.producer.Partitioner; import org.a ...
Spark源码分析之分区器的作用
最近因为手抖,在Spark中给自己挖了一个数据倾斜的坑.为了解决这个问题,顺便研究了下Spark分区器的原理,趁着周末加班总结一下~ 先说说数据倾斜数据倾斜是指Spark中的RDD在计算的时候,每个 ...
RDD(六)——分区器
RDD的分区器 Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数.RDD中每条数据经过Shuffle过 ...
聊聊Spark的分区、并行度 —— 前奏篇
通过之前的文章[Spark RDD详解],大家应该了解到Spark会通过DAG将一个Spark job中用到的所有RDD划分为不同的stage,每个stage内部都会有很多子任务处理数据,而每个sta ...
玩转Kafka的生产者——分区器与多线程
上篇文章学习kafka的基本安装和基础概念,本文主要是学习kafka的常用API.其中包括生产者和消费者, 多线程生产者,多线程消费者,自定义分区等,当然还包括一些避坑指南. 首发于个人网站:链接地址 ...
kafka producer partitions分区器(七)
消息在经过拦截器.序列化后,就需要确定它发往哪个分区,如果在ProducerRecord中指定了partition字段,那么就不再需要partitioner分区器进行分区了,如果没有指定,那么会根据k ...
Kafka的接口回调 +自定义分区、拦截器
一.接口回调+自定义分区 1.接口回调:在使用消费者的send方法时添加Callback回调 producer.send(new ProducerRecord<String, String> ...

随机推荐

事务管理ACID
事务是由一组SQL语句组成的逻辑处理单元,事务具有以下4个属性,通常简称为事务的ACID属性. ACID是Atomic(原子性) Consistency(一致性) Isolation(隔离性) Dur ...
java多线程并发面试题
1.多线程有什么用? (1)发挥多核CPU的优势随着工业的进步,现在的笔记本.台式机乃至商用的应用服务器至少也都是双核的,4核.8核甚至16核的也都不少见,如果是单线程的程序,那么在双核CPU上就浪 ...
Nginx---系统学习
**********************************************前言************************************ =============== ...
【leetcode】977. Squares of a Sorted Array
题目如下: Given an array of integers A sorted in non-decreasing order, return an array of the squares of ...
RAM SSO功能重磅发布 —— 满足客户使用企业本地账号登录阿里云
阿里云RAM (Resource Access Management)为客户提供身份与访问控制管理服务.使用RAM,可以轻松创建并管理您的用户(比如雇员.企业开发的应用程序),并控制用户对云资源的访问 ...
PHP ftp_pwd() 函数
定义和用法 ftp_pwd() 函数返回指定 FTP 连接的当前目录名称. 语法 ftp_pwd(ftp_connection) 参数描述 ftp_connection 必需.规定要使用的 FTP ...
埃氏筛+线段树——cf731F
从2e5-1依次枚举每个数作为主显卡,然后分段求比它大的数的个数,这里的复杂度是调和级数ln2e5,即埃氏筛的复杂度.. #include<bits/stdc++.h> using nam ...
npm install 超时国内切换源; npm ERR! code ELIFECYCLE;
install 超时查看npm源地址 npm config get registry #http://registry.npmjs.org 为国外镜像地址设置阿里云镜像 npm config se ...
ASP.NET Core学习——2
Application Startup ASP.NET Core为应用程序提供了处理每个请求的完整控制.Startup类是应用程程的入口(entry point),这个类可以设置配置(configur ...
Makefile中的函数
Makefile 中的函数 Makefile 中自带了一些函数, 利用这些函数可以简化 Makefile 的编写. 函数调用语法如下: $(<function> <arguments ...

spark自定义分区器实现

spark自定义分区器实现的更多相关文章

随机推荐

热门专题