大数据入门第二十二天——spark（三）自定义分区、排序与查找

一、自定义分区

　　1.概述

　　　　默认的是Hash的分区策略，这点和Hadoop是类似的，具体的分区介绍，参见：https://blog.csdn.net/high2011/article/details/68491115

　　2.实现

package cn.itcast.spark.day3

import java.net.URL

import org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext}

import scala.collection.mutable

/**

  * Created by root on 2016/5/18.

  */

object UrlCountPartition {

  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("UrlCountPartition").setMaster("local[2]")

    val sc = new SparkContext(conf)

    //rdd1将数据切分，元组中放的是（URL， 1）

    val rdd1 = sc.textFile("c://itcast.log").map(line => {

      val f = line.split("\t")

      (f(1), 1)

    })

    val rdd2 = rdd1.reduceByKey(_ + _)

    val rdd3 = rdd2.map(t => {

      val url = t._1

      val host = new URL(url).getHost

      (host, (url, t._2))

    })

    val ints = rdd3.map(_._1).distinct().collect()

    val hostParitioner = new HostParitioner(ints)

//    val rdd4 = rdd3.partitionBy(new HashPartitioner(ints.length))

    val rdd4 = rdd3.partitionBy(hostParitioner).mapPartitions(it => {

      it.toList.sortBy(_._2._2).reverse.take(2).iterator

    })

    rdd4.saveAsTextFile("c://out4")

    //println(rdd4.collect().toBuffer)

    sc.stop()

  }

}

/**

  * 决定了数据到哪个分区里面

  * @param ins

  */

class HostParitioner(ins: Array[String]) extends Partitioner {

  val parMap = new mutable.HashMap[String, Int]()

  var count = 0

  for(i <- ins){

    parMap += (i -> count)

    count += 1

  }

  override def numPartitions: Int = ins.length

  override def getPartition(key: Any): Int = {

    parMap.getOrElse(key.toString, 0)

  }

}

　　// 与Hadoop相通，不再赘述

二、自定义排序

　　基本上就是结合之前的隐式转换了：（这里使用样例类可以不用new就能得到实例，另外也可以用于模式匹配）

package cn.itcast.spark.day3

import org.apache.spark.{SparkConf, SparkContext}

object OrderContext {

  implicit val girlOrdering  = new Ordering[Girl] {

    override def compare(x: Girl, y: Girl): Int = {

      if(x.faceValue > y.faceValue) 1

      else if (x.faceValue == y.faceValue) {

        if(x.age > y.age) -1 else 1

      } else -1

    }

  }

}

/**

  * Created by root on 2016/5/18.

  */

//sort =>规则 先按faveValue，比较年龄

//name,faveValue,age

object CustomSort {

  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("CustomSort").setMaster("local[2]")

    val sc = new SparkContext(conf)

    val rdd1 = sc.parallelize(List(("yuihatano", 90, 28, 1), ("angelababy", 90, 27, 2),("JuJingYi", 95, 22, 3)))

    import OrderContext._

    val rdd2 = rdd1.sortBy(x => Girl(x._2, x._3), false)

    println(rdd2.collect().toBuffer)

    sc.stop()

  }

}

/**

  * 第一种方式

  * @param faceValue

  * @param age

case class Girl(val faceValue: Int, val age: Int) extends Ordered[Girl] with Serializable {

  override def compare(that: Girl): Int = {

    if(this.faceValue == that.faceValue) {

      that.age - this.age

    } else {

      this.faceValue -that.faceValue

    }

  }

}

  */

/**

  * 第二种，通过隐式转换完成排序

  * @param faceValue

  * @param age

  */

case class Girl(faceValue: Int, age: Int) extends Serializable

　　// 复习隐式转换，基本也无新内容

三、IP查找小练习

　　参考：https://www.cnblogs.com/wnbahmbb/p/6250099.html

大数据入门第二十二天——spark（三）自定义分区、排序与查找的更多相关文章

大数据入门第二十二天——spark（一）入门与安装
一.概述 1.什么是spark 从官网http://spark.apache.org/可以得知: Apache Spark™ is a fast and general engine for larg ...
大数据入门第二十二天——spark（二）RDD算子（1）
一.RDD概述 1.什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的 ...
大数据入门第二十二天——spark（二）RDD算子（2）与spark其它特性
一.JdbcRDD与关系型数据库交互虽然略显鸡肋,但这里还是记录一下(点开JdbcRDD可以看到限制比较死,基本是鸡肋.但好在我们可以通过自定义的JdbcRDD来帮助我们完成与关系型数据库的交互.这 ...
大数据入门第二十五天——elasticsearch入门
一.概述推荐路神的ES权威指南翻译:https://es.xiaoleilu.com/010_Intro/00_README.html 官网:https://www.elastic.co/cn/pr ...
大数据入门第二十三天——SparkSQL（二）结合hive
一.SparkSQL结合hive 1.首先通过官网查看与hive匹配的版本这里可以看到是1.2.1 2.与hive结合 spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然 ...
大数据入门第二十五天——logstash入门
一.概述 1.logstash是什么根据官网介绍: Logstash 是开源的服务器端数据处理管道,能够同时从多个来源采集数据.转换数据,然后将数据发送到您最喜欢的 “存储库” 中.(我们的存储库 ...
大数据入门第二十四天——SparkStreaming（一）入门与示例
一.概述 1.什么是spark streaming Spark Streaming is an extension of the core Spark API that enables scalabl ...
大数据入门第二十三天——SparkSQL（一）入门与使用
一.概述 1.什么是sparkSQL 根据官网的解释: Spark SQL is a Spark module for structured data processing. 也就是说,sparkSQ ...
大数据入门第二天——基础部分之zookeeper（下）
一.集群自启动脚本 1.关闭zk [root@localhost bin]# jps Jps QuorumPeerMain [root@localhost bin]# //kill或者stop都是可以 ...

随机推荐

JS--我发现，原来你是这样的JS（引用类型不简单[下篇]，基本包装类型与个体内置对象）
一.介绍本篇是续上一篇的,引用类型的下篇,本篇主要是说基本包装类型和个体内置对象.如果你能收获一些知识,那我很高兴,很满足,哈哈哈,希望大家能愉快看完.如果你想学好一门技术,要不忘初心,方得始终. ...
jsp隐式对象
隐式对象使用位置隐式对象在转译为Servlet后,是_jspService()中的局部变量.隐式对象只能在<%与%>之间,或<%=与%>之间直接使用. 无法在<%!与% ...
控制台输出 mybatis 中的sql语句
控制台输出 mybatis 中的sql语句在 log4j.xml 文件中增加如下配置  <logger name=& ...
结合 spring 使用阿里 Druid 连接池配置方法
1.数据源  <bean name="dataSource" class="com.alibaba.druid.pool.D ...
Oracle EBS OPM complete batch
--complete_batch --created by jenrry SET serveroutput on DECLARE x_return_status VARCHAR2 (1); l_exc ...
Oracle EBS OPM 创建生产批
--创建生产批 --created by jenrry DECLARE x_message_count NUMBER; x_message_list VARCHAR2 (2000); x_return ...
pt-osc原理、限制、及与原生online-ddl比较
1. pt-osc工作过程创建一个和要执行 alter 操作的表一样的新的空表结构(是alter之前的结构) 在新表执行alter table 语句(速度应该很快) 在原表中创建触发器3个触发器分别 ...
python自定义函数和推导
#之所以把这俩写一起,并不是因为这俩有什么关系,因为都太简单,没什么可说的 #自定义函数的格式,def开头,后面空格,在后面是函数名,接括号,括号里是入参参数 #!/usr/bin/python # ...
Huawei DHCP 全局配置与接口配置
网络拓扑图如下所示: 说明: 1.交换机Ge0/0/1口和Ge0/0/2口配置基于全局的DHCP: 2.交换机Ge0/0/3口配置基于端口的DHCP: 3.交换机上配置vlan 10 .vlan 20 ...
python基础学习5----字典
字典由大括号和键值对组成,特点为无序,键唯一 1.字典的创建 #直接创建字典 dic1={'name':'a','age':20} #通过dict创建字典,输出都为{'name': 'a', 'age ...