Spark分区实例（teacher）

package URL1

import org.apache.spark.Partitioner

import scala.collection.mutable

class MyPartitioner(val num:Array[String]) extends Partitioner{

val parMap=new mutable.HashMap[String,Int]()

  var count=

  for(i<-num){

    parMap.put(i,count)

    count +=

  }

  //分区数目

  override def numPartitions: Int = num.length

  //分区的规则

  //def getPartition(key: Any): Int：这个函数需要对输入的key做计算，然后返回该key的分区ID，范围一定是0到numPartitions-1

  override def getPartition(key: Any): Int = {

    // 将对象转换为指定类型；

    val tople=key.asInstanceOf[(String,String)]

    val subject=tople._1

    this.parMap(subject)

}

}

package URL1

class Orders extends Ordering[((String,String),Int)]{

  override def compare(x: ((String, String), Int), y: ((String, String), Int)): Int = {

    x._2-y._2

  }

}

package URL1

import java.net.URL

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable

object teacher {

  def main(args: Array[String]): Unit = {

    val cof=new SparkConf()

      .setAppName(this.getClass.getSimpleName)

      .setMaster("local[*]")

    val sc=new SparkContext(cof)

    val lines=sc.textFile("E:\\teacher.log")

    val result1:RDD[((String,String),Int)]=lines.map( tp=>{

      val teacher=tp.split("/").last

      val host=new URL(tp).getHost

      val subject=host.substring(,host.indexOf("."))

      ((subject,teacher),)

    })

    //科目

    val subject=result1.map(tp=>tp._1._1).distinct().collect()

    //分区

    val partitions=new MyPartitioner(subject)

    //业务逻辑

    //1.全局TOPN

   // val result2=result1.reduceByKey(partitions,_+_).sortBy(-_._2).take(2).foreach(println)

    //1.全局TOPN

    val result3=result1.foreachPartition(tp=>{

      val treeSet=new mutable.TreeSet[((String,String),Int)]()(new Orders)

      tp.foreach(tp=>{

        treeSet.add(tp)

        if(treeSet.size>){

          treeSet.dropRight()

        }

      })

      treeSet.foreach(println)

    })

sc.stop()

  }

}

teacher.log

http://bigdata.baidu.cn/zhangsan

http://bigdata.baidu.cn/zhangsan

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/wangwu

http://bigdata.baidu.cn/wangwu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/wangwu

http://bigdata.baidu.cn/wangwu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/lisi

http://bigdata.baidu.cn/wangwu

http://bigdata.baidu.cn/wangwu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/xiaoxu

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://javaee.baidu.cn/laoyang

http://php.baidu.cn/laoli

http://php.baidu.cn/laoliu

http://php.baidu.cn/laoli

http://php.baidu.cn/laoli

Spark分区实例（teacher）的更多相关文章

Spark Job-Stage-Task实例理解
Spark Job-Stage-Task实例理解基于一个word count的简单例子理解Job.Stage.Task的关系,以及各自产生的方式和对并行.分区等的联系: 相关概念 Job:Job是由 ...
【原创 Hadoop&Spark 动手实践 6】Spark 编程实例与案例演示
[原创 Hadoop&Spark 动手实践 6]Spark 编程实例与案例演示 Spark 编程实例和简易电影分析系统的编写目标: 1. 掌握理论:了解Spark编程的理论基础 2. 搭建 ...
【Spark 深入学习-08】说说Spark分区原理及优化方法
本节内容 ------------------ · Spark为什么要分区 · Spark分区原则及方法 · Spark分区案例 · 参考资料 ------------------ 一.Spark为什 ...
Spark学习之路（十七）Spark分区
一.分区的概念分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务 ...
Spark（十一）Spark分区
一.分区的概念分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务 ...
spark分区
spark默认的partition的分区数是和本机CPU的核数保持一致: bucket的数量和reduce的数量一致:buket的概念是map会将计算获得数据放到各个buket中,每个bucket和一 ...
Spark Streaming实例
Spark Streaming实例分析 2015-02-02 21:00 4343人阅读评论(0) 收藏举报分类: spark(11) 转载地址:http://www.aboutyun.co ...
Spark学习之路（十七）Spark分区[转]
分区的概念分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个 ...
Hive和Spark分区策略
1.概述离线数据处理生态系统包含许多关键任务,最大限度的提高数据管道基础设施的稳定性和效率是至关重要的.这边博客将分享Hive和Spark分区的各种策略,以最大限度的提高数据工程生态系统的稳定性和效 ...

随机推荐

hdf5文件、tqdm模块、nunique、read_csv、sort_values、astype、fillna
pandas.DataFrame.to_hdf(self, path_or_buf, key, **kwargs): Hierarchical Data Format (HDF) ,to add an ...
Solr——Java应用
Solr有一个客户端SolrJ 创建一个Java Project 引入Jar包添加test类 package com.solr.test; import java.io.IOException; i ...
fullpage.js最后一屏不满一屏时，滚动方式
这两天公司网页改版用到fullpage.js这个滚屏插件,页面内容整屏的滚动,不成问题,各种设置在网上也都有文档.而我遇到的问题就是,页面内容不满屏的时候,和上面的内容放一块就太挤,单独放一屏就太空, ...
ES head
第2种安装方式第二种方式就是不通过Elasticsearch插件方式进行安装 1.下载elasticsearch-head的源码包地址:https://github.com/mobz/elasti ...
react 项目 mock数据
前言我们都知道在实际的开发阶段,后端接口开发是和前端开发同步进行,甚至迟于前端的进度,这就直就导致前端需要等待后端接口的时间. 这种情况就严重导致前端开发缓慢,那这时候前端的开发人员只能写静态模拟数 ...
React事件，修改this.state的值
1.React中绑定事件 React中绑定事件格式: onClick = { function } React中绑定事件的标准用法: import React from 'react' export ...
python 通过序列索引迭代
另外一种执行循环的遍历方式是通过索引,如下实例: #!/usr/bin/python # -*- coding: UTF-8 -*- fruits = ['banana', 'apple', 'man ...
hdu 5761 Rower Bo 微分方程
Rower Bo Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others)Total ...
Spring——注解
一.IOC注解 1.用于向Spring容器中注入bean: @Component:向Spring容器中注入bean @Repository:用于标注Dao层 @Service:用于标注Service业 ...
Xshell安装教程及Xshell安装程序集组件时出错的解决方法
部分小伙伴在安装Xshell的时候可能会遇到这个问题:“Xshell5安装程序集组件{0D7E67F6-1A6A-3A26-AF95-B8E83DDCCC3F}时出错.HRESULT0x80070BC ...

Spark分区实例（teacher）

Spark分区实例（teacher）的更多相关文章

随机推荐

热门专题