Spark- 计算每个学科最受欢迎的老师

日志类型

测试数据

http://bigdata.myit.com/zhangsan

http://bigdata.myit.com/zhangsan

http://bigdata.myit.com/zhangsan

http://bigdata.myit.com/zhangsan

http://bigdata.myit.com/zhangsan

http://java.myit.com/lisi

http://java.myit.com/lisi

http://java.myit.com/lisi

计算每个学科最受欢迎的老师

package mypro

import java.net.URL

import org.apache.log4j.{Level, Logger}

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkContext, SparkConf}

/**

 * Created by 166 on 2017/9/5.

 */

object FavTeacher {

  def main(args: Array[String]) {

    Logger.getLogger("org.apache.spark").setLevel(Level.OFF)

    val conf = new SparkConf().setAppName(this.getClass.getName).setMaster("local[2]")//local[*]代表用多个线程跑,2代表用两个线程跑

    val sc = new SparkContext(conf)

    //读取数据

    val lines: RDD[String] = sc.textFile(args())

    //整理数据

    val subjectAndTeacher:RDD[(String,String)]=lines.map(line=> {

      val url = new URL(line)

      val host = url.getHost

      val subject = host.substring(, host.indexOf("."))

      val teacher = url.getPath.substring()   //去掉路径前面的"/"

      (subject, teacher)

    })

    //聚合

    val reduce = subjectAndTeacher.map((_,)).reduceByKey(_+_)

    //println(reduce.collect().toBuffer)

    //按学科分组

    val grouped: RDD[(String, Iterable[((String, String), Int)])] = reduce.groupBy(_._1._1)//迭代器不能排序,需要将它变成List。

    //二次排序

    val result: RDD[(String, List[((String, String), Int)])] = grouped.mapValues(_.toList.sortBy(_._2).reverse.take())//用scala的语法，会把数据全部加载到内存后再做排序，数据量大的时候会有性能问题，内存溢出的问题，不建议这样使用，

    val arr: Array[(String, List[((String, String), Int)])] = result.collect()

    println(arr.toBuffer)

  }

}

另种角度来实现，过滤多次提交

package com.rz.spark.base

import java.net.URL

import org.apache.log4j.{Level, Logger}

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

// 过滤多次提交

object GroupFavTeacher2 {

  def main(args: Array[String]): Unit = {

    Logger.getLogger("org.apache.spark").setLevel(Level.OFF)

    val conf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getSimpleName)

    val sc = new SparkContext(conf)

    val topN = args(1).toInt

    val subject = Array("bigdata","javaee","php")

    // 读取数据

    val lines: RDD[String] = sc.textFile(args(0))

    // 整理数据  http://bigdata.myit.cn/laozhang

    val subjectAndTeacher= lines.map(line => {

      val url = new URL(line)

      val host = url.getHost

      val subject = host.substring(0, host.indexOf("."))

      val teacher = url.getPath.substring(1) // 去掉前面的/

      ((subject, teacher),1)

    })

    // 聚合

    val reduced = subjectAndTeacher.reduceByKey(_+_)

　　
　　// 缓存到内存,因为多次过滤都是使用同一个rdd，缓存到内存可以提高反复使用的性能
　　val cache = reduced.cache()

    for (sb <- subject){

      val sorted = cache.filter(_._1._1 == sb).sortBy(_._2,false).take(topN)

      println(sorted.toBuffer)

    }

    sc.stop()

  }

}

　　使用自定义分区器将每个学科的数据shuffle到独自的分区，在分区内进行排序取topN

package com.rz.spark.base

import java.net.URL

import org.apache.log4j.{Level, Logger}

import org.apache.spark.rdd.RDD

import org.apache.spark.{Partitioner, SparkConf, SparkContext}

// 自定义分区器

import scala.collection.mutable

// 过滤多次提交

object GroupFavTeacher3 {

  def main(args: Array[String]): Unit = {

    Logger.getLogger("org.apache.spark").setLevel(Level.OFF)

    val conf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getSimpleName)

    val sc = new SparkContext(conf)

    val topN = args().toInt

    val subject = Array("bigdata","javaee","php")

    // 读取数据

    val lines: RDD[String] = sc.textFile(args())

    // 整理数据  http://bigdata.myit.cn/laozhang

    val subjectAndTeacher= lines.map(line => {

      val url = new URL(line)

      val host = url.getHost

      val subject = host.substring(, host.indexOf("."))

      val teacher = url.getPath.substring() // 去掉前面的/

      ((subject, teacher),)

    })

    // 聚合

    val reduced = subjectAndTeacher.reduceByKey(_+_)

    // 计算我们有多少学科

    val sujects: Array[String] = reduced.map(_._1._1).distinct().collect()

    // 自定义一个分区器，并且按照指定的分区器进行分区

    val subjectPartitoner = new SubjectPartitoner(sujects)

    // partitionBy按照指定的分区规则进行分区

    val partitioned: RDD[((String, String), Int)] = reduced.partitionBy(subjectPartitoner)

    // 如果一次拿出一个分区（可以操作一个分区的数据）

    val sorted = partitioned.mapPartitions(it => {

      // 将迭代器转成List，然后排序，再转成迭代器返回

      it.toList.sortBy(_._2).reverse.take(topN).toIterator // 按数值排序

    })

    val result = sorted.collect()

    println(result.toBuffer)

    sc.stop()

  }

  // 自定义分区器

  class SubjectPartitoner(sbs: Array[String]) extends Partitioner{

    // 相当于主构造器(new 的时候会执行一次)

    // 用于存放规则的一个map

    val rules = new mutable.HashMap[String, Int]()

    var i =

    for (sb <- sbs){

      rules.put(sb,i)

      i +=

    }

    // 返回分区的数量（下一个RDD有多少分区）

    override def numPartitions: Int = sbs.length

    // 根据传入的key计算分区标号

    // Key是一个无组（String, String）

    override def getPartition(key: Any): Int ={

      // 获取学科名称

      val subject = key.asInstanceOf[(String, String)]._1

      // 根据规则计算分区编号

      rules(subject)

    }

  }

}

上面的方式会有多次shuffle，reduceByKey聚合数据的时候shuffle一次，使用自定义分区器重新对数据进行分析又shuffle了一次。我们可以尽可能的减少shuffle的过程，我们可以在reduceByKey的时候手动使用自定分区器进行分区，reduceByKey默认使用的是。HashPartitioner。

package com.rz.spark.base

import java.net.URL

import org.apache.log4j.{Level, Logger}

import org.apache.spark.rdd.RDD

import org.apache.spark.{Partitioner, SparkConf, SparkContext}

// 自定义分区器且减少shuffle

import scala.collection.mutable

// 过滤多次提交

object GroupFavTeacher4 {

  def main(args: Array[String]): Unit = {

    Logger.getLogger("org.apache.spark").setLevel(Level.OFF)

    val conf = new SparkConf().setMaster("local[2]").setAppName(this.getClass.getSimpleName)

    val sc = new SparkContext(conf)

    val topN = args().toInt

    val subject = Array("bigdata","javaee","php")

    // 读取数据

    val lines: RDD[String] = sc.textFile(args())

    // 整理数据  http://bigdata.myit.cn/laozhang

    val subjectAndTeacher= lines.map(line => {

      val url = new URL(line)

      val host = url.getHost

      val subject = host.substring(, host.indexOf("."))

      val teacher = url.getPath.substring() // 去掉前面的/

      ((subject, teacher),)

    })

    // 计算我们有多少学科

    val sujects: Array[String] = subjectAndTeacher.map(_._1._1).distinct().collect()

    // 自定义一个分区器，并且按照指定的分区器进行分区

    val subjectPartitoner = new SubjectPartitoner2(sujects)

    // 聚合,聚合是按照指定的分区器进行分区

    // 该RDD一个分区内仅有一个学科的数据

    val reduced: RDD[((String, String), Int)] = subjectAndTeacher.reduceByKey(subjectPartitoner,_+_)

    // 如果一次拿出一个分区（可以操作一个分区的数据）

    val sorted = reduced.mapPartitions(it => {

      // 将迭代器转成List，然后排序，再转成迭代器返回

      it.toList.sortBy(_._2).reverse.take(topN).toIterator // 按数值排序

    })

    // 收集数据

    val result = sorted.collect()

    println(result.toBuffer)

    sc.stop()

  }

  // 自定义分区器

  class SubjectPartitoner2(sbs: Array[String]) extends Partitioner{

    // 相当于主构造器(new 的时候会执行一次)

    // 用于存放规则的一个map

    val rules = new mutable.HashMap[String, Int]()

    var i =

    for (sb <- sbs){

      rules.put(sb,i)

      i +=

    }

    // 返回分区的数量（下一个RDD有多少分区）

    override def numPartitions: Int = sbs.length

    // 根据传入的key计算分区标号

    // Key是一个无组（String, String）

    override def getPartition(key: Any): Int ={

      // 获取学科名称

      val subject = key.asInstanceOf[(String, String)]._1

      // 根据规则计算分区编号

      rules(subject)

    }

  }

}

Spark- 计算每个学科最受欢迎的老师的更多相关文章

大数据学习day22------spark05------1. 学科最受欢迎老师解法补充 2. 自定义排序 3. spark任务执行过程 4. SparkTask的分类 5. Task的序列化 6. Task的多线程问题
1. 学科最受欢迎老师解法补充 day21中该案例的解法四还有一个问题,就是当各个老师受欢迎度是一样的时候,其排序规则就处理不了,以下是对其优化的解法实现方式五 FavoriteTeacher5 p ...
大数据学习day21-----spark04------1. 广播变量 2. RDD中的cache 3.RDD的checkpoint方法 4. 计算学科最受欢迎老师TopN
1. 广播变量 1.1 补充知识(来源:https://blog.csdn.net/huashetianzu/article/details/7821674) 之所以存在reduce side jo ...
Spark计算模型
[TOC] Spark计算模型 Spark程序模型一个经典的示例模型 SparkContext中的textFile函数从HDFS读取日志文件,输出变量file var file = sc.textF ...
spark计算两个DataFrame的差集、交集、合集
spark 计算两个dataframe 的差集.交集.合集,只选择某一列来对比比较好.新建两个 dataframe : import org.apache.spark.{SparkConf, Spar ...
【原创 Hadoop&Spark 动手实践 7】Spark 计算引擎剖析与动手实践
[原创 Hadoop&Spark 动手实践 7]Spark计算引擎剖析与动手实践目标: 1. 理解Spark计算引擎的理论知识 2. 动手实践更深入的理解Spark计算引擎的细节 3. 通过 ...
【Spark深入学习 -13】Spark计算引擎剖析
----本节内容------- 1.遗留问题解答 2.Spark核心概念 2.1 RDD及RDD操作 2.2 Transformation和Action 2.3 Spark程序架构 2.4 Spark ...
Java进行spark计算
首先在Linux环境安装spark: 可以从如下地址下载最新版本的spark: https://spark.apache.org/downloads.html 这个下载下来后是个tgz的压缩包,解压后 ...
使用spark 计算netflow数据初探
spark是一个高性能的并发的计算平台,而netflow是一种一般来说数量级很大的数据.本文记录初步使用spark 计算netflow数据的大致过程. 本文包括以下过程: 1. spark环境的搭建 ...
Spark计算均值
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处用spark来快速计算分组的平均值,写法很便捷,话不多说上代码 object ColumnVal ...

随机推荐

Nginx访问日志和错误日志的拆分（Logstash）
>> from zhuhaiqing.info input { file { type =>> "nginx-access" path =>> ...
static 修饰的变量在程序中容易出现的问题
package lianxi; public class StaticTest { int a = 0; static int b =0; StaticTest(){ ...
Weka学习之关联规则分析
步骤: (一) 选择数据源 (二)选择要分析的字段 (三)选择需要的关联规则算法 (四)点击start运行 (五) 分析结果算法选择: Apriori算法参数含义 1.car:如果设为真,则会挖掘类 ...
PropertyUtils复制BigDecimal异常
PropertyUtils复制BigDecimal会引发异常,要注意
走进科学之揭开神秘的"零拷贝"！
"零拷贝"这三个字,想必大家多多少少都有听过吧,这个技术在各种开源组件中都使用了,比如kafka,rocketmq,netty,nginx等等开源框架都在其中引用了这项技术 ...
安装Linux CentOS与用Xshell实现远程连接
注意,进入后有一个选择skip和OK的,选择skip 网络问题 vi /etc/sysconfig/network-scripts/ifcfg-eth0 //打开网络配置文件 ONBOOT=no ...
SecureCRT的Home+End+Del键映射
在securecrt界面:工具 → 键映射编辑器,在弹出的键盘中: 1.点击“home”,会弹出一个窗口,在“发送字符串”中输入:\033[1~ 2.点击“end”,会弹出一个窗口,在“发送字符串”中 ...
php字符串操作: 去掉UTF-16的空格
$s = json_encode($s); $s = str_replace('\u00a0','',$s); $s = str_replace('\u3000','',$s); $s = str_r ...
2017-2018-1 20179209《Linux内核原理与分析》第十周作业
设备与模块设备分类块设备块设备可以以块为单位寻址,块大小随设备不同而不同:设备通常支持重定位操作,也就是对数据的随机访问.块设备的例子有外存,光盘等. 字符设备字符设备不可寻址,仅供数据的流式 ...
python基础-第六篇-6.4模块混战
我们之前接触多的编程方式就是函数式编程,而且喜欢就一个文件里写完所有的程序代码,这样做在前期感觉还不错,不过一旦你的程序变复杂,在易读性和排错方面就感觉好吃力,功能界限不明显,那今天我们就来讲讲怎么用 ...

Spark- 计算每个学科最受欢迎的老师

Spark- 计算每个学科最受欢迎的老师的更多相关文章

随机推荐

热门专题