scala,spark练习题提高

1.求每家公司有哪些产品

val arr3 = List("Apache" -> "Spark", "Apache" -> "Kafka", "Oracle" -> "JAVA", "Oracle" -> "DB ORACLE", "Oracle" -> "Mysql");

    val rdd2 = sc.makeRDD(arr3).aggregateByKey(List[String]())((strings:List[String],str:String)=>str::strings,(strings:List[String],strings0:List[String])=>strings ::: strings0)

    val rdd3 = sc.makeRDD(arr3).groupByKey()

2.验证par方法

( to ).par.collect{case _ => Thread.currentThread.getName}.distinct.foreach(println)

package spark01

import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable

import scala.collection.mutable.ListBuffer

/**

  * yong rdd处理一个不规则的数组

  *

  * Created by lq on 2017/8/11.

  */

object MkRdd {

  def test4(): Unit = {

    val conf = new SparkConf().setAppName("WC").setMaster("local[2]")

    val sc = new SparkContext(conf)

    val arr = List(("Apache" -> "Spark"), ("Apache" -> "Kafka"), ("Oracle" -> "JAVA", "Oracle" -> "DB ORACLE", "Oracle" -> "Mysql"));

    //flatmap是每次传入一个元素返回一个集合(可以是新建的)

    val rdd = sc.makeRDD(arr).flatMap(t => {

      t match {

        case s:Tuple2[String, String] => List(s)

        case _ => t.productIterator.toList

      }

    }).map(t=>{t.asInstanceOf[Tuple2[String,String]]}).groupByKey()

    //.aggregate(ListBuffer[String]())((x:ListBuffer[String],y)=>{x.+(y.asInstanceOf[String]);x},(m,n)=>{m++n})

    println(rdd.collect.toBuffer)

  }

  /**

    * aggregateByKey的例子

    */

  def test5(): Unit ={

    val conf = new SparkConf().setAppName("WC").setMaster("local[2]")

    val sc = new SparkContext(conf)

    val arr2 = List(("Apache" -> "Spark"), ("Apache" -> "Kafka"), ("Oracle" -> "JAVA"), ("Oracle" -> "DB ORACLE"), ("Oracle" -> "Mysql"));

    val arr3 = List("Apache" -> "Spark", "Apache" -> "Kafka", "Oracle" -> "JAVA", "Oracle" -> "DB ORACLE", "Oracle" -> "Mysql");

    val rdd2 = sc.makeRDD(arr3).aggregateByKey(List[String]())((strings:List[String],str:String)=>str::strings,(strings:List[String],strings0:List[String])=>strings ::: strings0)

    val rdd3 = sc.makeRDD(arr3).groupByKey()

    println(rdd2.collect().toBuffer)

    //println(rdd3.collect().toBuffer)

  }

  /**

    * aggregate 的例子,求数组的平均数

    */

  def test6(): Unit ={

    val arr = List(,,,,,,,,)

    val res = arr.aggregate(,)((acc,number)=>(acc._1+number,acc._2+),(par1,par2)=>(par1._1+par2._1,par1._2+par2._2))

    //并行化

    val res1 = arr.par.aggregate(,)((acc,number)=>(acc._1+number,acc._2+),(par1,par2)=>(par1._1+par2._1,par1._2+par2._2))

    val res2  = res._1/res._2

    println(res2)

  }

  //  求出每个同学的平均成绩（要求，不要直接/3）

def test77: Unit = {
  val conf = new SparkConf().setAppName("WC").setMaster("local[2]")
  val sc = new SparkContext(conf)
  //数据格式
  // Lily,math,98
  //Lily,english,98
  //aggregateByKey 与reduce的区别 aggregateBykey可以改变返回数据的类型而reduce不能
  val rdd1 = sc.textFile("D:\\___WORK\\workSpaceHome\\temp\\study3\\mySpark\\score.dat")
    .map(_.split(","))
    .map(t=>{(t(0),(t(1),t(2).toInt))})//(Lily,(math,98))
    .aggregateByKey((mutable.Set[String](),0))(
    (m, n)=>{
      (m._1 + n._1, m._2+n._2)
    },//局部计算,m代表的是初始值,n代表的是迭代值
    (x,y)=>{//x,y代表的是每个分区的值
      ((x._1 | y._1),(x._2+y._2))
    }//整体计算
  ).map(t=>{(t._1,t._2._2/t._2._1.size)})//t._1是之前的key,t._2为aggregateByKey计算过之后的value 格式是(mutable.Set[String](),0)
  //.groupByKey().map(t=>{(t._1._1,t._1._2/t._2.size)})
  println(rdd1.collect().toBuffer)
}

object AggregateByKeyOp { def main(args:Array[String]){ val sparkConf: SparkConf = new SparkConf().setAppName("AggregateByKey").setMaster("local") val sc: SparkContext = new SparkContext(sparkConf) val data=List((,),(,),(,),(,)) val rdd=sc.parallelize(data, ) //合并不同partition中的值，a，b得数据类型为zeroValue的数据类型 def combOp(a:String,b:String):String={ println("combOp: "+a+"\t"+b) a+b } //合并在同一个partition中的值，a的数据类型为zeroValue的数据类型，b的数据类型为原value的数据类型 def seqOp(a:String,b:Int):String={ println("SeqOp:"+a+"\t"+b) a+b } rdd.foreach(println) //zeroValue:中立值,定义返回value的类型，并参与运算 //seqOp:用来在同一个partition中合并值 //combOp:用来在不同partiton中合并值 val aggregateByKeyRDD=rdd.aggregateByKey("")(seqOp, combOp) println(aggregateByKeyRDD.collect().toBuffer) //ArrayBuffer((2,1003), (1,100321004)) 由于并行之后得到两个分区,在对两个分区调用这个方法时,每个分区中中立值都会使用一次 //此时可以查看分区情况分析当前结果  sc.stop() } }

case 的另一种使用场景

//这种写法可以在使用偏函数时变量更清晰
  def ip2Long(ipAddress: String): Long = {
    ipAddress.split("\\.").zipWithIndex.foldLeft(0L) {
      case (result, (ip, index)) ⇒ {
        result + (ip.toLong << ((3-index) * 8))
      }
    }
  }
  //最初的写法
  def ip2Long2(ipAddress: String): Long = {
    ipAddress.split("\\.").zipWithIndex.foldLeft(0L)((result,t)=>{
      result + (t._1.toLong << ((3-t._2) * 8))
    })
  }

scala,spark练习题提高的更多相关文章

brdd 惰性执行 mapreduce 提取指定类型值 WebUi 作业信息全局临时视图 pyspark scala spark 安装
[rdd 惰性执行] 为了提高计算效率 spark 采用了哪些机制 1-rdd 基于分布式内存数据集进行运算 2-lazy evaluation :惰性执行,即rdd的变换操作并不是在运行该代码时立 ...
Eclipse+maven+scala+spark环境搭建
准备条件我用的Eclipse版本 Eclipse Java EE IDE for Web Developers. Version: Luna Release (4.4.0) 我用的是Eclipse ...
在IntelliJ IDEA中创建和运行java/scala/spark程序
本文将分两部分来介绍如何在IntelliJ IDEA中运行Java/Scala/Spark程序: 基本概念介绍在IntelliJ IDEA中创建和运行java/scala/spark程序基本概念介 ...
大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...
eclipse构建maven+scala+spark工程转载
转载地址:http://jingpin.jikexueyuan.com/article/47043.html 本文先叙述如何配置eclipse中maven+scala的开发环境,之后,叙述如何实现sp ...
Windows下Eclipse+Scala+Spark开发环境搭建
1.安装JDK及配置java环境变量本文使用版本为jdk1.7.0_79,过程略 2.安装scala 本文使用版本为2.11.8,过程略 3.安装spark 本文使用版本为spark-2.0.1-b ...
Scala - Spark Lambda“goesto“ => 分析
/// 定义一个函数AddNoise,参数分别为rdd,Fraction.其中rdd为(BreezeDenseMatrix, BreezeDenseMatrix)元组构成的RDD.Fraction为一 ...
Eclipse + Idea + Maven + Scala + Spark +sbt
http://jingpin.jikexueyuan.com/article/47043.html 新的scala 编译器idea使用 https://www.jetbrains.com/idea/h ...
eclipse构建maven+scala+spark工程
前提条件下载安装Scala IDE build of Eclipse SDK 构建工程 1.新建maven工程 2.配置项目信息 3.新建scala对应的Source Folder 4.添加scal ...

随机推荐

c#中this的用法
在C#中,this关键字代表当前实例,我们可以用this.来调用当前实例的成员方法,变量,属性,字段等; 也可以用this来做为参数状当前实例做为参数传入方法. 还可以通过this[]来声明索引器下 ...
SqlServer 删除重复记录
在给一个客户上线的系统里发现有一张表里出现了重复的数据,结果通过排查代码发现确实业务逻辑有问题,在修改了代码后需要将为数据库里的重复数据删除在CSDN上找到解决方案,对线上的数据库尽量不要执行删除操 ...
（笔试题）数组A中任意两个相邻元素大小相差1，在其中查找某个数。
题目: 数组A中任意两个相邻元素大小相差1,现给定这样的数组A和目标整数t,找出t在数组A中的位置.如数组:[1,2,3,4,3,4,5,6,5],找到4在数组中的位置. 思路: 很明显,在数组中寻找 ...
Oracle DB 数据库维护
• 管理优化程序统计信息 • 管理自动工作量资料档案库(AWR) • 使用自动数据库诊断监视器(ADDM) • 说明和使用指导框架 • 设置预警阈值 • 使用服务器生成的预警 • 使用自动任务数 ...
对hadoop 执行mapreduce时发生异常Illegal partition for的解决过程
来自:http://blog.csdn.net/hezuoxiang/article/details/6878026 写了个mapreduce的JAVA程序,自定义了个partition class ...
自己定义iOS上双击Home键图切换
假设双击Home.会来到iOS App的switcher页面,在这儿列出了当前系统挂起的App, 上面有每一个App的切屏,相信大家都熟悉这个东东了. 它事实上是每一个App在挂起前,对App后个载屏 ...
你远比想象中强大pdf
读后感: 序一.强化自我认知认识你自己你认为什么东西是最重要的呢? 这个问题的答案就是价值观. 让定期审视人生成为习惯除去恐惧树立目标二.改变思维模式选择,记住你的选择(做决定) 巅 ...
java 泛型--桥方法
因为 java 在编译源码时, 会进行类型擦除, 导致泛型类型被替换限定类型(无限定类型就使用 Object). 因此为保持继承和重载的多态特性, 编译器会生成桥方法. 本文最后附录所有源码. P ...
oracle 两表关联查询
oracle 两表关联查询 CreationTime--2018年7月4日17点27分 Author:Marydon 情景描述查询学生表student,sname,sex,age信息及所在班级c ...
基于UML的面向对象分析与设计
前言经常听到有朋友抱怨,说学了UML不知该怎么用,或者画了UML却觉得没什么作用.其实,就UML本身来说,它只是一种交流工具,它作为一种标准化交流符号,在OOA&D过程 ...

scala,spark练习题提高

scala,spark练习题提高的更多相关文章

随机推荐

热门专题