spark-shell的Scala的一些方法详解

Tom,DataBase,80

Tom,Algorithm,50

Tom,DataStructure,60

Jim,DataBase,90

Jim,Algorithm,60

Jim,DataStructure,80

.......

根据给定的数据在spark-shell中通过编程来计算以下内容

（1）该系总共有多少学生；

val lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

val par = lines.map(row=>row.split(",")(0))

val distinct_par = par.distinct() //去重操作

distinct_par.count //取得总数

答案为：265 人

（2）该系共开设来多少门课程；

val lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

val par = lines.map(row=>row.split(",")(1))//根据，切分的每行数据的第二列进行map

val distinct_par = par.distinct()//去重

distinct_par.count//取总数

　　答案为 8 门

（3） Tom 同学的总成绩平均分是多少;

val lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

val pare = lines.filter(row=>row.split(",")(0)=="Tom")

pare.foreach(println)

Tom,DataBase,26

Tom,Algorithm,12

Tom,OperatingSystem,16

Tom,Python,40

Tom,Software,60

pare.map(row=>(row.split(",")(0),row.split(",")(2).toInt))

.mapValues(x=>(x,1)).//mapValues是对值的操作,不操作key使数据变成(Tom,（26,1）)

reduceByKey((x,y) => (x._1+y._1,x._2 + y._2))//接着需要按key进行reduce，让key合并当将Tom进行reduce后 这里的(x,y) 表示的是(26,1)(12,1)

.mapValues(x => (x._1 / x._2))//接着要对value进行操作，用mapValues()就行啦

.collect()

//res9: Array[(String, Int)] = Array((Tom,30))

　　Tom 同学的平均分为 30 分

（4）求每名同学的选修的课程门数；

val lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

val pare = lines.map(row=>(row.split(",")(0),row.split(",")(1)))

pare.mapValues(x => (x,1))//数据变为(Tom,(DataBase,1)),(Tom,(Algorithm,1)),(Tom,(OperatingSystem,1)),(Tom,(Python,1)),(Tom,(Software,1))

.reduceByKey((x,y) => (" ",x._2 + y._2))//数据变为(Tom,( ,5))

.mapValues(x =>x._2)//数据变为(Tom, 5)

.foreach(println)

　　答案共 265 行

（5）该系 DataBase 课程共有多少人选修

val lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

val pare = lines.filter(row=>row.split(",")(1)=="DataBase")filter方法允许你提供一个判断条件（函数），来过滤集合元素

pare.count

res1: Long = 126

　　答案为 126 人

（6）各门课程的平均分是多少；

val lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

val pare = lines.map(row=>(row.split(",")(1),row.split(",")(2).toInt))

pare.mapValues(x=>(x,1)).reduceByKey((x,y) => (x._1+y._1,x._2 + y._2)).mapValues(x => (x._1 / x._2)).collect()

res0: Array[(String, Int)] = Array((Python,57), (OperatingSystem,54), (CLanguage,50),

(Software,50), (Algorithm,48), (DataStructure,47), (DataBase,50), (ComputerNetwork,51))

　　答案为： (CLanguage,50) (Python,57) (Software,50) (OperatingSystem,54) (Algorithm,48) (DataStructure,47) (DataBase,50) (ComputerNetwork,51)

（7）使用累加器计算共有多少人选了 DataBase 这门课。

val lines = sc.textFile("file:///usr/local/spark/sparksqldata/Data01.txt")

val pare = lines.filter(row=>row.split(",")(1)=="DataBase").map(row=>(row.split(",")(1),1))

val accum = sc.longAccumulator("My Accumulator")//累加器函数Accumulator

pare.values.foreach(x => accum.add(x))

accum.value

res19: Long = 126

　　答案：共有 126 人

2.编写独立应用程序实现数据去重

对于两个输入文件 A 和 B，编写 Spark 独立应用程序，对两个文件进行合并，并剔除其

中重复的内容，得到一个新文件 C。下面是输入文件和输出文件的一个样例，供参考。

输入文件 A 的样例如下：

20170101 x

20170102 y

20170103 x

20170104 y

20170105 z

20170106 z

输入文件 B 的样例如下：

20170101 y

20170102 y

20170103 x

20170104 z

20170105 y

根据输入的文件 A 和 B 合并得到的输出文件 C 的样例如下：

20170101 x

20170101 y

20170102 y

20170103 x

20170104 y

20170104 z

20170105 y

20170105 z

20170106 z

　　eclipse代码

package my.scala

import org.apache.spark.{SparkConf, SparkContext}

object case2 {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local").setAppName("reduce")

    val sc = new SparkContext(conf)

    sc.setLogLevel("ERROR")

    //获取数据

    val two = sc.textFile("hdfs://192.168.85.128:9000/quchong")

    two.filter(_.trim().length>0) //需要有空格。

        .map(line=>(line.trim,""))//全部值当key，(key value,"")

          .groupByKey()//groupByKey,过滤重复的key value ，发送到总机器上汇总

              .sortByKey() //按key value的自然顺序排序

                  .keys.collect().foreach(println) //所有的keys变成数组再输出

    //第二种有风险

    two.filter(_.trim().length>0)

          .map(line=>(line.trim,"1"))

            .distinct()

                .reduceByKey(_+_)

                    .sortByKey()

                        .foreach(println)

    //reduceByKey,在本机suffle后,再发送一个总map，发送到一个总机器上汇总，（汇总要压力小）

    //groupByKey,发送本机所有的map,在一个机器上汇总（汇总压力大）

    //如果数据在不同的机器上，则会出现先重复数据，distinct，reduceBykey，只是在本机上去重，谨慎一点的话，在reduceByKey后面需要加多一个distinct

  }

}

3.编写独立应用程序实现求平均值问题

每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生

名字，第二个是学生的成绩；编写 Spark 独立应用程序求出所有学生的平均成绩，并输出到

一个新文件中。下面是输入文件和输出文件的一个样例，供参考。

Algorithm 成绩：

小明 92

小红 87

小新 82

小丽 90

Database 成绩：

小明 95

小红 81

小新 89

小丽 85

Python 成绩：

小明 82

小红 83

小新 94

小丽 91

平均成绩如下：

 (小红,83.67)

 (小新,88.33)

 (小明,89.67)

(小丽,88.67)

package my.scala

import org.apache.spark.{SparkConf, SparkContext}

object pingjunzhi {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local").setAppName("reduce")

    val sc = new SparkContext(conf)

    sc.setLogLevel("ERROR")

val fourth = sc.textFile("hdfs://192.168.85.128:9000/pingjunzhi")

val res = fourth.filter(_.trim().length>0).map(line=>(line.split("\t")(0).trim(),line.split("\t")(1).trim().toInt)).groupByKey().map(x => {

   var num = 0.0

   var sum = 0

   for(i <- x._2){

    sum = sum + i

    num = num +1

   }

   val avg = sum/num

   val format = f"$avg%1.2f".toDouble

   (x._1,format)

 }).collect.foreach(x => println(x._1+"\t"+x._2))

  }

}

spark-shell的Scala的一些方法详解的更多相关文章

(转)shell中test命令方法详解
test命令用法.功能:检查文件和比较值 shell中test命令方法详解原文:https://www.cnblogs.com/guanyf/p/7553940.html 1)判断表达式 if te ...
telnet 命令使用方法详解，telnet命令怎么用
telnet 命令使用方法详解,telnet命令怎么用? 文章类型:电脑教程原创:天诺时空什么是Telnet? 对于Telnet的认识,不同的人持有不同的观点,可以把Telnet当成一种通信协 ...
[转帖]Vim编辑器使用方法详解
Vim编辑器使用方法详解程序员小新人学习 2018-12-16 12:26:23 转载于https://www.cnblogs.com/libaoliang/articles/6961676.htm ...
【Python】Linux crontab定时任务配置方法(详解)
CRONTAB概念/介绍 crontab命令用于设置周期性被执行的指令.该命令从标准输入设备读取指令,并将其存放于“crontab”文件中,以供之后读取和执行. cron 系统调度进程. 可以使用它在 ...
Linux中让alias设置永久生效的方法详解
Linux中让alias设置永久生效的方法详解一.问题描述 1.有很多时候我们想要将很多操作作为一个步骤,那么在不作为系统的服务的情况下,别名是我们最好的选择,但是发现别名只能在一次会话中生效,重启 ...
Python学习之旅—生成器对象的send方法详解
前言在上一篇博客中,笔者带大家一起探讨了生成器与迭代器的本质原理和使用,本次博客将重点聚焦于生成器对象的send方法. 一.send方法详解我们知道生成器对象本质上是一个迭代器.但是它比迭代器对 ...
session的使用方法详解
session的使用方法详解 Session是什么呢?简单来说就是服务器给客户端的一个编号.当一台WWW服务器运行时,可能有若干个用户浏览正在运正在这台服务器上的网站.当每个用户首次与这台WWW服务器 ...
Kooboo CMS - Html.FrontHtml[Helper.cs] 各个方法详解
下面罗列了方法详解,每一个方法一篇文章. Kooboo CMS - @Html.FrontHtml().HtmlTitle() 详解 Kooboo CMS - Html.FrontHtml.Posit ...
HTTP请求方法详解
HTTP请求方法详解请求方法:指定了客户端想对指定的资源/服务器作何种操作下面我们介绍HTTP/1.1中可用的请求方法: [GET:获取资源] GET方法用来请求已被URI识别的资源.指定 ...

随机推荐

sql面试总结
http://blog.csdn.net/a379850992/article/details/55655495
base和this的用法
[意义] this:指当前类,this调用当前类的属性,方法,包括构造函数的方法,继承本类的构造函数 base:指当前类的父类,可调用父类的非私有属性,方法,继承父类的构造函数括号里的参数 [用处] ...
vue实现数据双向绑定的原理
一.知识准备Object.defineProperty( )方法可以直接在一个对象上定义一个新属性,或者修改一个已经存在的属性,并返回这个对象.Object.defineProperty(obj,pr ...
Codeforces.871D.Paths(莫比乌斯反演根号分治)
题目链接 $Description$ 给定$n$,表示有一张$n$个点的无向图,两个点$x,y$之间有权值为$1$的边当且仅当$\gcd(x,y)\neq1$.求\(1\sim ...
Django与Celery配合实现定时任务
一.前言 Celery是一个基于python开发的分布式任务队列,而做python WEB开发最为流行的框架莫属Django,但是Django的请求处理过程都是同步的无法实现异步任务,若要实现异步任务 ...
求n到m之间素数的个数
Description 求n到m之间素数的个数 Input 多组测试数据,每组先输入一个整数t,表示组数,然后每组输入2个正整数n和m,(1 <= n <= m <= 10000) ...
XII Open Cup named after E.V. Pankratiev. GP of Eastern Europe (AMPPZ-2012)
A. Automat $m$超过$1600$是没用的. 从后往前考虑,设$f[i][j][k]$表示考虑$[i,n]$这些物品,一共花费$j$元钱,买了$k$个物品的最大收益. 时间复杂度$O(n^5 ...
How to change Eclipse loading image
Eclipse IDE has many customize components, the splash welcome image (purple color loading image) is ...
[LeetCode] Minimum Swaps To Make Sequences Increasing 使得序列递增的最小交换
We have two integer sequences A and B of the same non-zero length. We are allowed to swap elements A ...
php 一行代码解决二维数组去重
array_unique($array, SORT_REGULAR);

spark-shell的Scala的一些方法详解

spark-shell的Scala的一些方法详解的更多相关文章

随机推荐

热门专题