大数据入门到精通5--spark 的 RDD 的 reduce方法使用

培训系列5--spark 的 RDD 的 reduce方法使用

1.spark-shell环境下准备数据

val collegesRdd= sc.textFile("/user/hdfs/CollegeNavigator.csv")
val header= collegesRdd.first

val headerlessRdd= collegesRdd.filter( line=>{ line!= header } )

2.准备学生数的map

val countStuMap= headerlessRdd.map(line=>{
val strCount=line.split("\",\"")(7)
if (strCount.length()>0) strCount.toInt
else 0
})

countStuMap.take(10).foreach(println)

在map函数里面增加if else语句主要是数据中“”的空字符串，如果直接转换int会报错

3.写r求学生总数的reduce rdd

val totalcount=countStuMap.reduce((stuCount1,stuCount2)=>stuCount1+stuCount2)

得到所有学校的学生综述

3.写求学校类型的总数

scala> header
res12: String = "Name","Address","Website","Type","Awards offered","Campus setting","Campus housing","Student population","Undergraduate students","Graduation Rate","Transfer-Out Rate","Cohort Year *","Net Price **","Largest Program","IPEDS ID","OPE ID"

scala> val typeMap= headerlessRdd.map(line=>{
| val strtype=line.split("\",\"")(3)
| strtype
| })
typeMap: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[13] at map at <console>:30

scala> typeMap.count
res13: Long = 503

scala> typeMap.distinct.count
res14: Long = 5

一个rdd中如果有重复的值，可以直接通过distinct来去重。

4.求平均学校学生人数

求学校总数，可以通过headerlessRdd.count来获得，也可以用map reduce来做，map和reduce可以连写，

val collegeCount=headerlessRdd.map(line=>1).reduce((line1,line2)=>line1+line2)

totalcount/collegeCount

这里的数据量比表少，如果数据量比较多，会发发现平均值不对。

主要是由于计算totalcount的时候使用了int类型，int类型的最大值是有限的，实际计算中要把toInt 最好换成 toLong

if (strCount.length()>0) strCount.toLong
else 0

大数据入门到精通5--spark 的 RDD 的 reduce方法使用的更多相关文章

大数据学习（26）—— Spark之RDD
做大数据一定要有一个概念,需要处理的数据量非常大,少则几十T,多则上百P,全部放内存是不可能的,会OOM,必须要用迭代器一条一条处理. RDD叫做弹性分布式数据集,是早期Spark最核心的概念,是一种 ...
大数据入门到精通2--spark rdd 获得数据的三种方法
通过hdfs或者spark用户登录操作系统,执行spark-shell spark-shell 也可以带参数,这样就覆盖了默认得参数 spark-shell --master yarn --num-e ...
大数据入门到精通18--sqoop 导入关系库到hdfs中和hive表中
一,选择数据库,这里使用标准mysql sakila数据库 mysql -u root -D sakila -p 二.首先尝试把表中的数据导入到hdfs文件中,这样后续就可以使用spark来dataf ...
大数据入门到精通13--为后续和MySQL数据库准备
We will be using the sakila database extensively inside the rest of the course and it would be great ...
大数据入门到精通12--spark dataframe 注册成hive 的临时表
一.获得最初的数据并形成dataframe val ny= sc.textFile("data/new_york/")val header=ny.firstval filterNY ...
大数据入门到精通11-spark dataframe 基础操作
// dataframe is the topic 一.获得基础数据.先通过rdd的方式获得数据 val ny= sc.textFile("data/new_york/")val ...
大数据入门到精通8-spark RDD 复合key 和复合value 的map reduce操作
一.做基础数据准备这次使用fights得数据. scala> val flights= sc.textFile("/user/hdfs/data/Flights/flights.cs ...
大数据入门到精通4--spark的rdd的map使用方式
学习了之前的rdd的filter以后,这次来讲spark的map方式 1.获得文件 val collegesRdd= sc.textFile("/user/hdfs/CollegeNavig ...
大数据入门到精通1--大数据环境下的基础文件HDFS 操作
1.使用hdfs用户或者hadoop用户登录 2.在linux shell下执行命令 hadoop fs -put '本地文件名' hadoop fs - put '/home/hdfs/sample ...

随机推荐

57.纯 CSS 创作一双黑暗中的眼睛
原文地址:https://segmentfault.com/a/1190000015327725 感想:原来边框还能这样玩-->做会眨眼的眼睛 HTML code: <div class= ...
EditText被键盘遮得住
如果在Activity中的布局的下方有EditText,获取焦点弹出软键盘的时候,如果不做处理,软键盘可能会遮挡输入框,用户提现不好,网上也有很多人提出结局方案,这里就分析一下解决的效果. 需要用到E ...
Jenkins 简单配置
安装就不说了, 因为安装实在是很简单的. Jenkins基础配置配置jdk 和maven 进入Global Tool Configuration, 配置JDK: 一般不要选择自动安装, 否则下载 ...
python3自动生成并运行bat批处理，并重定向输入消除黑窗口
#coding:utf-8import os #bat文件的内容(temp.bat)bat_name='temp.bat's1='''echo offipconfigecho Hello world! ...
Android 异步消息处理机制让你深入理解 Looper、Handler、Message三者关系
转自:http://blog.csdn.net/lmj623565791/article/details/38377229 ,本文出自[张鸿洋的博客] 很多人面试肯定都被问到过,请问Android中的 ...
nginx 服务器在 centos7 系统下的两种方式
选用系统 Centos7 < 一 > 使用 yum 安装,该方法比较方便,如果不追求版本推荐使用 01, 添加 nginx 储存库 yum -y install epel-releas ...
NRF51822之RNG
在裸机下官方已经提供另一个RNG的例子(RF51_SDK_10.0.0_dc26b5e\examples\peripheral\rng) 好了现在我将给出在蓝牙模式下如何使用例子 #include & ...
解决Java Web项目中Word、Excel等二进制文件编译后无法打开的问题
今天写新项目的时候遇到一个问题,在resources目录下存储的.xlsx文件,编译过后会增大几kb,无法打开. Google了一番之后,发现问题源自于maven-resources-plugin这个 ...
【JEECG技术文档】JEECG平台对外接口JWT应用文档V3.7.2
一. 接口方式接口调用采用http协议,rest请求方式: 二. 接口安全接口安全采用Json web token (JWT)机制,基于token的鉴权机制. 1. 机制说明基于token的鉴权 ...
APP-11-视觉技术-通用文字识别
1.Postman测试 2.参数 https://cloud.baidu.com/doc/OCR/OCR-API.html#.EC.DF.48.27.9B.69.A4.2C.54.1B.DC.95.6 ...

大数据入门到精通5--spark 的 RDD 的 reduce方法使用

大数据入门到精通5--spark 的 RDD 的 reduce方法使用的更多相关文章

随机推荐

热门专题