package spark_example01;

 import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.util.Random; /**
*/
public class PeopleInfoFileGenerator {
public static void main(String[] args){
File file = new File("/Users/xls/Desktop/code/bigdata/data/PeopleInfo.txt"); try {
Random random = new Random();//生成随机数
FileWriter fileWriter = new FileWriter(file);//新建一个文件
for (long i=1;i<=100000000;i++){ //生成1000万个数字
int height = random.nextInt(220);
if (height < 50) {
height = height + 50;
}
String gender = getRandomGender(); //性别方法
if (height < 100 && gender == "M") {
height = height + 100;
}
if (height < 100 && gender == "F") {
height = height + 40;
}
fileWriter.write( i + " " + getRandomGender() + " " + height); //文件格式:ID 性别 身高
fileWriter.write(System.getProperty("line.separator"));
}
fileWriter.flush();
fileWriter.close();
System.out.println("People Information File generated successfully.");
}catch (IOException e){
e.printStackTrace();
}
} public static String getRandomGender(){ //构建一个随机生成性别方法
Random random = new Random();
int randomNum = random.nextInt(2) + 1;
if( randomNum % 2 == 0){
return "M";
}else{
return "F";
}
}
}
 package spark_example01;

 import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function;
import java.util.Arrays;
/**
* Created by Administrator on 2017/11/17.
*/
public class PeopleInfoCalculator {
public static void main(String[] args){ SparkConf sparkConf = new SparkConf().setAppName("PeopleInfoCalculator").setMaster("local[3]"); JavaSparkContext sc = new JavaSparkContext(sparkConf); JavaRDD<String> dataFile = sc.textFile("/Users/xls/Desktop/code/bigdata/data/PeopleInfo.txt"); // step1:过滤出性别为M的数据
JavaRDD<String> maleFilterData = dataFile.filter(new Function<String, Boolean>() { public Boolean call(String s) throws Exception {
return s.contains("M");
}
}); //step2:过滤出性别为F的数据
JavaRDD<String> femaleFilterData = dataFile.filter(new Function<String, Boolean>() { public Boolean call(String s) throws Exception {
return s.contains("F");
}
}); //setp3:得到性别为M的身高数据---对每一行的字符串进行切分,最后取[2]这个字符串---flatMap常用于字符串切分
JavaRDD<String> maleHeightData = maleFilterData.flatMap(new FlatMapFunction<String, String>() {
@Override
public java.util.Iterator<String> call(String s) throws Exception {
return Arrays.asList(s.split(" ")[2]).iterator();
}
}); // step4:得到性别为F的身高数据---对每一行的字符串进行切分,最后取[2]这个字符串---flatMap常用于字符串切分
JavaRDD<String> femaleHeightData = femaleFilterData.flatMap(new FlatMapFunction<String, String>() {
@Override
public java.util.Iterator<String> call(String s) throws Exception {
return Arrays.asList(s.split(" ")[2]).iterator();
}
}); // step5:将男性身高的字符串格式转化为整型格式
JavaRDD<Integer> maleHeightDataInt = maleHeightData.map(new Function<String, Integer>() {//
@Override
public Integer call(String s) throws Exception {
return Integer.parseInt(String.valueOf(s));
}
}); //step6:将女性身高的字符串格式转化为整型格式
JavaRDD<Integer> femaleHeightDataInt = femaleHeightData.map(new Function<String, Integer>() {//将字符串格式转化为整型格式
@Override
public Integer call(String s) throws Exception {
return Integer.parseInt(String.valueOf(s));
}
}); //sortBy(<T>,ascending,numPartitions) 解释:
//第一个参数是一个函数,该函数的也有一个带T泛型的参数,返回类型和RDD中元素的类型是一致的;
//第二个参数是ascending,这参数决定排序后RDD中的元素是升序还是降序,默认是true,也就是升序;
//第三个参数是numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size。 //step7:对男性身高按着从低到高进行排序---参数true表示默认排序,为升序排序,从低到高排
JavaRDD<Integer> maleHeightLowSort = maleHeightDataInt.sortBy(new Function<Integer,Integer>(){
public Integer call(Integer s) throws Exception {
return s;
}
},true,3); //step8:对女性身高按着从低到高进行排序---参数true表示默认排序,为升序排序,从低到高排
JavaRDD<Integer> femaleHeightLowSort = femaleHeightDataInt.sortBy(new Function<Integer,Integer>(){
public Integer call(Integer s) throws Exception {
return s;
}
},true,3); //step9:对男性身高按着从高到低进行排序---false表示为降序排序,从高到低
JavaRDD<Integer> maleHeightHightSort = maleHeightDataInt.sortBy(new Function<Integer,Integer>(){
public Integer call(Integer s) throws Exception {
return s;
}
},false,3); //step10:对女性身高按着从高到低进行排序---false表示为降序排序,从高到低
JavaRDD<Integer> femaleHeightHightSort = femaleHeightDataInt.sortBy(new Function<Integer,Integer>(){
public Integer call(Integer s) throws Exception {
return s;
}
},false,3); Integer lowestMale = maleHeightLowSort.first(); //求出升序的第一个数,即最小值
Integer lowestFemale = femaleHeightLowSort.first();//求出升序的第一个数,即最小值
Integer highestMale = maleHeightHightSort.first();//求出降序的第一个数,即最大值
Integer highestFemale = femaleHeightHightSort.first();//求出降序的第一个数,即最大值 System.out.println("Number of Female Peole:" + femaleHeightData.count());//求出女性的总个数
System.out.println("Number of Male Peole:" + maleHeightData.count());//求出男性的总个数
System.out.println("Lowest Male:" + lowestMale);//求出男性最矮身高
System.out.println("Lowest Female:" + lowestFemale);//求出女性最矮身高
System.out.println("Highest Male:" + highestMale);//求出男性最高身高
System.out.println("Highest Female:" + highestFemale);//求出女性最高身高 }
} /*
* a. 案例描述
本案例假设我们需要对某个省的人口 (10万) 性别还有身高进行统计,需要计算出男女人数,男性中的最高和最低身高,以及女性中的最高和最低身高。
本案例中用到的源文件有以下格式, 三列分别是 ID,性别,身高 (cm),格式如下:
b.人口数据的生成
利用Java语言随机生成一组人口数据,包括序列ID,性别M/F,身高cm,代码如下:
c. 实例过程分析
对于这个案例,我们要分别统计男女的信息,那么很自然的想到首先需要对于男女信息从源文件的对应的 RDD 中进行分离,这样会产生两个新的 RDD,分别包含男女信息;
其次是分别对男女信息对应的 RDD 的数据进行进一步映射,使其只包含身高数据,这样我们又得到两个 RDD,分别对应男性身高和女性身高;
最后需要对这两个 RDD 进行排序,进而得到最高和最低的男性或女性身高。
第一步,先分离男女信息,使用 filter 算子过滤条件包含”M” 的行是男性,包含”F”的行是女性;
第二步我们需要使用 map 算子把男女各自的身高数据从 RDD 中分离出来;
第三步我们需要使用 sortBy 算子对男女身高数据进行排序。
特别注意:RDD 转化的过程中需要把身高数据转换成整数,否则 sortBy 算子会把它视为字符串,那么排序结果就会受到影响,
例如 身高数据如果是:123,110,84,72,100,那么升序排序结果将会是 100,110,123,72,84,显然这是不对的。
d.求出身高统计代码实现:
* */

【spark 算子案例】的更多相关文章

  1. Spark算子总结(带案例)

    Spark算子总结(带案例) spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key ...

  2. Spark算子总结及案例

    spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key-Value数据类型的Tran ...

  3. (转)Spark 算子系列文章

    http://lxw1234.com/archives/2015/07/363.htm Spark算子:RDD基本转换操作(1)–map.flagMap.distinct Spark算子:RDD创建操 ...

  4. [Spark内核] 第36课:TaskScheduler内幕天机解密:Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等

    本課主題 通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...

  5. UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现

      UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现   测试数据 java代码 package com.hzf.spark.study; import ...

  6. UserView--第一种方式set去重,基于Spark算子的java代码实现

    UserView--第一种方式set去重,基于Spark算子的java代码实现 测试数据 java代码 package com.hzf.spark.study; import java.util.Ha ...

  7. 【原创 Hadoop&Spark 动手实践 13】Spark综合案例:简易电影推荐系统

    [原创 Hadoop&Spark 动手实践 13]Spark综合案例:简易电影推荐系统

  8. spark算子之DataFrame和DataSet

    前言 传统的RDD相对于mapreduce和storm提供了丰富强大的算子.在spark慢慢步入DataFrame到DataSet的今天,在算子的类型基本不变的情况下,这两个数据集提供了更为强大的的功 ...

  9. Spark算子---实战应用

    Spark算子实战应用 数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase 相关数据文件 : users.dat --- ...

随机推荐

  1. PC启动过程详解

    系统启动过程 1. 预引导(Pre-Boot)阶段 2. 引导阶段 3. 加载内核阶段 4. 初始化内核阶段 5. 用户登录阶段 基本概念: BIOS:即“Basic Input/Output Sys ...

  2. js入门之DOM动态创建数据

    一. 知识点回顾 1. DOM结构 nodeName: '' 标签名 nodeType: '' 类型 1元素节点 2属性节点 3文本节点 nodeValue: '' 如果是元素节点 nodeValue ...

  3. EntityFramework进阶(二)- DbContext预热

    本系列原创博客代码已在EntityFramework6.0.0测试通过,转载请标明出处 在DbContext首次调用的时候,会很慢,甚至会有5,6秒的等待,通常称为冷查询.再次调用的时候,几毫秒就能请 ...

  4. Apache老版本下载地址

    有时候我们想做测试或者使用旧版本软件时,往往发现官方网站已经下架,以Apache为例: Apache旧版本下载地址:http://archive.apache.org/dist/httpd/ .... ...

  5. 【年度盘点】10个热门Python练习项目

    这10个项目,约有270000人学习过. 今天给大家盘点一下实验楼最热门的10个Python练习项目.第二名是<200 行 Python 代码实现 2048>,第三名是<Python ...

  6. STM32定时器配置(TIM1、TIM2、TIM3、TIM4、TIM5、TIM8)高级定时器+普通定时器,定时计数模式下总结

    文章结构: ——> 一.定时器基本介绍 ——> 二.普通定时器详细介绍TIM2-TIM5 ——> 三.定时器代码实例 一.定时器基本介绍  之前有用过野火的学习板上面讲解很详细,所以 ...

  7. Django drf:手撸自定义跨域

    项目需求: 1.用域名8000向8001发送请求,用django框架解决跨域问题 2.用上自定义中间件配置,支持get.post.put.detele和非简单请求 3.支持版本控制 4.在settin ...

  8. 2019-ACM-ICPC-徐州站网络赛-M.Longest subsequence-从字符串s中找到一个最长子序列,使得其字典序严格大于t

    2019-ACM-ICPC-徐州站网络赛-M.Longest subsequence-从字符串s中找到一个最长子序列,使得其字典序严格大于t [Problem Description] ​ 从字符串\ ...

  9. python高级特性-sorted()

    1.数字排序 >>> sorted([1,-12,13,-4],key=abs) [1, -4, -12, 13] 2.字符串排序 按ASCII排序 默认情况下,对字符串排序,是按照 ...

  10. 集合(python)

    # -*- coding: utf-8 -*- class Array(object): def __init__(self, size=32, init=None): self._size = si ...