【spark 算子案例】

 package spark_example01;

 import java.io.File;

 import java.io.FileWriter;

 import java.io.IOException;

 import java.util.Random;

 /**

  */

 public class PeopleInfoFileGenerator {

     public static void main(String[] args){

         File file = new File("/Users/xls/Desktop/code/bigdata/data/PeopleInfo.txt");

         try {

             Random random = new Random();//生成随机数

             FileWriter fileWriter = new FileWriter(file);//新建一个文件

             for (long i=1;i<=100000000;i++){   //生成1000万个数字

                 int height = random.nextInt(220);

                 if (height < 50) {

                     height = height + 50;

                 }

                 String  gender = getRandomGender(); //性别方法

                 if (height < 100 && gender == "M") {

                     height = height + 100;

                 }

                 if (height < 100 && gender == "F") {

                     height = height + 40;

                 }

                 fileWriter.write( i + " " + getRandomGender() + " " + height); //文件格式：ID 性别 身高

                 fileWriter.write(System.getProperty("line.separator"));

             }

             fileWriter.flush();

             fileWriter.close();

             System.out.println("People Information File generated successfully.");

         }catch (IOException e){

             e.printStackTrace();

         }

     }

     public static String getRandomGender(){ //构建一个随机生成性别方法

         Random random = new Random();

         int randomNum = random.nextInt(2) + 1;

         if( randomNum % 2 == 0){

             return "M";

         }else{

             return "F";

         }

     }

 }

 package spark_example01;

 import org.apache.spark.SparkConf;

 import org.apache.spark.api.java.JavaRDD;

 import org.apache.spark.api.java.JavaSparkContext;

 import org.apache.spark.api.java.function.FlatMapFunction;

 import org.apache.spark.api.java.function.Function;

 import java.util.Arrays;

 /**

  * Created by Administrator on 2017/11/17.

  */

 public class PeopleInfoCalculator {

     public static void main(String[] args){

         SparkConf sparkConf = new SparkConf().setAppName("PeopleInfoCalculator").setMaster("local[3]");

         JavaSparkContext sc = new JavaSparkContext(sparkConf);

         JavaRDD<String> dataFile = sc.textFile("/Users/xls/Desktop/code/bigdata/data/PeopleInfo.txt");

         // step1:过滤出性别为M的数据

         JavaRDD<String> maleFilterData = dataFile.filter(new Function<String, Boolean>() {

             public Boolean call(String s) throws Exception {

                 return s.contains("M");

             }

         });

         //step2:过滤出性别为F的数据

         JavaRDD<String> femaleFilterData = dataFile.filter(new Function<String, Boolean>() {

             public Boolean call(String s) throws Exception {

                 return s.contains("F");

             }

         });

         //setp3:得到性别为M的身高数据---对每一行的字符串进行切分，最后取[2]这个字符串---flatMap常用于字符串切分

         JavaRDD<String> maleHeightData = maleFilterData.flatMap(new FlatMapFunction<String, String>() {

             @Override

             public java.util.Iterator<String> call(String s) throws Exception {

                 return Arrays.asList(s.split(" ")[2]).iterator();

             }

         });

         // step4:得到性别为F的身高数据---对每一行的字符串进行切分，最后取[2]这个字符串---flatMap常用于字符串切分

         JavaRDD<String> femaleHeightData = femaleFilterData.flatMap(new FlatMapFunction<String, String>() {

             @Override

             public java.util.Iterator<String> call(String s) throws Exception {

                 return Arrays.asList(s.split(" ")[2]).iterator();

             }

         });

         // step5:将男性身高的字符串格式转化为整型格式

         JavaRDD<Integer> maleHeightDataInt = maleHeightData.map(new Function<String, Integer>() {//

             @Override

             public Integer call(String s) throws Exception {

                 return Integer.parseInt(String.valueOf(s));

             }

         });

         //step6:将女性身高的字符串格式转化为整型格式

         JavaRDD<Integer> femaleHeightDataInt = femaleHeightData.map(new Function<String, Integer>() {//将字符串格式转化为整型格式

             @Override

             public Integer call(String s) throws Exception {

                 return Integer.parseInt(String.valueOf(s));

             }

         });

         //sortBy(<T>,ascending,numPartitions) 解释:

         //第一个参数是一个函数，该函数的也有一个带T泛型的参数，返回类型和RDD中元素的类型是一致的；

         //第二个参数是ascending，这参数决定排序后RDD中的元素是升序还是降序，默认是true，也就是升序；

         //第三个参数是numPartitions，该参数决定排序后的RDD的分区个数，默认排序后的分区个数和排序之前的个数相等，即为this.partitions.size。

         //step7:对男性身高按着从低到高进行排序---参数true表示默认排序，为升序排序，从低到高排

         JavaRDD<Integer> maleHeightLowSort = maleHeightDataInt.sortBy(new Function<Integer,Integer>(){

             public Integer call(Integer s) throws Exception {

                 return s;

             }

         },true,3);

         //step8:对女性身高按着从低到高进行排序---参数true表示默认排序，为升序排序，从低到高排

         JavaRDD<Integer> femaleHeightLowSort = femaleHeightDataInt.sortBy(new Function<Integer,Integer>(){

             public Integer call(Integer s) throws Exception {

                 return s;

             }

         },true,3);

         //step9:对男性身高按着从高到低进行排序---false表示为降序排序，从高到低

         JavaRDD<Integer> maleHeightHightSort = maleHeightDataInt.sortBy(new Function<Integer,Integer>(){

             public Integer call(Integer s) throws Exception {

                 return s;

             }

         },false,3);

         //step10:对女性身高按着从高到低进行排序---false表示为降序排序，从高到低

         JavaRDD<Integer> femaleHeightHightSort = femaleHeightDataInt.sortBy(new Function<Integer,Integer>(){

             public Integer call(Integer s) throws Exception {

                 return s;

             }

         },false,3);

         Integer lowestMale = maleHeightLowSort.first(); //求出升序的第一个数，即最小值

         Integer lowestFemale = femaleHeightLowSort.first();//求出升序的第一个数，即最小值

         Integer highestMale = maleHeightHightSort.first();//求出降序的第一个数，即最大值

         Integer highestFemale = femaleHeightHightSort.first();//求出降序的第一个数，即最大值

         System.out.println("Number of Female Peole:" + femaleHeightData.count());//求出女性的总个数

         System.out.println("Number of Male Peole:" + maleHeightData.count());//求出男性的总个数

         System.out.println("Lowest Male:" + lowestMale);//求出男性最矮身高

         System.out.println("Lowest Female:" + lowestFemale);//求出女性最矮身高

         System.out.println("Highest Male:" + highestMale);//求出男性最高身高

         System.out.println("Highest Female:" + highestFemale);//求出女性最高身高

     }

 }

 /*

 * a. 案例描述

 本案例假设我们需要对某个省的人口 (10万) 性别还有身高进行统计，需要计算出男女人数，男性中的最高和最低身高，以及女性中的最高和最低身高。

 本案例中用到的源文件有以下格式, 三列分别是 ID，性别，身高 (cm)，格式如下：

 b.人口数据的生成

 利用Java语言随机生成一组人口数据，包括序列ID，性别M/F，身高cm，代码如下：

 c. 实例过程分析

 对于这个案例，我们要分别统计男女的信息，那么很自然的想到首先需要对于男女信息从源文件的对应的 RDD 中进行分离，这样会产生两个新的 RDD，分别包含男女信息；

 其次是分别对男女信息对应的 RDD 的数据进行进一步映射，使其只包含身高数据，这样我们又得到两个 RDD，分别对应男性身高和女性身高；

 最后需要对这两个 RDD 进行排序，进而得到最高和最低的男性或女性身高。

 第一步，先分离男女信息，使用 filter 算子过滤条件包含”M” 的行是男性，包含”F”的行是女性；

 第二步我们需要使用 map 算子把男女各自的身高数据从 RDD 中分离出来；

 第三步我们需要使用 sortBy 算子对男女身高数据进行排序。

 特别注意：RDD 转化的过程中需要把身高数据转换成整数，否则 sortBy 算子会把它视为字符串，那么排序结果就会受到影响，

 例如 身高数据如果是：123,110,84,72,100，那么升序排序结果将会是 100,110,123,72,84，显然这是不对的。

 d.求出身高统计代码实现:

 * */

【spark 算子案例】的更多相关文章

Spark算子总结（带案例）
Spark算子总结(带案例) spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key ...
Spark算子总结及案例
spark算子大致上可分三大类算子: 1.Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据. 2.Key-Value数据类型的Tran ...
(转)Spark 算子系列文章
http://lxw1234.com/archives/2015/07/363.htm Spark算子:RDD基本转换操作(1)–map.flagMap.distinct Spark算子:RDD创建操 ...
[Spark内核] 第36课：TaskScheduler内幕天机解密：Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等
本課主題通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...
UserView--第二种方式（避免第一种方式Set饱和），基于Spark算子的java代码实现
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import ...
UserView--第一种方式set去重，基于Spark算子的java代码实现
UserView--第一种方式set去重,基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import java.util.Ha ...
【原创 Hadoop&Spark 动手实践 13】Spark综合案例：简易电影推荐系统
[原创 Hadoop&Spark 动手实践 13]Spark综合案例:简易电影推荐系统
spark算子之DataFrame和DataSet
前言传统的RDD相对于mapreduce和storm提供了丰富强大的算子.在spark慢慢步入DataFrame到DataSet的今天,在算子的类型基本不变的情况下,这两个数据集提供了更为强大的的功 ...
Spark算子---实战应用
Spark算子实战应用数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase 相关数据文件 : users.dat --- ...

随机推荐

PC启动过程详解
系统启动过程 1. 预引导(Pre-Boot)阶段 2. 引导阶段 3. 加载内核阶段 4. 初始化内核阶段 5. 用户登录阶段基本概念: BIOS:即“Basic Input/Output Sys ...
js入门之DOM动态创建数据
一. 知识点回顾 1. DOM结构 nodeName: '' 标签名 nodeType: '' 类型 1元素节点 2属性节点 3文本节点 nodeValue: '' 如果是元素节点 nodeValue ...
EntityFramework进阶（二）- DbContext预热
本系列原创博客代码已在EntityFramework6.0.0测试通过,转载请标明出处在DbContext首次调用的时候,会很慢,甚至会有5,6秒的等待,通常称为冷查询.再次调用的时候,几毫秒就能请 ...
Apache老版本下载地址
有时候我们想做测试或者使用旧版本软件时,往往发现官方网站已经下架,以Apache为例: Apache旧版本下载地址:http://archive.apache.org/dist/httpd/ .... ...
【年度盘点】10个热门Python练习项目
这10个项目,约有270000人学习过. 今天给大家盘点一下实验楼最热门的10个Python练习项目.第二名是<200 行 Python 代码实现 2048>,第三名是<Python ...
STM32定时器配置（TIM1、TIM2、TIM3、TIM4、TIM5、TIM8）高级定时器+普通定时器，定时计数模式下总结
文章结构: ——> 一.定时器基本介绍 ——> 二.普通定时器详细介绍TIM2-TIM5 ——> 三.定时器代码实例一.定时器基本介绍之前有用过野火的学习板上面讲解很详细,所以 ...
Django drf：手撸自定义跨域
项目需求: 1.用域名8000向8001发送请求,用django框架解决跨域问题 2.用上自定义中间件配置,支持get.post.put.detele和非简单请求 3.支持版本控制 4.在settin ...
2019-ACM-ICPC-徐州站网络赛-M.Longest subsequence-从字符串s中找到一个最长子序列，使得其字典序严格大于t
2019-ACM-ICPC-徐州站网络赛-M.Longest subsequence-从字符串s中找到一个最长子序列,使得其字典序严格大于t [Problem Description] 从字符串\ ...
python高级特性-sorted()
1.数字排序 >>> sorted([1,-12,13,-4],key=abs) [1, -4, -12, 13] 2.字符串排序按ASCII排序默认情况下,对字符串排序,是按照 ...
集合(python)
# -*- coding: utf-8 -*- class Array(object): def __init__(self, size=32, init=None): self._size = si ...

【spark 算子案例】

【spark 算子案例】的更多相关文章

随机推荐

热门专题