[Spark Core] Spark 实现气温统计

0. 说明

　　聚合气温数据，聚合出 MAX 、 MIN 、 AVG

1. Spark Shell 实现

　　1.1 MAX

　　分步实现

# 加载文档

val rdd1 = sc.textFile("file:///home/centos/temp3.dat")

# 压扁

val rdd2 = rdd1.map(line=>{var arr = line.split(" ");(arr().toInt , arr().toInt)})

# 得到最大值

val rdd3 = rdd2.reduceByKey((a,b)=>if(a > b)a else b)

rdd3.collect

# 年份升序

val rdd4 = rdd3.sortByKey(true)

# 气温降序

val rdd4 = rdd3.sortBy(t=>t._2,false)

rdd4.collect 

# 遍历输出
rdd4.foreach(println)

　　一步完成

sc.textFile("file:///home/centos/temp3.dat").map(line=>{var arr = line.split(" ");(arr().toInt , arr().toInt)}).reduceByKey((a,b)=>if(a > b)a else b).sortByKey(true).collect.foreach(println)

　　1.2 MIN

　　分步实现

# 加载文档

val rdd1 = sc.textFile("file:///home/centos/temp3.dat")

# 压扁

val rdd2 = rdd1.map(line=>{var arr = line.split(" ");(arr().toInt , arr().toInt)})

# 得到最小值

val rdd3 = rdd2.reduceByKey((a,b)=>if(a < b)a else b)

rdd3.collect

# 年份升序

val rdd4 = rdd3.sortByKey(true)

# 气温降序

val rdd4 = rdd3.sortBy(t=>t._2,false)

rdd4.collect 

# 遍历输出

rdd4.foreach(println)

　　一步完成

sc.textFile("file:///home/centos/temp3.dat").map(line=>{var arr = line.split(" ");(arr(0).toInt , arr(1).toInt)}).reduceByKey((a,b)=>if(a < b)a else b).sortByKey(true).collect.foreach(println)

2. IDEA 实现

　　2.1 Scala 实现一

import org.apache.spark.{SparkConf, SparkContext}

/**

  * 气温数据聚合应用

  */

object TempAggDemoScala {

  def main(args: Array[String]): Unit = {

    // 创建 spark 配置对象

    val conf = new SparkConf()

    conf.setAppName("tempAgg2")

    conf.setMaster("local")

    // 创建上下文

    val sc = new SparkContext(conf)

    // 1. 加载文件

    val rdd1 = sc.textFile("file:///e:/temp3.dat")

    // 2. 切割成对(1930,54)

    val rdd2 = rdd1.map(line => {

      var arr = line.split(" ")

      (arr(0).toInt, arr(1).toInt)

    })

    // 3. 按照年度分组(1930->{23,34,67} , 1931->{...})

    val rdd3 = rdd2.groupByKey()

    // 4. 对组内元素进行统计聚合

    val rdd4 = rdd3.mapValues(it => {

      val max = it.max

      val min = it.min

      val sum = it.sum

      val size = it.size

      (max, min, sum.toFloat / size)

    })

    // 5. 按照年度排序

    val rdd5 = rdd4.sortByKey(true)

    // 6. 输出

    rdd5.collect().foreach(println)

  }

}

　　2.2 Scala 实现二

import org.apache.spark.{SparkConf, SparkContext}

/**

  * 气温数据聚合应用2

  */

object TempAggDemo2Scala {

  def main(args: Array[String]): Unit = {

    // 创建 spark 配置对象

    val conf = new SparkConf()

    conf.setAppName("tempAgg2")

    conf.setMaster("local")

    // 创建上下文

    val sc = new SparkContext(conf)

    // 1. 加载文件

    var rdd1 = sc.textFile("file:///e:/temp3.dat")

    // 2. 切割成对(1930,(54,54,54,1))

    val rdd2 = rdd1.map(line => {

      var arr = line.split(" ")

      // (max , min , sum , count)

      val year = arr(0).toInt

      val temp = arr(1).toInt

      (year, (temp, temp, temp, 1))

    })

    // 3. 聚合

    val rdd3 = rdd2.reduceByKey((a, b) => {

      import scala.math._

      (max(a._1, b._1), min(a._2, b._2), a._3 + b._3, a._4 + b._4)

    })

    // 4. 交换

    val rdd4 = rdd3.mapValues(t => {

      (t._1, t._2, t._3.toFloat / t._4)

    }).sortByKey()

    rdd4.collect().foreach(println)

  }

}

　　2.3 Java 实现二

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import scala.Tuple2;

import scala.Tuple3;

import scala.Tuple4;

import java.util.List;

/**

 * 气温数据聚合应用2

 */

public class TempAggDemoJava2 {

    public static void main(String[] args) {

        // 创建 spark 配置对象

        SparkConf conf = new SparkConf();

        conf.setAppName("tempAgg2");

        conf.setMaster("local");

        // 创建上下文

        JavaSparkContext sc = new JavaSparkContext(conf);

        // 1. 加载文件

        JavaRDD<String> rdd1 = sc.textFile("file:///e:/temp3.dat");

        // 2. 变换(1903,(32,23,23,1))

        JavaPairRDD<Integer, Tuple4<Integer, Integer, Integer, Integer>> rdd2 = rdd1.mapToPair(new PairFunction<String, Integer, Tuple4<Integer, Integer, Integer, Integer>>() {

            public Tuple2<Integer, Tuple4<Integer, Integer, Integer, Integer>> call(String s) throws Exception {

                String[] arr = s.split(" ");

                int year = Integer.parseInt(arr[0]);

                int temp = Integer.parseInt(arr[1]);

                Tuple4<Integer, Integer, Integer, Integer> v = new Tuple4<Integer, Integer, Integer, Integer>(temp, temp, temp, 1);

                return new Tuple2<Integer, Tuple4<Integer, Integer, Integer, Integer>>(year, v);

            }

        });

        // 3. 聚合

        JavaPairRDD<Integer, Tuple4<Integer, Integer, Integer, Integer>> rdd3 = rdd2.reduceByKey(

                new Function2<Tuple4<Integer, Integer, Integer, Integer>, Tuple4<Integer, Integer, Integer, Integer>, Tuple4<Integer, Integer, Integer, Integer>>() {

                    public Tuple4<Integer, Integer, Integer, Integer> call(Tuple4<Integer, Integer, Integer, Integer> v1, Tuple4<Integer, Integer, Integer, Integer> v2) throws Exception {

                        int max = Math.max(v1._1(), v2._1());

                        int min = Math.min(v1._2(), v2._2());

                        int sum = v1._3() + v2._3();

                        int count = v1._4() + v2._4();

                        return new Tuple4<Integer, Integer, Integer, Integer>(max, min, sum, count);

                    }

                });

        //4. map取出avg

        JavaPairRDD<Integer, Tuple3<Integer, Integer, Float>> rdd4 = rdd3.mapValues(new Function<Tuple4<Integer, Integer, Integer, Integer>, Tuple3<Integer, Integer, Float>>() {

            public Tuple3<Integer, Integer, Float> call(Tuple4<Integer, Integer, Integer, Integer> v1) throws Exception {

                return new Tuple3<Integer, Integer, Float>(v1._1(), v1._2(), (float) v1._3() / v1._4());

            }

        });

        // 5. 排序

        JavaPairRDD<Integer, Tuple3<Integer, Integer, Float>> rdd5 = rdd4.sortByKey();

        // 6. 列表

        List<Tuple2<Integer, Tuple3<Integer, Integer, Float>>> list = rdd5.collect();

        for (Tuple2<Integer, Tuple3<Integer, Integer, Float>> t : list) {

            System.out.println(t);

        }

    }

}

[Spark Core] Spark 实现气温统计的更多相关文章

大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...
[Spark Core] Spark Client Job 提交三级调度框架
0. 说明官方文档 Job Scheduling Spark 调度核心组件: DagScheduler TaskScheduler BackendScheduler 1. DagSchedule ...
[Spark Core] Spark 核心组件
0. 说明 [Spark 核心组件示意图] 1. RDD resilient distributed dataset , 弹性数据集轻量级的数据集合,逻辑上的集合.等价于 list 没有携带数据. ...
[Spark Core] Spark 使用第三方 Jar 包的方式
0. 说明 Spark 下运行job,使用第三方 Jar 包的 3 种方式. 1. 方式一将第三方 Jar 包分发到所有的 spark/jars 目录下 2. 方式二将第三方 Jar 打散,和我们 ...
【待补充】[Spark Core] Spark 实现标签生成
0. 说明在 IDEA 中编写 Spark 代码实现将 JSON 数据转换成标签,分别用 Scala & Java 两种代码实现. 1. 准备 1.1 pom.xml <depend ...
[Spark Core] Spark 在 IDEA 下编程
0. 说明 Spark 在 IDEA 下使用 Scala & Spark 在 IDEA 下使用 Java 编写 WordCount 程序 1. 准备在项目中新建模块,为模块添加 Maven ...
[Spark Core] Spark Shell 实现 Word Count
0. 说明在 Spark Shell 实现 Word Count RDD (Resilient Distributed dataset), 弹性分布式数据集. 示意图 1. 实现 1.1 分步实现 ...
Spark 3.x Spark Core详解 & 性能优化
Spark Core 1. 概述 Spark 是一种基于内存的快速.通用.可扩展的大数据分析计算引擎 1.1 Hadoop vs Spark 上面流程对应Hadoop的处理流程,下面对应着Spark的 ...
spark core （二）
一.Spark-Shell交互式工具 1.Spark-Shell交互式工具 Spark-Shell提供了一种学习API的简单方式, 以及一个能够交互式分析数据的强大工具. 在Scala语言环境下或Py ...

随机推荐

让IIS Express 也支持外部链接
Oracle Comment 获取并修改表或字段注释
select * from dba_tables where owner = 'DINGYINGSI'; select * from user_col_comments where table_nam ...
git第六节---git 远程仓库
远程分支类似于本地分支,是指向远程仓库中的文件的指针. 1.远程分支抓取 @git fetch origin dev :拉取远程dev内容 fetch不会对本地仓库内容进行更新,只更新远端commit ...
解决webstorm本地IP访问页面出错的问题
想在手机端访问webstorm做出的页面,遇到了根据IP地址访问页面错误的问题,试了网上的方法:“设置webstorm可以被外部连接访问”,依旧不能解决解决方法: 在webstorm下:ctrl+a ...
[Luogu 2656] 采蘑菇
Description 小胖和ZYR要去ESQMS森林采蘑菇. ESQMS森林间有N个小树丛,M条小径,每条小径都是单向的,连接两个小树丛,上面都有一定数量的蘑菇.小胖和ZYR经过某条小径一次,可以采 ...
Android获取SD卡总容量，可用大小，机身内存总容量及可用大小
public long getSDTotalSize() { /*获取存储卡路径*/ File sdcardDir= Environment.getExternalStorageDirectory() ...
PHP错误集锦
错误原因:分页数据不够,使用了缓存,但是model类中又没有添加缓存.解决办法:在model类中添加缓存,内容结束时清空缓存.
javaBean分析
package com.ldf.domain; /** * 实体bean */ import java.io.Serializable; import java.util.Date; public c ...
Android-消息处理学习总结（Handler,Looper）
参考资料: http://www.cnblogs.com/qlky/p/5657924.html http://blog.csdn.net/guolin_blog/article/details/99 ...
无法外网访问VM中的hadoop yarn的8088端口
1.检查是否正确的启动了resourcemanager服务若是没有启动,请检查yarn-site-xml配置 2.若是启动了 1.检查客户机和虚拟机之间是否能够相互ping通 2.检查虚拟机防火墙是 ...

[Spark Core] Spark 实现气温统计

0. 说明

1. Spark Shell 实现

2. IDEA 实现

[Spark Core] Spark 实现气温统计的更多相关文章

随机推荐

热门专题