spark 例子groupByKey分组计算

例子描述：

【分组、计算】

主要为两部分，将同类的数据分组归纳到一起，并将分组后的数据进行简单数学计算。

难点在于怎么去理解groupBy和groupByKey

原始数据

2010-05-04 12:50,10,10,10

2010-05-05 13:50,20,20,20

2010-05-06 14:50,30,30,30

2010-05-05 13:50,20,20,20

2010-05-06 14:50,30,30,30

2010-05-04 12:50,10,10,10

2010-05-04 11:50,10,10,10

结果数据

2010-05-05 13:50,40,40,40

2010-05-04 12:50,20,20,20

2010-05-06 14:50,60,60,60

2010-05-04 11:50,10,10,10

代码片段：

/* 同类合并、计算 */

val source = Source.fromFile("E:test.txt").getLines.toArray

val sourceRDD = sc.parallelize(source)                                  /* spark单机读取数据 */

sourceRDD

  .map {

    line =>

      val lines = line.split(",")                                         /* 拆分数据 */

      (s"${lines(0)}", s"${lines(1)},${lines(2)},${lines(3)}")            /* 找出同样的数据为K，需要进行计算的为V，拼成map */

  }

  .groupByKey

  .map {                                                      /* 分组，最重要的就是这，同类的数据分组到一起，后面只需要计算V了 */

    case (k, v) =>

      var a, b, c = 0                                                     /* 定义几个存数据的变量，恩，这很java，一般scala中很少见到var */

      v.foreach {                                                         /* 遍历需要计算的V  */

        x =>

          val r = x.split(",")                                            /* 将V拆分 */

          a += r(0).toInt                                                 /* 计算 */

          b += r(1).toInt

          c += r(2).toInt

      }

    s"$k,$a,$b,$c"                                                      /* 拼字符串，返回数据 */

  }

  .foreach(println)

spark 例子groupByKey分组计算的更多相关文章

spark 例子groupByKey分组计算2
spark 例子groupByKey分组计算2 例子描述: 大概意思为,统计用户使用app的次数排名原始数据: 000041b232,张三,FC:1A:11:5C:58:34,F8:E7:1E:1E ...
[Spark][Python]groupByKey例子
Spark Python 索引页 [Spark][Python]sortByKey 例子的继续: [Spark][Python]groupByKey例子 In [29]: mydata003.col ...
Spark 两种方法计算分组取Top N
Spark 分组取Top N运算大数据处理中,对数据分组后,取TopN是非常常见的运算. 下面我们以一个例子来展示spark如何进行分组取Top的运算. 1.RDD方法分组取TopN from py ...
spark 例子wordcount topk
spark 例子wordcount topk 例子描述: [单词计算wordcount ] [词频排序topk] 单词计算在代码方便很简单,基本大体就三个步骤拆分字符串以需要进行记数的单位为K,自 ...
Spark源码剖析 - 计算引擎
本章导读 RDD作为Spark对各种数据计算模型的统一抽象,被用于迭代计算过程以及任务输出结果的缓存读写.在所有MapReduce框架中,shuffle是连接map任务和reduce任务的桥梁.map ...
spark 例子倒排索引
spark 例子倒排索引例子描述: [倒排索引(InvertedIndex)] 这个例子是在一本讲spark书中看到的,但是样例代码写的太java化,没有函数式编程风格,于是问了些高手,教我写了份函 ...
spark 例子count(distinct 字段)
spark 例子count(distinct 字段) 例子描述: 有个网站访问日志,有4个字段:(用户id,用户名,访问次数,访问网站) 需要统计: 1.用户的访问总次数去重 2.用户一共访问了多少种 ...
demo2 Kafka+Spark Streaming+Redis实时计算整合实践 foreachRDD输出到redis
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming.Spark SQL.MLlib.GraphX,这些内建库都提供了 ...
devexpress表格gridcontrol实现分组，并根据分组计算总计及平均值
1.devexpress表格控件gridcontrol提供了强大的分组功能,你几乎不用写什么代码就可以实现一个分组功能,并且可根据分组计算总计和平均值.这里我例举了一个实现根据班级分组计算班级总人数, ...

随机推荐

cygwin64-安装包管理工具
1.dos command, install pkg $ setup-x86_64.exe -q -P curl $ setup-x86_64.exe -q -P lynx 2. cygwin64 c ...
全网数据实时备份方案[inotify,sersync]
环境搭建 0.环境安装 gcc yum install gcc -y 1.安装inotify(源码软件包) 文件下载:https://files.cnblogs.com/files/ftl101 ...
Shell使用手册
1.循环数组 list=(20180531 20180430 20180331 20180228 20180131 20171231 20171130 20171031 20170930 201708 ...
使用事务和SqlBulkCopy批量插入数据
SqlBulkCopy是.NET Framework 2.0新增的类,位于命名空间System.Data.SqlClient下,主要提供把其他数据源的数据有效批量的加载到SQL Server表中的功能 ...
Access用OleDbParameter无法更新数据解决方案
昨天遇到了一个非常郁闷的问题,这个问题我几乎花了一天的时间才找到了造成问题的症结并解决. 问题是这样,原本一个使用Sqlserver数据库的系统,我要让它实现Access数据接口,即我可以很方便地把 ...
WebSocket消息推送
WebSocket协议是基于TCP的一种新的网络协议,应用层,是TCP/IP协议的子集. 它实现了浏览器与服务器全双工(full-duplex)通信,客户端和服务器都可以向对方主动发送和接收数据.在J ...
好用的css库
实现元素各种抖动效果:https://elrumordelaluz.github.io/csshake/
Mac Sublime Text3快捷键
下载地址http://www.sublimetext.com/3 一.安装Package Control 按Ctrl + ` 调出console,粘贴下列安装代码到底部命令行并回车: import u ...
[19/04/19-星期五] Java的动态性_脚本(Script，脚本)引擎执行JavaScript代码
一.概念 Java脚本引擎是jdk 6.0之后的新功能. 使得Java应用程序可以通过一套固定的接口与各种脚本引擎交互,从而达到在Java平台上调用各种脚本语言的目的. Java脚本API是连接Jav ...
定义一个类Point，代表一个点，public属性有x和y，方法有显示点坐标 show（），构造函数有两个参数分别给x,y赋值，在main方法中构造两个对象，再创建一方法(getMiddle)为取两个点构成线段的中点的坐标，参数为2个点对象，调用此方法后得到一个新的点，编写Application，显示该对象的坐标值。
这个题让我更加明白了类创建对象的实质代码中用到:1.对象作形参;2.对象作返回值以下用代码具体分析: class Point1{ public double x; public double y; ...

spark 例子groupByKey分组计算

spark 例子groupByKey分组计算

spark 例子groupByKey分组计算的更多相关文章

随机推荐

热门专题