使用spark dataSet 和rdd 解决某个用户在某个地点待了多长时间

现有如下数据文件需要处理
格式：CSV
位置：hdfs://myhdfs/input.csv
大小：100GB
字段：用户ID，位置ID，开始时间，停留时长(分钟）

4行样例：

UserA,LocationA,2018-01-01 08:00:00,60
UserA,LocationA,2018-01-01 09:00:00,60
UserA,LocationB,2018-01-01 10:00:00,60
UserA,LocationA,2018-01-01 11:00:00,60

解读：

样例数据中的数据含义是：
用户UserA，在LocationA位置，从8点开始，停留了60分钟
用户UserA，在LocationA位置，从9点开始，停留了60分钟
用户UserA，在LocationB位置，从10点开始，停留了60分钟
用户UserA，在LocationA位置，从11点开始，停留了60分钟

该样例期待输出：
UserA,LocationA,2018-01-01 08:00:00,120
UserA,LocationB,2018-01-01 10:00:00,60
UserA,LocationA,2018-01-01 11:00:00,60

处理逻辑：
1 对同一个用户，在同一个位置，连续的多条记录进行合并
2 合并原则：开始时间取最早时间，停留时长加和

要求：请使用Spark、MapReduce或其他分布式计算引擎处理

思路：按照按照用户ID和位置ID分组，分组之后按照时间列排序，由于数据之间的存在依赖关系，并且依赖关系比较连续，满足某种关系的数据要进行合并操作，因此使用sql部分的代码很难实现。在这使用的是将Dataset转化为RDD之后使用基于分区进行操作的方法处理数据。拿到相关的数据，按照时间顺序读取，判断，累加等进行处理。

 package com.zhf.streaming

 import java.text.SimpleDateFormat

 import org.apache.spark.Partitioner

 import org.apache.spark.rdd.RDD

 import org.apache.spark.sql.{Dataset, SparkSession}

 import scala.collection.mutable.ArrayBuffer

 case class ResultData(userID:String,locationID:String,startTime:String,endTime:String,stayTime:Long)

 object Test {

   def main(args: Array[String]): Unit = {

     val spark = SparkSession.builder().appName("test").master("local[*]").getOrCreate()

     import spark.implicits._

     import org.apache.spark.sql.functions._

     val info = spark.read

       .format("csv")

       .option("path", "src/data/user.csv")

       .load()

       .toDF("userID", "locationID", "startTimes", "stayMinutes")

       .as[(String, String, String, String)]

     val ds: Dataset[((String, String, String), ResultData)] = info.map {

       case (userID, locationID, startTimes, stayMinutes) =>

         //让起始时间+停留时间=结束时间

         val sd = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss")

         val date = sd.parse(startTimes)

         val endTime = sd.format(date.getTime + (stayMinutes.trim.toInt * 60 * 1000))

         ((userID, locationID, startTimes), ResultData(userID, locationID, startTimes, endTime, stayMinutes.trim.toLong))

     }.as[((String, String, String), ResultData)]

     //按照用户ID和位置ID分组，分组之后按照时间列排序

     val newDS: RDD[((String, String, String), ResultData)] = ds.rdd.repartitionAndSortWithinPartitions(new Partitioner {

       override def numPartitions: Int = 4

       override def getPartition(key: Any): Int = key match {

         case (userID, locationID, _) => (userID.hashCode + locationID.hashCode) % numPartitions

         case _ => 0

       }

     })

     val result = newDS.mapPartitions(iter => {

       val listBuffer = iter.toBuffer

       val buffer = ArrayBuffer.empty[ResultData]

       var resultData: ResultData = null;

       //分区内只有一个元素的情况

       if (listBuffer.size == 1) {

         resultData = listBuffer(0)._2;

         buffer += resultData

       } else {

         //分区内有多个元素

         listBuffer.foreach {

           case ((userID, locationID, startTimes), currentData) =>

             //初始化赋值

             if (resultData == null) {

               resultData = ResultData(userID, locationID, startTimes, currentData.endTime, currentData.stayTime)

             } else {

               //如果当前行的起始时间与上一行的结束时间相同

               if (currentData.startTime == resultData.endTime) {

                 //合并 修改初始值

                 resultData = ResultData(currentData.userID, currentData.locationID, resultData.startTime, currentData.endTime, resultData.stayTime + currentData.stayTime)

               } else {

                 //不相同的情况下，将上一行结果添加到结果集，并修改初始值

                 buffer += resultData

                 resultData = currentData

               }

             }

         }

         //最后一个元素对象

         if (resultData != null) {

           buffer += resultData

         }

       }

       buffer.toIterator

     })

     result.collect()

       .sortBy(_.startTime)

       .foreach(println)

   }

 }

使用spark dataSet 和rdd 解决某个用户在某个地点待了多长时间的更多相关文章

解决使用Touch ID API在回调时界面“长时间卡住”的问题
Touch ID是iOS8上新公开的API,关于详细介绍和用法可以看CocoaChina的这两篇文章:上和下,在此篇文章中不再赘述. 我在app中需要的效果是如果touch id验证通过,则页面p ...
Spark SQL 之 RDD、DataFrame 和 Dataset 如何选择
引言 Apache Spark 2.2 以及以上版本提供的三种 API - RDD.DataFrame 和 Dataset,它们都可以实现很多相同的数据处理,它们之间的性能差异如何,在什么情况下该选用 ...
Spark计算模型-RDD介绍
在Spark集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed DataSet,RDD),它是逻辑集中的实体,在集群中的多台集群上进行数据分区.通 ...
Spark学习之RDD编程总结
Spark 对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称 RDD).RDD 其实就是分布式的元素集合.在 Spark 中,对数据的所有操作不外 ...
使用Scala编写Spark程序求基站下移动用户停留时长TopN
使用Scala编写Spark程序求基站下移动用户停留时长TopN 1. 需求:根据手机基站日志计算停留时长的TopN 我们的手机之所以能够实现移动通信,是因为在全国各地有许许多多的基站,只要手机一开机 ...
Spark深入之RDD
目录 Part III. Low-Level APIs Resilient Distributed Datasets (RDDs) 1.介绍 2.RDD代码 3.KV RDD 4.RDD Join A ...
Spark学习之RDD
RDD概述什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合 ...
spark教程(三)-RDD认知与创建
RDD 介绍 spark 最重要的一个概念叫 RDD,Resilient Distributed Dataset,弹性分布式数据集,它是 spark 的最基本的数据(也是计算)抽象. 代码中是一个抽象 ...
Spark——DataFrames，RDD，DataSets、广播变量与累加器
Spark--DataFrames,RDD,DataSets 一.弹性数据集(RDD) 创建RDD 1.1RDD的宽依赖和窄依赖二.DataFrames 三.DataSets 四.什么时候使用Dat ...

随机推荐

Adaboost原理推导
Adaptive Boosting是一种迭代算法.每轮迭代中会在训练集上产生一个新的学习器,然后使用该学习器对所有样本进行预测,以评估每个样本的重要性(Informative).换句话来讲就是,算法会 ...
[leetcode] 621. Task Scheduler(medium)
原题思路: 按频率最大的字母来分块,频率最大的字母个数-1为分成的块数,每一块个数为n+1 比如AAABBCE,n=2, 则分为A-A- +A AAABBBCCEE,n=2,则分为AB-AB- +A ...
《VR入门系列教程》之2---VR头显
什么是虚拟现实? 虚拟现实的目标:让人们相信真实地处于一个虚拟世界中.要达到这个目标就得让人们的大脑(负责视觉和运动感知部分)欺骗他们.不同技术合在一起才可以创造这种幻觉,包括: 全立 ...
ironic+nova详解
ironic+nova详解说明: Openstack 的安装步骤省略,按照社区的文档即可搭建出一套相对稳定的使用环境.本文档基于Newton版本. 假设现在已经有一套可用的Newton环境, 以下的 ...
Java IO 为什么我们需要缓冲区
在执行IO操作我们通常会设置一个字节数组作为缓冲区用来写/读数据,一般情况下一个合理大小的缓冲区是有利于提升性能的,但是有一个问题一直困扰着我,为什么缓冲区可以提升IO操作的性能? 经查阅资料之后,总 ...
ListView 控件总结
1.ListView类 1.常用的基本属性: (1)FullRowSelect:设置是否行选择模式.(默认为false) 提示:只有在Details视图该属性才有 ...
scroll-苹果滑动卡顿
2018年08月02日,程序小bug. 在移动端html中经常出现横向/纵向滚动的效果,但是在iPhone中滚动速度很慢,感觉不流畅,有种卡卡的感觉,但是在安卓设备上没有这种感觉; 一行代码搞定: - ...
.NET读写DBF
C# 读写DBF分为两种模式,一种为OLEDB驱动,需要安装一个文件“VFPOLEDBSetup.msi”: 一种为Odbc模式,这种几乎上不需要安装Odbc驱动我这边用的是第一种. /// < ...
计算机网络中IP地址和MAC地址
计算机网络中的网络地址有I P 地址和物理地址之分,对于主机间的通信时,它们的作用也不一样 . l I P 地址为了保证 I n t e r n e t 网上主机通信时能够相互识别 ,不引 ...
c#小灶——初识c#
提到c#,就不得不说.net,.net是微软开发的一个平台,简单来说,在这个平台上,可以编写.运行程序.可能很多人觉得这个平台离我们很遥远,其实不然,这个平台就一直在我们的windows操作系统里,默 ...

使用spark dataSet 和rdd 解决 某个用户在某个地点待了多长时间

使用spark dataSet 和rdd 解决 某个用户在某个地点待了多长时间的更多相关文章

随机推荐

热门专题

使用spark dataSet 和rdd 解决某个用户在某个地点待了多长时间

使用spark dataSet 和rdd 解决某个用户在某个地点待了多长时间的更多相关文章