Spark大型电商项目实战-及其改良(1) 比对sparkSQL和纯RDD实现的结果

代码存在码云:https://coding.net/u/funcfans/p/sparkProject/git

代码主要学习https://blog.csdn.net/u012318074/article/category/6744423/1这里的

发现样例作为正式项目来说效率太低了,为了知识点而知识点.对原代码做了一定优化

第1个项目:用户访问session随机抽取统计

用户数量一般在100(测试环境)10的8次方(生产环境),不管是哪种都比访问数据少的多.一般这种数据量可以装入内存,使用Map一一映射,并广播这个变量,实现map join并防止数据倾斜

某些确定要过滤得数据(本例的访问数据要过滤访问时间和关键词,用户数据要过滤性别和年龄),就在sparkSQL初始化rdd阶段就过滤掉(按原例在访问数据和用户数据join之后才执行filter算子,这中间要过多少无效数据,还有后面的coalesce优化还要占用时间)

无法避免的数据倾斜(本例的所有join都满足map join优化条件,所以要优化的地方都是dintinct和bykey系算子),使用局部聚合的方式可以缓解倾斜

原例为了展示foreachPartition的重要性,故意把数据库的写入部分使用foreach算子进行操作,这个地方使用foreachPartition重写之后,执行效率提高了3倍(去年12月的执行数据,现在不知道咋地开这个项目会java heap space,大概是数据量调太多了)，最后的foreach(Partition)算子是对数据库的I/O操作，量还不小,相比内部的运算来说，这个操作的执行时间太长了。大数据分析最好不要一次性导出大量数据，能在集群里面分析出信息量较少的结果导出最好

原先的性能数据没保存,现在还因为谜之bug的问题(其实就是数据量的问题,只是卡在flatMapToPair执行session随机抽取这个步骤一直没执行完上了)没有执行结果

第3个项目:不同地区的top10商品统计

这里数据处理都发生在集群内，导出的数据量少，可以加大数据量测试。

同样的，这个项目也是为知识点而知识点。所以要亲自实践一下，sparkSQL和纯RDD实现哪个快，顺带考查自己的RDD优化功底。

此处用的均为同一数据源

AreaTop3ProductSpark这个类，是作者的原例

AreaTop3ProductRDD这个类，是本人对业务的分析转换成的纯RDD实现

AreaTop3ProductRDDSpeedUp这个类，是对上一个类的进一步优化，观察优化效果

AreaTop3ProductSql这个类，是本人对业务的分析转换成的纯sparkSQL实现

结果如下：

Job Id	Description	Submitted	Duration	Stages: Succeeded/Total	Tasks (for all stages): Succeeded/Total
4	collect at AreaTop3ProductSql.java:99	2019/01/29 11:19:04	5 s	7/7	883/883 (2 failed)
3	collect at AreaTop3ProductRDDSpeedUp.java:371	2019/01/29 11:19:02	0.8 s	3/3	123/123
2	collect at AreaTop3ProductRDDSpeedUp.java:212	2019/01/29 11:19:02	28 ms	1/1	1/1
1	collect at AreaTop3ProductRDD.java:353	2019/01/29 11:19:01	1 s	7/7	247/247
0	collect at AreaTop3ProductSpark.java:108	2019/01/29 11:18:45	14 s	7/7	724/724 (2 failed)

(直接复制history server的html代码)

原例的执行效率最慢，纯SQL只快1.8倍，可见hivecontext中的dataframe和RDD相互转换耗费的时间不短；并且使用了sql的应用都有failed，进入内部可以发现，javaRDD步骤各有1个出现(Too many open files)错误，可见hivecontext需要与本地文件系统交互

纯RDD的执行时间均将近1秒，不过speedUp的优化效果很不稳定，12月的测试发现。某些数据下用了speedUp的地方反而会拖累执行效率

下节重点分析纯RDD的运行过程

Spark大型电商项目实战-及其改良(1) 比对sparkSQL和纯RDD实现的结果的更多相关文章

Spark大型电商项目实战-及其改良之番外(1)-将spark前端页面效果高效拷贝至博客
Spark大型电商项目实战-及其改良这个系列的时间轴展示图一直在变....1-3篇是用图直接表示时间轴,用一段简陋的html代码表示时间表.第4篇开始才是用比较完整的前端效果,能移动.缩放时间轴,鼠标 ...
Spark大型电商项目实战-及其改良(3) 分析sparkSQL语句的性能影响
之前的运行数据被清除了,只能再运行一次,对比一下sparkSQL语句的影响纯SQL的时间对应时间表 th:first-child,.table-bordered tbody:first-child ...
Spark大型电商项目实战-及其改良(4) 单独运行程序发现的问题
之前的运行结果比对发现,有1个函数的作用在2个job里面是相同的,但是对应的计算时间却差太远于是把4个job分开运行.虽说使用的数据不同,但是生成数据的生成器是相同的,数据排布差距不大,数据量也是相 ...
Spark大型电商项目实战-及其改良(2) RDD优化效果不稳定的真正原因
首先看没有map join的第2任务: 时间线如下接着是对应id的算子计算时间表 Stage Id Description Submitted Duration Tasks: Succeeded/T ...
16套java架构师，高并发，高可用，高性能，集群，大型分布式电商项目实战视频教程
16套Java架构师,集群,高可用,高可扩展,高性能,高并发,性能优化,设计模式,数据结构,虚拟机,微服务架构,日志分析,工作流,Jvm,Dubbo ,Spring boot,Spring cloud ...
Java 18套JAVA企业级大型项目实战分布式架构高并发高可用微服务电商项目实战架构
Java 开发环境:idea https://www.jianshu.com/p/7a824fea1ce7 从无到有构建大型电商微服务架构三个阶段SpringBoot+SpringCloud+Solr ...
SpringBoot电商项目实战 — ElasticSearch接入实现
如今在一些中大型网站中,搜索引擎已是必不可少的内容了.首先我们看看搜索引擎到底是什么呢?搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术.搜索引擎依托于 ...
SpringBoot电商项目实战 — 前后端分离后的优雅部署及Nginx部署实现
在如今的SpringBoot微服务项目中,前后端分离已成为业界标准使用方式,通过使用nginx等代理方式有效的进行解耦,并且前后端分离会为以后的大型分布式架构.弹性计算架构.微服务架构.多端化服务(多 ...
C# 大型电商项目性能优化（一）
经过几个月的忙碌,我厂最近的电商平台项目终于上线,期间遇到的问题以及解决方案,也可以拿来和大家多做交流了. 我厂的项目大多采用C#.net,使用逐渐发展并流行起来的EF(Entity Framewor ...

随机推荐

NIOS_UART
1.Fifoed avalon UART带缓冲区,使用非常方便,google下载,google上有的技术资料,百度上找不到,以为没有这个事情: 2.两种UART如果想用操作寄存器的方式操作,需要在al ...
2018-2019-2 网络对抗技术 20165311 Exp6 信息搜集与漏洞扫描
20165311 Exp6 信息搜集与漏洞扫描 1.实验内容 2.实验过程任务一:各种搜索技巧的应用通过搜索引擎进行信息搜集使用FOFA.SO 搜索特定类型的文件任务二:DNS IP注册信息的 ...
[Day19]Collection接口中的子类(List集合、Set集合)
1.List接口 1.1API总结 (1)是一个元素存取有序的集合 (2)是一个带有索引的集合,通过索引可以精确的操作集合中的元素 (3)集合中有可以重复的元素,通过元素的equals方法,来比较是否 ...
APICloud开发者进阶之路 | txLive模块（直播类）试用分享
本文出自APICloud官方论坛,感谢论坛版主uoaccw的分享 txLive 模块封装了腾讯云直播服务 https://docs.apicloud.com/Client-API/Open-SDK/t ...
Android平台targetSdkVersion设置及动态权限
--关于Android动态权限和targetSdkVersion Android系统自6.0开始,提供动态权限机制,对于敏感权限(存储,定位,录音,拍照,录像等),需要在APP运行过程中动态向用户申请 ...
jmeter 之变量传递
最近遇到个问题,一个线程组的变量怎么应用到另一个线程组,试了下,通过提取器设置的变量只能用于当前线程组,不能用于其他线程组,只能试试设置property Parameters,应该还有别的办法这只是其 ...
2018-2019-2 20165336 《网络对抗技术》 Exp6 信息搜集与漏洞扫描
2018-2019-2 20165336 <网络对抗技术> Exp6 信息搜集与漏洞扫描一.原理与实践说明 1.实践内容本实践的目标是掌握信息搜集的最基础技能.具体有: 各种搜索技巧的 ...
Elasticsearch学习笔记（十四）relevance score相关性评分的计算(1)
一.多shard场景下relevance score不准确问题 1.问题描述: 多个shard下,如果每个shard包含指定搜索条件的document数量不均匀的情况下, ...
[vue--开发记录]使用location.href修改地址跳转页面在ie上遇到的坑
管理后台项目上在用vue2.0开发,因为刚转vue2.0,不是太熟悉.在跳转页面的时候直接用location.href来修改地址跳转,在chrome和火狐上展现都是正常的.后面因为说要兼容到IE9,就 ...
linux上磁盘的操作相关命令
1.查看磁盘IO负载 - 看哪些进程在读写磁盘 lsof /dev/sda2 |head

Spark大型电商项目实战-及其改良(1) 比对sparkSQL和纯RDD实现的结果

Spark大型电商项目实战-及其改良(1) 比对sparkSQL和纯RDD实现的结果的更多相关文章

随机推荐

热门专题