spark 相关

Spark为什么会比mapreduce快？

1.Spark减少了中间过程的磁盘读写，数据很多时候不需要落地，从而提升了效率。

2.Spark基于内存的读写，减少了磁盘IO、node数据交互的通信时间。

3.Spark并非mapreduce心跳的模式，任务调度性能比mapreduce快，适合迭代计算。

4.JVM的优化：Hadoop每次MapReduce操作，启动一个Task便会启动一次JVM，基于进程的操作。而Spark每次MapReduce操作是基于线程的，只在启动Executor是启动一次JVM，内存的Task操作是在线程复用的。

基于内存的迭代式计算

DAG :它可以把整个执行过程做一个图，然后进行优化

Spark存在的问题以及改进思路

1.依然是暴力扫描-需要索引。

如果数据总量几百亿，但很多时候我们只想对其中的含有某些关键词的数据进行分析，Spark依然要从头到尾扫描这几百亿的数据，太浪费资源，我们需要对每个维度的值创建一层索引，通过索引我们可以将不想关的记录直接跳跃过去，只对满足匹配条件的结果进行计算。这样即使总量有百亿，但经过匹配后的记录数可能仅仅是几千万，对这几千万的数据进行统计分析与对整体的100亿的数据进行统计分析，性能肯定要快上千倍万倍。

2.大部分的列均有重复值，Spark没有针对这种情况进行优化。

Spark目前的分组统计和排序计算直接读取数据的真实值，这样计算量以及磁盘IO都很大。
在真实的数据中，数据肯定是有重复的，我们可以对数据排重后按照数据大小进行编号，我们在这里称之为标签。

1）排序和分组仅仅使用标签进行计算。
2）用标签来代替原始值后，原始值仅仅存储一份，索引体积变小。
3）标签根据列的数据重复程度不同，标签的长度可以是1bits~32bits，内存中对应byte,short,int类型，因绝大部分数据都有重复，故short类型居多,占用存储空间也小。
4）使用原始数据的真实值（字符串），进行大小比较太耗费CPU资源，相比于完全数值型的标签，标签计算占用的cpu更少。
5）大多数的计算只需要使用标签，而不需要使用标签对应的原始值，仅仅在计算完毕后，将一少部分标签转换为真实值，给用户即可。

3.部分格式支持列存储，但尚有优化空间。
有相当一部分的场景我们只需要获取TOP N 条结果，以下面这条SQL为例
select a,b,c,d,e,f,g,h,i,j,k,l,m,x from testtable order by x desc limit 10
我们只需要获取前10个最大值的x列即可，目前Spark的处理方式是将a,b,c,d,e,f,g,h,i,j,k,l,m,x 这14个列的值全部都读取出来，然后在按照x排序取出TOP N，其实最简单的变换下思路即可，我们先只取出x列,其他的13个列的数据并不读取，按照x列排序得到TOP N结果后，在将剩余的N个结果的13个值附加进来即可，这种先排序，后附加其他列的方式，相对于Spark那种将14个列全部读取出来，IO一下降低了13倍。

与数据库思想的碰撞

DAG<--->执行计划：

有了 rdd 之间的依赖关系，就是可以得到计算的 logical plan and physical plan, 然后去执行计算.

RDD<-->view:

rdd 和view 都是需要的时候再计算的模式，这样就可以有了计算的pipeline，也完全是数据库pipeline 的实现

spark 相关的更多相关文章

hadoop和spark相关参数的配置
背景 MapReduce和Spark对外提供了上百个配置参数,用户可以为作业定制这些参数以更快,更稳定的运行应用程序.本文梳理了最常用的一些MapReduce和Spark配置参数. MapReduce ...
spark相关脚本解析
spark-shell/spark-submit/pyspark等关系如下: #spark-submit 逻辑: ########################################### ...
Spark相关下载
HBase: http://hbase.apache.org/ Hadoop hadoop.apache.org spark http://spark.apache.org/
Spark相关
非常好的spark分析博客,我们team的,哈哈:http://jerryshao.me/ spark programming guide: https://github.com/mesos/spar ...
Spark相关错误汇总
前面介绍了Spark开发环境的搭建,下面将在实际开发过程中遇到的一些问题汇总一下: 1.Exception in thread "main" com.typesafe.config ...
Hadoop/Spark相关面试问题总结
面试回来之后把其中比较重要的问题记了下来写了个总结: (答案在后面) 1.简答说一下hadoop的map-reduce编程模型 2.hadoop的TextInputFormat作用是什么,如何自定义实 ...
spark相关介绍-提取hive表（一）
本文环境说明 centos服务器 jupyter的scala核spylon-kernel spark-2.4.0 scala-2.11.12 hadoop-2.6.0 本文主要内容 spark读取hi ...
Spark相关知识点（一）
spark工作机制,哪些角色,作用. spark yarn模式下的cluster模式和client模式有什么区别.
Hadoop相关日常操作
1.Hive相关脚本导数据,并设置运行队列 bin/beeline -u 'url' --outputformat=tsv -e "set mapreduce.job.queuename= ...

随机推荐

关于mvvm：UI、数据、绑定、状态、中间变量、数据适配、数据处理
绑定: UI控件 --> VM VM -> UI控件关于mvvm:UI.数据.绑定.状态.中间变量.数据适配.数据处理: https://github.com/zzf073/Log ...
luogu P3801 红色的幻想乡
嘟嘟嘟首先人人都能想到是线段树,不过二维线段树肯定会MLE+TLE的. 我们换一种想法,不去修改整个区间,而是修改一个点:开横竖两个线段树,分别记录哪些行和列被修改了.因为如果两阵红雾碰撞,则会因为 ...
Codeforces Round #528 (Div. 2, based on Technocup 2019 Elimination Round 4) C. Connect Three 【模拟】
传送门:http://codeforces.com/contest/1087/problem/C C. Connect Three time limit per test 1 second memor ...
第三章.搭建MyBatis工程环境
1.数据库的准备: 数据库: create DATABASE mybatis: 数据表: CREATE TABLE `user` ( `id` int(10) NOT NULL AUTO_INCREM ...
解决pycharm无法导入本地包的问题
在用python写爬虫程序时,import 行无法通过,具体情况如下: pycharm运行程序后,程序pass了,但是出现了警告,如下图所示: 这是由于该程序不在根目录下,无法导入本地包,解决办法如下 ...
Android大图片裁剪终极解决方案（下：拍照截图）
http://blog.csdn.net/floodingfire/article/details/8144617 http://mzh3344258.blog.51cto.com/1823534/8 ...
Grunt中批量无损压缩图片插件－－grunt-sprite
这是什么这是一个帮助前端开发工程师将css代码中的切片合并成雪碧图的工具,它的主要功能是: 使用二叉树排列算法,对css文件进行处理,收集切片序列,生成雪碧图在原css代码中为切片添加backgr ...
webAPI请求消息过滤器
每当制作一个WebAPI,就必然会收到外部很多调用这个API的请求,有时候,我们希望,能从这些外部来的请求中,按照一定条件筛选过滤一下,只将那些我们觉得合法的,有必要回应的请求放进来,一方面挡住那些非 ...
EF Core中怎么实现自动更新实体的属性值到数据库
我们在开发系统的时候,经常会遇到这种需求数据库表中的行被更新时需要自动更新某些列. 数据库比如下面的Person表有一列UpdateTime,这列数据要求在行被更新后自动更新为系统的当前时间. Pe ...
Python 学习笔记（十一）Python语句（三）
While 循环语句用于循环执行程序,即在某条件下,循环执行某段程序,以处理需要重复处理的相同任务. 语法: while 判断条件: 执行语句…… 执行语句可以是单个语句或语句块.判断条件可以是任何 ...