spark sql的应用场景

最近一直在银行做历史数据平台的项目，目前整个项目处于收尾的阶段，也好有时间整理下在项目中的一些收获。

该历史数据平台使用spark+Nosql架构了，Nosql提供了海量数据的实时查询，而spark提供了sql支持，最开始给客户设计方案的时候，对spark sql也不是很熟悉，只知道它的thriftserver可以支持JDBC，在做方案的设计的使用,Spark SQL提供了对外查询的接口。在测试中发现，spark sql的sql是一个执行完成后才能执行另一个，就是换了fair这种作业调度方式，整个集群的并发还是很慢。

spark是一个分布式计算框架，从他的作业调度可以看到http://spark.apache.org/docs/latest/job-scheduling.html，它的资源分配粒度很粗，CPU的核数进行分配的，集群的CPU资源是有限的，同时spark sql资源计算时需要把大量数据加载到内存中，需要消耗集群大量的内存资源，再做shuffle的时候，又需要消耗大量的网络IO和磁盘IO, 如果同时多个job执行，那么每个job获得资源要么少，要么需要排队。而不能像关系型数据库那么提供高并发的服务。

我咨询了一下做NoSQL开发的哥们，NoSQL中没有做任务调度，但是每次查询的速度很快，对请求处理很块，这样并发就好了。如果遇到执行慢的请求，也会拖累查询速度，毕竟硬件资源有限，当然目前他们也在做资源调度这一块。

通过上面的分析，Spark SQL只是一个批处理的工具，所以如果用户比较少，并发要求不高，可以用spark sql，如果你想像关系型数据库那样提供对外服务，就选错工具了。

spark sql的应用场景的更多相关文章

Hive、Spark SQL、Impala比较
Hive.Spark SQL.Impala比较 Hive.Spark SQL和Impala三种分布式SQL查询引擎都是SQL-on-Hadoop解决方案,但又各有特点.前面已经讨论了Hi ...
整理对Spark SQL的理解
Catalyst Catalyst是与Spark解耦的一个独立库,是一个impl-free的运行计划的生成和优化框架. 眼下与Spark Core还是耦合的.对此user邮件组里有人对此提出疑问,见m ...
平易近人、兼容并蓄——Spark SQL 1.3.0概览
自2013年3月面世以来,Spark SQL已经成为除Spark Core以外最大的Spark组件.除了接过Shark的接力棒,继续为Spark用户提供高性能的SQL on Hadoop解决方案之外, ...
【转载】Spark SQL 1.3.0 DataFrame介绍、使用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=12358&page=1 1.DataFrame是什么?2.如何创建DataF ...
Spark SQL利器：cacheTable/uncacheTable
Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”(作为一个MapReduce的忠实粉丝,能这样说,大家都懂了吧),这在我们的业务场景里真的是非常有用. 假设我们有 ...
Spark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程（Java踩坑教学版）
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
Spark SQL笔记——技术点汇总
目录概述原理组成执行流程性能 API 应用程序模板通用读写方法 RDD转为DataFrame Parquet文件数据源 JSON文件数据源 Hive数据源数据库JDBC数据源 DataF ...
Spark SQL 1.3测试
Spark SQL 1.3 参考官方文档:Spark SQL and DataFrame Guide 概览介绍参考:平易近人.兼容并蓄——Spark SQL 1.3.0概览 DataFrame提供了一 ...
大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataS ...

随机推荐

MyISAM引擎的特点及优化方法
1.什么是MyISAM引擎?MyISAM引擎是MySQL关系数据库管理系统的默认存储引擎(MySQL5.5.5以前),这种MySQL的表存储结构从旧的ISAM代码扩展出许多有用的功能.在存储的时候,每 ...
详细说明svn分支与合并，以及实例
详细说明svn分支与合并,以及实例一,svn分支与合并有什么用? 作程序的,对svn在熟悉不过了,但对svn分支熟悉的,我想并不多.因为一般情况下,是用不着svn分支的,其实也没有那个必要.下面我例 ...
Magic Index 寻找数组中A[i]=i的位置（原题转自微信号待字闺中）
有一个有意思的题目叫做Magic Index:给定一个数组A,其中有一个位置被称为Magic Index,含义是:如果i是Magic Index,则A[i] = i.假设A中的元素递增有序.且不重复, ...
SQL Server 索引中include
SQL Server 索引中include的魅力(具有包含性列的索引) http://www.cnblogs.com/gaizai/archive/2010/01/11/1644358.html 开文 ...
Node中没搞明白require和import，你会被坑的很惨
ES6标准发布后,module成为标准,标准的使用是以export指令导出接口,以import引入模块,但是在我们一贯的node模块中,我们采用的是CommonJS规范,使用require引入模块,使 ...
Unity Shader实现描边效果
http://gad.qq.com/article/detail/28346 描边效果是游戏里面非常常用的一种效果,一般是为了凸显游戏中的某个对象,会给对象增加一个描边效果.本篇文章和大家介绍下利用S ...
C# winform窗口打开特效及窗口位置居中
在启动一个程序时,我们希望窗口显示的位置处于屏幕的正中心,可以如下设置: MainForm mainForm = new MainForm(); mainForm.StartPosition = ...
JavaScript实现继承的几种重要范式
一原型链 1. 代码示例 function SuperType() { this.superProperty = true; } SuperType.prototype.getSuperValue ...
Angular5学习笔记 - 创建服务（九）
一.创建服务 ng generate service service-name #简写 ng g s component-name ng g s services/userService 二.效果三 ...
Sass和Less、Stylus的转译和语法（1）
四.Sass.LESS和Stylus转译成CSSSass.LESS和Stylus源文件(除了LESS源文件在客户端下运行之外)都不能直接被浏览器直接识别,这样一来,要正常的使用这些源文件,就需要将其 ...

spark sql的应用场景

spark sql的应用场景的更多相关文章

随机推荐

热门专题