Spark SQL概念学习系列之性能调优

　　不多说，直接上干货！

性能调优

　　Caching Data In Memory

　　Spark SQL可以通过调用sqlContext.cacheTable("tableName") 或者dataFrame.cache()，将表用一种柱状格式（ an inmemory columnar format）缓存至内存中。然后Spark SQL在执行查询任务时，只需扫描必需的列，从而以减少扫描数据量、提高性能。

　　通过缓存数据，Spark SQL还可以自动调节压缩，从而达到最小化内存使用率和降低GC压力的目的。调用sqlContext.uncacheTable("tableName")可将缓存的数据移出内存。

　　可通过两种配置方式开启缓存数据功能：

　　　　使用SQLContext的setConf方法

　　　　执行SQL命令 SET key=value

　　其他调优参数

　　可以通过配置下表中的参数调节Spark SQL的性能。在后续的Spark版本中将逐渐增强自动调优功能，下表中的参数在后续的版本中或许将不再需要配置。

Spark SQL概念学习系列之性能调优的更多相关文章

Spark数据本地化-->如何达到性能调优的目的
Spark数据本地化-->如何达到性能调优的目的 1.Spark数据的本地化:移动计算,而不是移动数据 2.Spark中的数据本地化级别: TaskSetManager 的 Locality L ...
Spark SQL概念学习系列之Spark SQL概述
很多人一个误区,Spark SQL重点不是在SQL啊,而是在结构化数据处理! Spark SQL结构化数据处理概要: 01 Spark SQL概述 02 Spark SQL基本原理 03 Spark ...
SQL Server 列存储性能调优(翻译)
原文地址:http://social.technet.microsoft.com/wiki/contents/articles/4995.sql-server-columnstore-performa ...
Spark（十二）--性能调优篇
一段程序只能完成功能是没有用的,只能能够稳定.高效率地运行才是生成环境所需要的. 本篇记录了Spark各个角度的调优技巧,以备不时之需. 一.配置参数的方式和观察性能的方式额...从最基本的开始讲, ...
Spark SQL概念学习系列之Spark SQL入门
前言第1章为什么Spark SQL? 第2章 Spark SQL运行架构第3章 Spark SQL组件之解析第4章深入了解Spark SQL运行计划第5章测试环境之搭建第6章 ...
Spark SQL概念学习系列之Spark SQL入门（八）
前言第1章为什么Spark SQL? 第2章 Spark SQL运行架构第3章 Spark SQL组件之解析第4章深入了解Spark SQL运行计划第5章测试环境之搭建第6章 ...
Spark SQL概念学习系列之Spark SQL基本原理
Spark SQL基本原理 1.Spark SQL模块划分 2.Spark SQL架构--catalyst设计图 3.Spark SQL运行架构 4.Hive兼容性 1.Spark SQL模块划分 S ...
Spark SQL概念学习系列之SQL on Spark的简介（三）
AMPLab 将大数据分析负载分为三大类型:批量数据处理.交互式查询.实时流处理.而其中很重要的一环便是交互式查询. 大数据分析栈中需要满足用户 ad-hoc.reporting. iterative ...
Spark SQL概念学习系列之Spark SQL的简介（一）
Spark SQL提供在大数据上的SQL查询功能,类似于Shark在整个生态系统的角色,它们可以统称为SQL on Spark. 之前,Shark的查询编译和优化器依赖于Hive,使得Shark不得不 ...

随机推荐

python爬虫：读取PDF
下面的代码可以实现用python读取PDF,包括读取本地和网络上的PDF. pdfminer下载地址:https://pypi.python.org/packages/source/p/pdfmine ...
vue-cli 安装
1 node 下载 http://nodejs.cn/download/ 安装 2 npm install vue-cli -g 3 vue init <template-n ...
day27-2 pandas模块
目录 pandas Series(了解) DataFrame 内置方法处理缺失值合并数据取值把表格传入excel文件中把表格从excel中取出来高级(了解) pandas 处理表格等文件/ ...
探索Python的多态是怎么实现的
多态是指通过基类的指针或者引用,在运行时动态调用实际绑定对象函数的行为. 对于其他如C++的语言,多态是通过在基类的函数前加上virtual关键字,在派生类中重写该函数,运行时将会根据对象的实际类型来 ...
《你又怎么了我错了行了吧》【Alpha】Scrum meeting 3
第三天日期:2019/6/16 前言: 第3次会议在女生宿舍召开讨论了项目功能改进问题,继续代码完善和安排 1.1 今日完成任务情况以及明天任务安排姓名当前阶段任务下一阶段任务刘佳对已 ...
jedis 连接 redis
一.连接单机版的 redis /** * 直接连接 redis * @throws Exception */ @Test public void test1() throws Exception { ...
dtd对xml没有起到约束作用
问题如题. dtd: xml: BUG很明显,但是xml并没有提示错误信息.xml文档校验设置正常. 此处原因: dtd中元素与子元素设置之间缺少空格: 加上空格后正常报错:
BA-siemens-BA模块特性
PXC24(包含UEC24的模块特性) DO点可以接220vac的电压,渠道人员告知电流不要超过2A AO点只能输出0-10V的电压,不能输出4-20ma的电流,说明书上是错误的 AO点输出10v失败 ...
NHibernate之旅(18)：初探代码生成工具使用
本节内容引入代码生成工具结语引入我们花了大量的篇幅介绍了相关NHibernate的知识.一直都是带着大家手动编写代码,首先创建数据库架构.然后编写持久化类和映射文件,最后编写数据操作方法.測 ...
gcc 源代码分析-前端篇2
2. 对ID及保留字的处理在c语言中,系统预留了非常多keyword.也被称为保留字,比方表示数据类型的int,short,char,控制分支运行的if,then等. 不论什么keyword, ...

Spark SQL概念学习系列之性能调优

性能调优

Spark SQL概念学习系列之性能调优的更多相关文章

随机推荐

热门专题