Adaptive Execution如何让Spark SQL更高效更好用

【Adaptive Execution如何让Spark SQL更高效更好用】的更多相关文章

Adaptive Execution如何让Spark SQL更高效更好用

1 背景 Spark SQL / Catalyst 和 CBO 的优化,从查询本身与目标数据的特点的角度尽可能保证了最终生成的执行计划的高效性.但是执行计划一旦生成,便不可更改,即使执行过程中发现后续执行计划可以进一步优化,也只能按原计划执行: CBO 基于统计信息生成最优执行计划,需要提前生成统计信息,成本较大,且不适合数据更新频繁的场景: CBO 基于基础表的统计信息与操作对数据的影响推测中间结果的信息,只是估算,不够精确. 本文介绍的 Adaptive Execution 将可以根据…

Retrofit 2.0基于OKHttp更高效更快的网络框架以及自定义转换器

时间关系,本文就 Retrofit 2.0的简单使用做讲解至于原理以后有空再去分析项目全面.简单.易懂地址: 关于Retrofit 2.0的简单使用如下: https://gitee.com/bimingcong/MyRetrofit private void initGet() { Retrofit retrofit = new Retrofit.Builder() .baseUrl("http://v.juhe.cn/") .addConverterFactory(G…

如何更高效地定制你的bootstrap

bootstrap已经作为前端开发必不可少的框架之一,应用bootstrap使得我们对布局.样式的设定变得非常简单.但bootstrap提供的默认样式往往不能满足我们的需求,从而定制化bootstrap成为我们经常需要做的工作,本文就如何更高效更可维护地定制bootstrap做一下探讨. 如下图,在你的button 中加入bootstrap的class: btn btn-primary,就可以将默认的button(左边)变成右边的样式. 可如果我们想应用自己的样式呢?比如我们想要拥有圆角的but…

[转]Spark SQL2.X 在100TB上的Adaptive execution(自适应执行)实践

Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战.为了应对这些挑战,英特尔大数据技术团队和百度大数据基础架构部工程师在Spark 社区版本的基础上,改进并实现了自适应执行引擎.本文首先讨论Spark SQL在大规模数据集上遇到的挑战,然后介绍自适应执行的背景和基本架构,以及自适应执行如何应对Spark SQL这些问题,…

使用 Spark SQL 高效地读写 HBase

Apache Spark 和 Apache HBase 是两个使用比较广泛的大数据组件.很多场景需要使用 Spark 分析/查询 HBase 中的数据,而目前 Spark 内置是支持很多数据源的,其中就包括了 HBase,但是内置的读取数据源还是使用了 TableInputFormat 来读取 HBase 中的数据.这个 TableInputFormat 有一些缺点: 一个 Task 里面只能启动一个 Scan 去 HBase 中读取数据: TableInputFormat 中不支持 BulkG…

Apache Kyuubi 助力 CDH 解锁 Spark SQL

Apache Kyuubi(Incubating)(下文简称Kyuubi)是⼀个构建在Spark SQL之上的企业级JDBC网关,兼容HiveServer2通信协议,提供高可用.多租户能力.Kyuubi 具有可扩展的架构设计,社区正在努力使其能够支持更多通信协议(如 RESTful. MySQL)和计算引擎(如Flink). Kyuubi的愿景是让大数据平民化.一个的典型使用场景是替换HiveServer2,帮助企业把HiveQL迁移到Spark SQL,轻松获得10~100倍性能提升(具体提升…