Spark 1.3.0 Release Note

Spark 1.3.0在上周五正式公布。真是千呼万唤始出来。本次公布最大的惊喜就是DataFrame。另外一个值得关注的是Spark SQL从Alpha版毕业，我们最终可以欢快地使用Spark SQL了。本次公布还对Spark核心引擎改的可用性进行了改进。并扩展了Spark MLlib及Spark Streaming，详情见下。最后不得不提下。这次公布共接纳了1000多个patch，真是太火爆了。

Spark 1.3.0的下载位置在这里。

Spark Core

Spark 1.3.0在核心引擎中引入了非常多可用性改进。如今Core API支持多层聚合，有助于加速那些费时的reduce操作。对一些特定操作优化了错误信息。Spark的jetty依赖已经被shade，以避免和用户代码产生冲突。此外。Spark已经支持对Akka和HttpServer的连接进行SSL加密。最后。实时的GC统计信息和记录计数器将会显示在Spark UI中。

DataFrame API

Spark 1.3.0加入了一个新的API，DataFrame，提供了更加强有力和便捷的方式来操作结构化数据。DataFrame发展自基础的RDD API。包括了命名域和schema信息。我们可以非常easy地从Hive表，JSON数据。JDBC数据库或者随意其它数据源中创建一个DataFrame。

DataFrame将成为Spark各个模块之间以及Spark和其它系统交换数据的通用接口。

Data frames支持Python。Scala和Java语言。

Spark SQL

在Spark 1.3.0中，Spark SQL正式从Alpha版毕业。向后兼容HiveQL原语并提供稳定的编程接口。Spark SQL支持在数据源API中写表操作。1.3.0版本号还提供了从JDBC读写数据表的能力，原生地支持同MySQL。Postgres及其它关系型数据库的交互能力，对HiveQL也做了大量的改进。

最后，Spark SQL支持以兼容方式从Parquet文件里载入数据。

Spark ML/MLlib

Spark 1.3.0引入了一些新的算法：支持主题模型的LDA算法，支持多分类的多元逻辑回归，支持混合高斯模型和PIC聚类，支持频繁集挖掘的FP-growth，此外还有为了支持分布式线性代数的块矩阵抽象。初步支持模型输入输出的交换格式，并将在今后的版本号中支持很多其它的格式。

K-means算法和ALS算法有了显著的性能提升。PySpark如今也支持ML pipeline API。Gradient Boosted Trees以及混合高斯模型。

最后，ML Pipeline API也支持新的DataFrame抽象。

Spark Streaming

Spark 1.3.0引入了一个direct Kafka API(docs)，不须要配置WAL就可保证数据的可靠交付。同一时候实现了Exactly-Once原语保证强一致性。

另外Python版的Kafka API也被加了进来。

支持online的逻辑回归算法，支持二进制数据的读取。对于那些有状态操作。添加了初始状态RDD的支持。

最后Spark Streaming的指导文档已经包括了SQL，DataFrame和容错等相关内容。

GraphX

Spark GraphX添加了非常多有用的接口，包括怎样将图转换成一个边规范化图

升级到Spark 1.3

Spark 1.3兼容1.X的版本号。所以不须要改动不论什么代码。当然不包括那些被隐含标识为不稳定的API。

作为稳定版Spark SQL API的一部分，SchemaRDD已经被重命名为DataFrame。Spark SQL指引文档已经具体说明了怎样去改动你的代码。

待解决Issue

以下这些issue将在Spark 1.3.1中修复

SPARK-6194: 解决PySpark collect()接口中的内存泄漏问题。
SPARK-6222: 修复Spark Streaming中一个失败恢复问题。
SPARK-6315: 解决Spark SQL无法读取Spark 1.1产生的parquet数据问题。
SPARK-6247: 解决Spark SQL中分析特定Join类型出错的问题。

附官方正版

号外：Spark 1.3.0公布了，快来一起飞！的更多相关文章

What’s new in Spark 1.2.0
What's new in Spark 1.2.0 1.2.0 was released on 12/18, 2014 在2014年5月30日公布了Spark 1.0 和9月11日公布了Spark1. ...
Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN
Spark RDD(Resilient Distributed Datasets)论文概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs) 并行集合外部 Datasets(数据集) RDD 操作基础传递 Functio ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
[Spark性能调优] 第三章 : Spark 2.1.0 中 Sort-Based Shuffle 产生的内幕
本課主題 Sorted-Based Shuffle 的诞生和介绍 Shuffle 中六大令人费解的问题 Sorted-Based Shuffle 的排序和源码鉴赏 Shuffle 在运行时的内存管理 ...
Apache Spark 2.2.0 中文文档
Apache Spark 2.2.0 中文文档 - 快速入门 | ApacheCN Geekhoo 关注 2017.09.20 13:55* 字数 2062 阅读 13评论 0喜欢 1 快速入门使用 ...
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...

随机推荐

Android4.0设置界面改动总结（二）
今年1月份的时候.有和大家分享给予Android4.0+系统设置的改动:Android4.0设置界面改动总结时隔半年.回头看看那个时候的改动.事实上是有非常多问题的,比方说: ①.圆角Item会影响 ...
JBoss vs. Tomcat
JBoss 支持Servlet.Web Server和其它J2EE Features Servlet引擎使用Tomcat的内核 SSL性能比Tomcat快4倍(据说) 支持.net.PHP.CGI 支 ...
用 C 语言编写一个简单的垃圾回收器
人们似乎觉得编写垃圾回收机制是非常难的,是一种仅仅有少数智者和Hans Boehm(et al)才干理解的高深魔法.我觉得编写垃圾回收最难的地方就是内存分配,这和阅读K&R所写的malloc例 ...
BZOJ 4027: [HEOI2015]兔子与樱花贪心
4027: [HEOI2015]兔子与樱花 Description 很久很久之前,森林里住着一群兔子.有一天,兔子们突然决定要去看樱花.兔子们所在森林里的樱花树很特殊.樱花树由n个树枝分叉点组成,编号 ...
9.9递归和动态规划（八）——给定数量不限的硬币，币值为25分，10分，5分，1分，计算n分有几种表示法
/** * 功能:给定数量不限的硬币.币值为25分,10分.5分.1分,计算n分有几种表示法. */ public static int makeChange(int n){ return make ...
java 用JNA调用dll 参考文档
1 Java调用C语言动态库(JNA方式):回调函数.结构体数组传参.结构体数组返回 2jna结构体数组 JNA结构体数组 3JNA调用C语言动态链接库学习实践总结 4 Java 通过 JNA 调 ...
HttpClient学习系列 -- 学习总结
jar包: HttpClient 4.x版本简要介绍 HttpComponents 包括 HttpCore包和HttpClient包 HttpClient:Http的执行http请求 Default ...
LayoutParams继承于Android.View.ViewGroup.LayoutParams.
LayoutParams相当于一个Layout的信息包,它封装了Layout的位置.高.宽等信息.假设在屏幕上一块区域是由一个Layout占领的,如果将一个View添加到一个Layout中,最好告诉L ...
剑指offer——05用两个栈实现队列（Python3）
思路:(转) 代码: # -*- coding:utf-8 -*-class Solution: stack1 = [] stack2 = [] def push(self, node): self. ...
【转】C#详解值类型和引用类型区别
通用类型系统值类型引用类型值类型和引用类型在内存中的部署 1 数组 2 类型嵌套辨明值类型和引用类型的使用场合 5 值类型和引用类型的区别小结首先,什么是值类型,什么是引用类型? 在C# ...

号外：Spark 1.3.0公布了，快来一起飞！