不多说，直接上干货！

　　Spark 同时支持Scala、Python、Java 三种应用程序API编程接口和编程方式，考虑到大数据处理的特性，一般会优先使用Scala进行编程，其次是Python，最后才是Java。无论使用Scala、Python还是Java编程程序都需要遵循Spark 编程模型，考虑对Spark平台支持的有力程度来说，Spark 对Scala语言的支持是最好的，因为它有最丰富的和最易用的编程接口。

Spark 多语言编程的简介

　　Spark 目前支持Scala、Python、Java三种编程语言。

　　Scala 作为Spark的原生语言，代码优雅、简洁而且功能完善，很多开发者都比较认可，它是业界广泛使用的Spark程序开发语言。

　　Spark 也提供了Python的编程模型PySpark，使得Python可以作为Spark开发语言之一。尽管现在PySpark还不能支持所有的Spark API，但是以后的支持度会越来越高。

　　Java 也可以作为Spark的开发语言之一，但是相对于前两者而已，逊色了很多。但是Java8却很好地适应了Spark的开发风格，大家有兴趣可以自行了解。

Spark 多语言编程的误解

　　spark对多语言的支持，并不是说spark可以操作各个语言写的程序。 而是各种语言可以使用spark提供的编程模型来开发spark程序，并连接 spark集群来运行开发好的app。

　　前面我已经些了使用Scala、Java语言开发Spark程序，接下来我重点给大家写此博文了解一下Python的编程模型。

Spark编程环境搭建（基于Intellij IDEA的Ultimate版本）（包含Java和Scala版的WordCount）（博主强烈推荐)

使用python来开发spark app

　　Spark 公开了Python的编程模型--PySpark，开发者可以通过PySpark很容易地开发Spark 应用程序。

　　但是Python API和Scala API并不完全相同：

　　　　1）Python是动态语言，RDD 可以持有不同类型的对象。

　　　　2）PySpark 目前并没有支持全部的API，但核心部分已经全部支持。

　　　　3）在PySpark里，RDD支持和Scala一样的方法，只不过这些方法是Python函数来实现的，返回的也是Python的集合类型；对于RDD方法中使用的短函数，则可以使用Python的Lambda语法实现。

　　不过，使用Python开发Spark应用程序也有很多优势，比如说不需要编译，使用方便，还可以与许多系统集成，特别是NoSQL大部分都提供了Python开发包。

　　接下来我带大家一起使用Python语言开发Spark App。

　　● IDE

　　　　这里选择pycharm

http://www.jetbrains.com/products.html#lang=python

　　● 安装python

　　● 创建python项目

　　● 引入依赖的模块

pyspark

py4j

Spark 概念学习系列之Spark 多语言编程的更多相关文章

Spark 概念学习系列之Spark基本概念和模型（十八）
打好基础,别小瞧它! spark的运行模式多种多样,在单机上既可以本地模式运行,也可以伪分布模式运行.而当以分布式的方式在集群中运行时.底层的资源调度可以使用Mesos或者Yarn,也可使用spark ...
Spark 概念学习系列之Spark存储管理机制
Spark存储管理机制概要 01 存储管理概述 02 RDD持久化 03 Shuffle数据存储 04 广播变量与累加器 01 存储管理概述思考: RDD,我们可以直接使用而无须关心它的实现细节, ...
Spark 概念学习系列之Spark Core（十五）
不多说,直接上干货! 最关键的是转换算子Transformations和缓存算子Actions. 主要是对RDD进行操作. RDD Objects -> Scheduler(DAGSched ...
Spark SQL概念学习系列之Spark SQL概述
很多人一个误区,Spark SQL重点不是在SQL啊,而是在结构化数据处理! Spark SQL结构化数据处理概要: 01 Spark SQL概述 02 Spark SQL基本原理 03 Spark ...
Spark RDD概念学习系列之Spark的算子的作用（十四）
Spark的算子的作用首先,关于spark算子的分类,详细见 http://www.cnblogs.com/zlslch/p/5723857.html 1.Transformation 变换/转换算 ...
Spark RDD概念学习系列之Spark Hash Shuffle内幕彻底解密（二十）
本博文的主要内容: 1.Hash Shuffle彻底解密 2.Shuffle Pluggable解密 3.Sorted Shuffle解密 4.Shuffle性能优化一:到底什么是Shuffle? ...
Spark Streaming概念学习系列之Spark Streaming容错
Spark Streaming容错检查点机制-checkpoint 什么是检查点机制? Spark Streaming 周期性地把应用数据存储到诸如HDFS 或Amazon S3 这样的可靠存储系统 ...
Spark SQL概念学习系列之Spark SQL 架构分析（四）
Spark SQL 与传统 DBMS 的查询优化器 + 执行器的架构较为类似,只不过其执行器是在分布式环境中实现,并采用的 Spark 作为执行引擎. Spark SQL 的查询优化是Catalyst ...
Spark 概念学习系列之从物理执行的角度透视spark Job（十七）
本博文主要内容: 1.再次思考pipeline 2.窄依赖物理执行内幕 3.宽依赖物理执行内幕 4.Job提交流程一:再次思考pipeline 即使采用pipeline的方式,函数f对依赖的RDD ...

随机推荐

springMVC No mapping found for HTTP request with URI
转载自:http://blog.sina.com.cn/s/blog_534f69a00101332u.html 1.问题: No mapping found for HTTP request wit ...
Vuejs2.0构建一个彩票查询WebAPP(3)
整个工程的目录及截图如下,源码下载使用心得: 1.了解Vue的生命周期很有必要,详情参见博文Vue2.0 探索之路——生命周期和钩子函数的一些理解 2.Vuex全局状态管理真是美味不可言 st ...
vuex requires a Promise polyfill in this browser.--ie-vue-兼容处理日记
1.ie9+报错vuex requires a Promise polyfill in this browser. 解决如下: npm install --save-dev -polyfill 修改c ...
【Henu ACM Round#17 C】Kitahara Haruki's Gift
[链接] 我是链接,点我呀:) [题意] 在这里输入题意 [题解] 判断sum/2这个价值能不能得到就可以了. 则就是一个01背包模型了. 判断某个价值能否得到. f[j]表示价值j能否得到. f[0 ...
洛谷 P1994 有机物燃烧
P1994 有机物燃烧题目背景本来准备弄难点的,还是算了吧题目描述输入一种有机物,输出与氧气反应化学方程式中CO2和H2O的系数输入输出格式输入格式: 一行,一个字符串,表示有机物输出格 ...
多个ComboBox绑定同一个数据源出现的问题解决办法
出现问题: 当多个ComboBox绑定同一个数据源后,只要更改其中一个的选择项时,其它的ComboBox也跟着改变了解决办法: DataTable dt = new DataTable(); dt ...
C++中父类的虚函数必需要实现吗？
一.情景 C++中父类的虚函数必需要实现吗? class Vir{ public: virtual void tryVirtual(); }; class CVir:public Vir{ publi ...
强悍的 vim —— 删除空行、删除注释以及加注释解注释
强悍的 vim -- 删除空行.删除注释以及加注释解注释原文 https://blog.csdn.net/lanchunhui/article/details/51588198 1. 删除空行空行的 ...
es64 const
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
vim状态保存跟恢复
当我们结束了一天的工作的时候,可能手头的工作仅仅进行了一半,比如我们正在用vim修改一个android 问题,我们定位了问题关键,牵扯到了好几个类,如果这时候我们直接把vim关闭了,那我们下次还要重新 ...

Spark 概念学习系列之Spark 多语言编程

Spark 多语言编程的简介

Spark编程环境搭建（基于Intellij IDEA的Ultimate版本）（包含Java和Scala版的WordCount）（博主强烈推荐)

使用python来开发spark app

Spark 概念学习系列之Spark 多语言编程的更多相关文章

随机推荐

热门专题