windows下安装spark-python

首先需要安装Java

下载安装并配置Spark

从官方网站Download Apache Spark™下载相应版本的spark，因为spark是基于hadoop的，需要下载对应版本的hadoop才行，这个页面有对hadoop的版本要求，点击Download Spark: spark-2.3.1-bin-hadoop2.7.tgz就可以下载压缩包了，对应的hadoop版本要在Hadoop2.7及其以后。

这里解压到D:\spark-2.3.1-bin-hadoop2.7，为了后续操作简便，这里将解压以后的文件夹名称改为spark，这样解压的路径就是D:\spark

配置环境变量

右键我的电脑，依次点击属性-高级系统设置-环境变量

新建用户变量 SPARK_HOME D:\spark

找到系统变量Path 点击按钮新建，然后添加文本%SPARK_HOME%\bin，按回车enter，继续新建一个，添加文本%SPARK_HOME%\sbin，按键回车，一直点击确定，就保存了更改，这样就将bin、sbin文件夹中的程序放到了系统变量中

pyspark：到这里spark的配置完成了一部分，还有pyspark需要配置，pyspark等anaconda安装后在下文中讨论，pyspark的安装有几种方式，其中解压以后的spark文件夹中就有pyspark库，可以安装到python的库当中去；还可以不复制，pyspark可以通过pip单独安装，还有一种是单独下载pyspark的安装包，解压以后安装到python库当中去。

安装并配置Hadoop

上面安装spark的时候有对hadoop的版本要求，这里要求的是2.7及以后的版本，进入官方网站Apache Hadoop Releases下载2.7.6 binary版本，其中source版本是该版本hadoop的源代码，下载以后解压到D:\hadoop-2.7.6，为了后续操作方便，解压以后修改文件夹名称为hadoop，这样文件夹就是D:\hadoop

配置环境变量：

右键我的电脑，依次点击属性-高级系统设置-环境变量

新增用户变量 HADOOP_HOME D:\hadoop

然后找到系统变量Path 点击按钮新建，然后添加文本%HADOOP%\bin，按回车enter，继续新建一个，添加文本%HADOOP%\sbin，按键回车，一直点击确定，就保存了更改，这样就将bin、sbin文件夹中的程序放到了系统变量中

从网站中下载点击打开链接一个压缩包，然后解压出来，复制其中的winutils.exe和winutils.pdb到hadoop的安装文件夹中，复制目录为：D:\hadoop\bin，复制到这个目录中

当输入命令pyspark出现以下结果时表明spark安装配置完成了

安装并配置anaconda

在anaconda官方网站中下载并安装对应版本的anaconda，安装路径这里的是C:\Anaconda3.5.2.0，其中需要注意的一点是，需要勾选第一个将anaconda加入环境变量的选项，这样就不需要我们自己将它的路径加入到环境变量中去了

安装anaconda不是必须的，必须安装的是python，单独只安装python也是可以的，但是anaconda当中集成了很多需要用到的库，为了方便起见，这里安装的是anaconda。

配置pyspark库 anaconda包含pyspark

之前在安装spark的时候，提到过pyspark库的安装有几种方法，一种方法是直接将spark自带的pyspark库安装到python的库当中去；一种是使用命令pip install pyspark安装；还有一种是单独下载pyspark的安装包，解压以后安装到python库当中去。这几种方法，这里都会进行讲解。

将spark自带的pyspark库安装到python：

以管理员身份打开cmd，按一下键盘上的window键，依次选中Windows 系统，右键命令提示符，点击更多，点击以管理员身份运行

进入spark安装目录的python文件夹，cd D:\spark\python

C:\>cd D:\spark\python

C:\>d:

D:\spark\python>

输入命令 python setup.py install，等待安装完成，

D:\spark\python>python setup.py install

出现这个图时pyspark就安装好了

pip install pyspark命令行方式安装：

同上面打开cmd的方式相同，需要以管理员身份运行，按一下键盘上的window键，依次选中Windows 系统，右键命令提示符，点击更多，点击以管理员身份运行

输入命令 pip install pyspark，等待安装完成，这里需要注意的是，pyspark本身的安装包占用磁盘空间很多，有几百M，这种方式安装需要在线下载pyspark，网速不错的话，是非常推荐的，这种方式最简单，只需要一行命令就行了。

单独下载安装pyspark：

进入pyspark的PyPI的网站，点击左侧的Download files，下载pyspark的安装包，然后解压好，这里解压的路径是D:\pyspark-2.3.1

同上面打开cmd的方式相同，需要以管理员身份运行，按一下键盘上的window键，依次选中Windows 系统，右键命令提示符，点击更多，点击以管理员身份运行

进入解压以后文件夹的目录

输入命令行 python setup.py install ，等待安装完成，pyspark就安装完成了

D:\pyspark-2.3.1>python setup.py install

以上几种方式都可以安装pyspark，其中最方便的方式是使用命令行 pip install pyspark，下面将讲解pycharm的安装配置过程，并演示一个python编写spark的示例。

安装并配置Pycharm

在Pycharm的官方网站中下载pycharm的community版本，这个版本是免费的，按照默认配置安装就可以

安装好以后打开pycharm，根据自己的喜好配置界面，到这一步时，可以安装一些插件，这里安装的是Markdown

进入打开界面时打开settings

选择好Project Interpreter，点击右侧的下拉链，然后点击show all

点击+号，添加项目解释器，选中其中的Conda Environment，然后点击Existing environment，点击右侧的选择按钮，进入目录C:\Anaconda3.5.2.0，选中其中的python.exe文件，然后一直点击OK

等待库载入完成以后，点击OK，就完成了Project Interpreter的配置，等待更新完成，或者让它在后台运行

这个是在最开始的时候配置Project Interpreter，进入界面以后，可以在File-Settings或者File-Default_Settings中设置

设置自己的字体，在File-Settings-Editor-Font当中设置

使用python来编写spark的WordCount程序实例流程

新建一个项目，编辑好项目的存放目录以后，需要注意选择Existing interpreter，而不是New interpreter，上一步就是在配置Project interpreter，需要点击选择已经配置好的解释器。新建一个项目还依次点击按钮File-Setting-New Project

等待pycharm配置好，右下角会有提示的，等这个任务完成以后，就可以新建python文件了

点击Create就创建好了一个项目，鼠标放在左侧项目然后右键，依次点击New-Python File，创建一个python文件WordCount.py

进入WordCount.py文件写入如下代码，就是中文版WordCount，很经典的分布式程序，需要用到中文分词库jieba，去除停用词再进行计数

新建两个文件

jieba分词https://pypi.org/project/jieba/#files

下载完后将导入项目中

from pyspark.contextimport SparkContext

import jieba

sc = SparkContext("local", "WordCount")#初始化配置

data = sc.textFile(r"D:\WordCount.txt")#读取是utf-8编码的文件

with open(r'd:\中文停用词库.txt','r',encoding='utf-8')as f:

x=f.readlines()

stop=[i.replace('\n','')for iin x]

print(stop)

stop.extend(['，','的','我','他','','。',' ','\n','？','；','：','-','（','）','！','1909','1920','325','B612','II','III','IV','V','VI','—','‘','’','“','”','…','、'])#停用标点之类

data=data.flatMap(lambda line: jieba.cut(line,cut_all=False)).filter(lambda w: wnot in stop).\

map(lambda w:(w,1)).reduceByKey(lambda w0,w1:w0+w1).sortBy(lambda x:x[1],ascending=False)

print(data.take(100))

转自：https://www.jianshu.com/p/c5190d4e8aaa

windows下安装spark-python的更多相关文章

windows下搭建spark+python 开发环境
有时候我们会在windows 下开发spark程序,测试程序运行情况,再部署到真实服务器中运行. 那么本文介绍如何在windows 环境中搭建简单的基于hadoop 的spark 环境. 我的wind ...
Windows下安装Spark环境
根据博客总结 https://blog.csdn.net/nxw_tsp/article/details/78281533 需要的安装软件可以在网盘下载: 链接:https://pan.baidu.c ...
windows下安装spark
1.安装jdk 2.安装scala 3.下载spark spark下载地址 3.1安装spark 将下载的文件解压到一个目录,注意目录不能有空格,比如说不能解压到C:\Program Files 作者 ...
Windows下安装使用python的Flask框架
1.安装python环境: 这里就不赘述了. 2.安装virtualenv虚拟环境: 这里使用使用第三方工具 virtualenv 创建虚拟环境.虚拟环境的好处如下(摘录网络): “ 安装 Flask ...
Windows下安装MySQLdb, Python操作MySQL数据库的增删改查
这里的前提是windows上已经安装了MySQL数据库,且配置完成,能正常建表能操作. 在此基础上仅仅需安装MySQL-python-1.2.4b4.win32-py2.7.exe就ok了.仅仅有1M ...
python_在windows下安装配置python开发环境及Ulipad开发工具
最近开始学习Python,在网上寻找一下比较好的IDE.因为以前用C#做开发的,用Visual Studio作为IDE,鉴于用惯了VS这么强大的IDE,所以对IDE有一定的依赖性. Python的ID ...
在windows下安装配置python开发环境及Ulipad开发工具（转）
最近开始学习Python,在网上寻找一下比较好的IDE.因为以前用C#做开发的,用Visual Studio作为IDE,鉴于用惯了VS这么强大的IDE,所以对IDE有一定的依赖性. Python的ID ...
windows下安装配置python + selenium 来驱动firefox
第一步,首先下载安装python ,我下载的是3.5版本,这个版本,自带了pip工具,不需要安装pip了 :) 链接地址:python 3.5 第二步,执行pip install selenium 安 ...
python笔记：windows 下安装 python lxml
原文:http://blog.csdn.net/zhaokuo719/article/details/8209496 windows 环境下安装 lxml python 1.首先保证你的python ...
【转】linux和windows下安装python集成开发环境及其python包
本系列分为两篇: 1.[转]windows和linux中搭建python集成开发环境IDE 2.[转]linux和windows下安装python集成开发环境及其python包 3.windows和l ...

随机推荐

Klotski's Blog
教材: 唐朔飞编著 "计算机组成原理(第2版)"高等教育出版社 2008年1月习题指导教材: 唐朔飞编著 "计算机组成原理–学习指导与习题解答(第2版)" ...
gitlab两种连接方式:ssh和http对比
共同点: 都可以使用git clone 地址 .将项目下载到本地. 不同点: 当将本地修改上传到远程服务器时,http需要输入用户名密码,ssh. 1.ssh方式: 这是一种相对安全的方式这要求将本地 ...
写了个通作的分页存储过程，top，加入了排序
USE [WebDB_TradeOrder]GO/****** Object: StoredProcedure [dbo].[Boss_Proc_PagingWithOrder] Script ...
常胜将军的深思变局：OPPO的渐变释放了怎样的行业信号？
在经过了前几年的狂飙突进后,当下手机行业已经步入了自身的"十年之痒"阶段.利润贴地飞行.T型格局已定且竞争者实力愈强.创新不明显导致消费者换新驱动力降低.全球化竞争趋势凸显-- 也 ...
Ubuntu14-04安装redis和php5-redis扩展
PS:在系统安装完后最好执行下列命令更新下软件实际上只要软件源没什么问题的话,安装什么软件都是OK的. 来开始安装Redis吧~~ 一:如果你的其他都OK的话,可以执行下列命令直接安装 sudo a ...
springboot 不同类型多数据源配置及使用
springboot多数据源配置: datasource.master.jdbc=jdbc:mysql://localhost:3306/test?useUnicode=true&charac ...
MobX中@computed和自定义get函数的区别
首先这两者解决方法都会得到一个相同的结果,但使用@computed的意义在于它能够由MobX进行更智能的优化. 如果我不使用computed属性,直接使用自定义的getTheValue函数的话,那么一 ...
MySQL5.7彻底取消主从复制
由于手误在master节点执行了stop slave;->change master to XXX;->start slave;的动作,后面虽然使用stop slave停止了主从复制,但是 ...
Apple store，奢华背后的辛酸
store,奢华背后的辛酸" title="Apple store,奢华背后的辛酸"> 2000年的时候,乔布斯提出了要建造苹果直营店,也就是Apple st ...
Alberto Del Bimbo：为什么说研究员要有想象力？
Del Bimbo:为什么说研究员要有想象力?" title="Alberto Del Bimbo:为什么说研究员要有想象力?"> 说到科研,与日本式的&q ...

windows下安装spark-python

windows下安装spark-python的更多相关文章

随机推荐

热门专题