win10下Anaconda3在虚拟环境python_version=3.5.3 中配置pyspark

1. 序
经过了一天的修炼，深深被恶心了，在虚拟环境中配置pyspark花式报错，由于本人实在是不想卸载3.6版的python,所以硬刚了一天，终于摸清了配置方法，并且配置成功，不抱怨了，开讲：

2. 需求环境
Anaconda3;(我的是最新版的Anaconda4.3.1(64位))

3. 安装虚拟环境
1、创建Python虚拟环境。
使用 conda create -n your_env_name python=3.5（2.7、3.6等） anaconda 命令创建python版本为X.X、名字为your_env_name的虚拟环境。your_env_name文件可以在Anaconda安装目录envs文件下找到。
2、激活虚拟环境
activate your_env_name
3、安装虚拟环境包
conda install -n your_env_name
至此一个名字是your_env_name的虚拟环境就建好了，它的python版本是3.5版本的，可以通过cmd进入，然后输入activate your_env_name在输出python然后查看到

4. 资源准备
spark_2.2.0_bin-hadoop2.7.tgz

根据自己的需求版本，可以下载不同的spark版本，我用的是spark-2.0.1-bin-hadoop2.7，之后解压，注意存放的路径一定不能带空格，例如放到C:\Program Files就不行。这里我放到了D:\spark；之后就是添加环境变量。
有两种方法：
1、直接在path中添加环境变量：将D:\spark\spark-2.0.1-bin-hadoop2.7\bin，和D:\spark\spark-2.0.1-bin-hadoop2.7\sbin都加到环境变量中。
2、先新建一个SPARK_HOME的环境变量，值为D:\spark\spark-2.0.1-bin-hadoop2.7，之后将%SPARK_HOME%\bin和%SPARK_HOME%\sbin加入到path中
如果想看是否添加成功，需要将虚拟环境加入到path变量中，然后上移到原始python=3.6的路径前面，之后再cmd中输入pyspark就会出现下面的情况。注意：如果虚拟环境的路径不在原始路径前面会出现找不到路径的情况，当然这个路径只是为了看是否安装成功，跟在pycharm中运行成功与否没有任何关系，你也可以再变换回去。

spark的依赖环境中有对hadoop的需求，因此还需要下载对应版本的hadoop，这里面我下载的是有关hadoop2.7+的资源，无需安装完整的Hadoop，但需要hadoop.dll，winutils.exe等。根据下载的Spark版本，下载相应版本的hadoop2.7.1。
解压，添加环境变量(如pyspark添加环境变量一样，同样有两种方法)，经过我的测试，好像这里面的资源不太够，反正我用着会报错，因此我选择了从原始资源中下载bin文件，然后替换了前面hadoop2.7.1里面的bin文件。
要想在PyCharm中调用pySpark,需要加载包。将D:\spark\spark-2.0.1-bin-hadoop2.7\python文件夹下pySpark文件夹拷贝到D:\ProgramData\Anaconda3\envs\tensorflow\Lib\site-packages**（注：这个地方是要拷贝到虚拟环境的包路径）

4. 1关键
注意咯，，，接下来这步操作决定我们是否能够完成配置，，，
1、在D:\spark\spark-2.0.1-bin-hadoop2.7\bin文件夹下找到pyspark文件，然后用notepad++打开。
2、找到export PYSPARK_PYTHON然后把这个地方变成export PYSPARK_PYTHON=python3
3、保存。。。大功告成
4、重启（可以先略过此步，进行下面验证，如果验证还是花式报错（2）就可以上本步，成为大绝杀，然后可以爽歪歪用pyspark了）
到目前为止，我们的准备工作终于做好了，，，不容易啊。。。其实到现在为止我们也算是安装完成，，惊不惊喜，意不意外，，没想到这么简单吧，哈哈哈哈哈哈，接下来我们就可以验证了。。

5. 验证
在这里引用雪伦的例子，

新建wordCount.py文件，写代码
注意setAppName、setMaster中千万不要带空格，否则会出现“Java gateway process exited before sending the driver its port number”的报错

import sys
from operator import add

from pyspark import SparkContext

if __name__ == "__main__":
sc = SparkContext(appName="PythonWordCount")
lines = sc.textFile('words.txt')
counts = lines.flatMap(lambda x: x.split(' ')) \
.map(lambda x: (x, 1)) \
.reduceByKey(add)
output = counts.collect()
for (word, count) in output:
print "%s: %i" % (word, count)

sc.stop()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
其中words.txt中的内容是

good bad cool
hadoop spark mlib
good spark mlib
cool spark bad
1
2
3
4
然后运行，，，你会发现——————————————————————————报错了是不是，哈哈哈。虽然不知道你报的什么错，肯定报错了，这才是虚拟环境装pyspark迷人的地方，花式报错，，别着急，那是因为我们没有添加项目的环境变量，在图中环境变量位置把SPARK_HOME的路径添加进去，之后再运行

出现

这就说明我们已经大功告成啦啦啦啦啦啦！！！！！！！！！！！！！！
---------------------
作者：Biorad
来源：CSDN
原文：https://blog.csdn.net/loverminger/article/details/76095845
版权声明：本文为博主原创文章，转载请附上博文链接！

win10下Anaconda3在虚拟环境python_version=3.5.3 中配置pyspark的更多相关文章

win10下通过编译源码方式在chrome中成功安装react-devtools开发工具插件
win10下通过编译源码方式在chrome中成功安装react-devtools开发工具插件 1.去git上下载react-devtools文件到本地,https://github.com/fac ...
win10下通过Anaconda安装TensorFlow-GPU1.3版本，并配置pycharm运行Mnist手写识别程序
折腾了一天半终于装好了win10下的TensorFlow-GPU版,在这里做个记录. 准备安装包: visual studio 2015: Anaconda3-4.2.0-Windows-x86_64 ...
win10下Anaconda3配置环境变量
有时候在win10安装好Anaconda3后,使用conda命令时依然会出现: C:\Users\dell\PycharmProjects\pytorch>conda list 'conda' ...
Win10下Anaconda3安装CPU版本TensorFlow并使用Pycharm开发
环境:windows10 软件:Anaconda3 1.安装Anaconda 选择相应的Anaconda进行安装,下载地址点击这里,下载对应系统版本的Anaconda3. 运行开始菜单->An ...
win10下anaconda3环境配置
WINDOW系统设置环境变量:我的电脑右键-属性-高级系统设置-高级-环境变量中在path中加入你系统安装anaconda的目录下的scripts中: C:\Users\***\anaconda3\S ...
win10 下的python虚拟环境安装使用（使用powershell）
安装virtualenv 若要使用python虚拟环境进行开发,首先需要安装virtualenv.命令:pip install virtualenv 我已经装过了
Win10下免安装版MySQL5.7的安装和配置
1.MySQL5.7解压 2.新建配置文件my.ini放在D:\Free\mysql-5.7.26-winx64目录下 [mysql] # 设置mysql客户端默认字符集 default-charac ...
java环境的配置——实现win10下双击直接运行jar文件
java环境的配置--实现win10下双击直接运行jar文件在渗透测试的过程中很多工具的安装和使用需要java环境,下面我来介绍一下java环境配置的超详细步骤(包含怎样实现win10下双击直接运行 ...
Anaconda3（5-2）程序编辑器 win10下PyCharm安装及配置Pytorch流程
由于破解和付费问题,不推荐.优先用自带的spyder Win10 下PyCharm安装流程:(1)官网:https://www.jetbrains.com/pycharm/download/#sect ...

随机推荐

loader的意义和内部机制浅析
意义: loader可以异步的加载数据到我们的activity或者fragment上面,让加载数据的时候ui线程不阻塞. 而且当数据发生变化的时候,还可以及时更新具体用法参考 http://deve ...
JS中的!= 、== 、!==、===的用法和区别
与c++中每一种类型都有明确的的定义不同:因JS中var定义存在,未具体区分类型,!=与==不能包含所有的条件,故加入!==与===用法: var num = 1; var str = '1'; va ...
linux时区修改为中国时区
cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
HDOJ 1196 Lowest Bit
题目大意是给一个1-100的整数,要求首先转化成2进制,然后从最低位开始数起到不是0的位停止,输出这些位代表队额10进制数 #include <iostream> using namesp ...
linux鸟哥的私房菜
这书还是感觉非常棒,真的是授之以渔而不是授之以鱼.我觉得只需要掌握一个命令就可以了man -k KEYWORD 比如我想查找和防火墙相关的命令,那么 man -k firewall 结果是ufw 然后 ...
Mat 类的内存管理
使用 Mat 类,内存管理变得简单,不再像使用 IplImage 那样需要自己申请和释放内存.虽然不了解 Mat 的内存管理机制,也无碍于 Mat 类的使用,但是如果清楚了解 Mat 的内存管理,会更 ...
对C语言中static的理解
对C语言中的static关键字的深入理解在一次面试的时候面试官问我static全局变量与全局变量的区别,之前虽然用过但是并没仔细去搞懂他,这次来细心的学习一下. 基本概念使用static有三种情况 ...
2019年第十届蓝桥杯省赛-糖果（一维状压dp）
看到20的数据量很容易想到状压dp. 开1<<20大小的数组来记录状态,枚举n个糖包,将其放入不同状态中(类似01背包思想) 时间复杂度O(n*(2^20)). import java.u ...
删除iCloud手机备份
问题描述系统9.3.5提示iCloud空间即将满,遂清理一下,发现空间主要被备份文件占用,于是想着删除备份文件,但是手机中的清理iCloud列表中并未找到相关备份文件.最终通过Mac电脑中的iClo ...
Openwrt单独编译某一个模块而不是整个固件
make package/rt2860v2/compile 就是在make menuconfig那个目录下执行此命令就会编译rt2860v2这个模块

win10下Anaconda3在虚拟环境python_version=3.5.3 中配置pyspark

win10下Anaconda3在虚拟环境python_version=3.5.3 中配置pyspark的更多相关文章

随机推荐

热门专题