PyCharm+Eclipse共用Anaconda的数据科学环境

CJZhaoSimons 2024-10-11 18:45:34 原文

1.安装anaconda2

　　安装好之后，本地python环境就采用anaconda自带的python2.7的环境。

2.安装py4j

　　在本地ctrl+r打开控制台后，直接使用pip安装py4j，因为anaconda默认是安装了pip的，当然也可以使用conda安装。

　　安装命令：pip install py4j

　　如果不安装py4j可能出现的问题？

答：因为Spark的Python版本的API依赖于py4j，如果不安装运行程序会抛出如下错误。

3.配置环境变量

　　配置PyCharm的环境变量主要配置两个变量一个是SPARK_HOME，另外一个是PYTHONPATH。

（1）.先打开Run Configurations

(创建一个项目，项目或python文件的左上角有该选项)

　　

（2）.编辑Environment variables

或者按下面的方式展开

菜单：File-->Settings (图来源于互联网~这里我用的是python2)

（3）.在Environment variables下增加spark和python的环境

　　增加SPARK_HOME目录与PYTHONPATH目录。

　　- SPARK_HOME:Spark安装目录

　　- PYTHONPATH:Spark安装目录下的Python目录

4.复制pyspark的包

编写Spark程序，复制pyspark的包，增加代码显示功能

为了让我们在PyCharm编写Spark程序时有代码提示和补全功能，需要将Spark的pyspark导入到Python中。在Spark的程序中有Python的包，叫做pyspark

pyspark包

Python导入第三方的包也很容易，只需要把相应的模块导入到指定的文件夹就可以了。
windows中将pyspark拷贝到Python的site-packages目录下（这里使用的是anaconda）

5.测试代码

import sys
from operator import add
 
from pyspark import SparkContext

logFile = "D:\\BigData\\Workspace\\PycharmProjects\\MachineLearning1\\word.txt"
sc = SparkContext("local", "PythonWordCount")
logData = sc.textFile(logFile).cache()
 
numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()
 
print("Lines with a: %i, lines with b: %i" % (numAs, numBs))

PyCharm+Eclipse共用Anaconda的数据科学环境的更多相关文章

（数据科学学习手札81）conda+jupyter玩转数据科学环境搭建
本文示例yaml文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介我们在使用Python进行数据分析时,很 ...
Manjaro折腾笔记：我的数据科学环境搭建之路
ss并且开机启动 0. 安装shadowsocks sudo pip install shadowsocks 1. 建立配置文件ss.json 我的位置是:/home/ray/Documents/sh ...
python和数据科学(Anaconda)
Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可 ...
《Python数据科学手册》
<Python数据科学手册>[美]Jake VanderPlas著陶俊杰译 Absorb what is useful, discard what is not, and add wh ...
干货！小白入门Python数据科学全教程
前言本文讲解了从零开始学习Python数据科学的全过程,涵盖各种工具和方法你将会学习到如何使用python做基本的数据分析你还可以了解机器学习算法的原理和使用说明先说一段题外话.我是一名数据 ...
python3 数据科学基础
第一章 1.Anaconda(最著名的python数据科学平台) 下面小伙伴们咱们来初初识下Anaconda吧 What is Anaconda???? 回答: (1).科学计算的平台 (2).有很多 ...
Python数据科学“冷门”库
Python是一种神奇的语言.事实上,它是近几年世界上发展最快的编程语言之一,它一次又一次证明了它在开发工作和数据科学立场各行业的实用性.整个Python系统和库是对于世界各地的用户(无论是初学者或者 ...
9 个鲜为人知的 Python 数据科学库
除了 pandas.scikit-learn 和 matplotlib,还要学习一些用 Python 进行数据科学的新技巧. Python 是一种令人惊叹的语言.事实上,它是世界上增长最快的编程语言之 ...
（数据科学学习手札50）基于Python的网络数据采集-selenium篇（上）
一.简介接着几个月之前的(数据科学学习手札31)基于Python的网络数据采集(初级篇),在那篇文章中,我们介绍了关于网络爬虫的基础知识(基本的请求库,基本的解析库,CSS,正则表达式等),在那篇文 ...

随机推荐

[OpenCV] Samples 02: Mat - 图像矩阵
前言一.简介 Ref:IplImage, CvMat, Mat 的关系 Mat是opencv2.0推出的处理图像的新的数据结构,现在越来越有趋势取代之前的cvMat和lplImage. 相比之下Ma ...
ios开发之--仿（微信）自定义表情键盘
先附上demo:https://github.com/hgl753951/CusEmoji.git 效果图如下:
删除腾讯游戏助手自动生成的文件aow_drv.log
解决办法: 管理员身份运行cmd,依次执行如下指令: net stop aow_drvdel C:\aow_drv.logmkdir C:\aow_drv.logattrib +s +h C:\aow ...
Ansible的Inventory管理
Ansible将可管理的服务器集合成为Inventory,Inventory的管理便是服务器的管理. hosts文件的位置: /etc/ansible/hosts 在命令行通过-i参数指定通过/et ...
gitlab 使用现有 nginx 服务器
gitlab 安装自带 nginx,如果想利用原有 nginx,可按如下操作: 8.0 版本 socket 文件位置有变动,感谢评论区的同学. nginx 增加虚拟主机配置 # gitlab sock ...
深入浅出MFC——MFC骨干程序（四）
1. 熟记MFC类层次结构: 2. AppWizard可以为我们制作出MFC程序骨干: 3. Document/View支撑你的应用程序:Document/View的价值在于,这些MFC类已经把一个应 ...
Hibernate系列之核心开发接口
一.概述所有的hibernate应用中都会访问5个核心接口,它们分别是: Configuration:配置hibernate,创建SessionFactory对象 SessionFactory:初始 ...
【MATLAB】评价二值分割结果的函数
根据PASCAL challenges的标准:intersection-over-union score,所写的matlab评价程序,处理二值图像. 其思想即分割结果与Ground Trueth的交集 ...
VIM 如何使用系统的剪切板
想要将系统剪贴板里的内容复制到 vi 编辑的文档中怎么办? 例如,在网页上复制了一段文字,想贴到本地的某个文件中. 使用 vi 打开本地文件,在输入模式下,按 Shift + Insert 详细可 ...
javascript学习之this
转自:https://www.cnblogs.com/pssp/p/5216085.html 例子1: function a(){ var user = "追梦子"; conso ...