机器学习 - pycharm, pyspark, spark集成篇

AS WE ALL KNOW，学机器学习的一般都是从python+sklearn开始学，适用于数据量不大的场景（这里就别计较“不大”具体指标是啥了，哈哈）

数据量大了，就需要用到其他技术了，如：spark, tensorflow，当然也有其他技术，此处略过一坨字...

先来看看如何让这3个集成起来吧（WINDOWS环境）：pycharm(python开发环境), pyspark.cmd(REPL命令行接口), spark(spark驱动、MASTER等)

download Anaconda, latest version, which 64bit support for windows, 这里必须安装64位版本的Anaconda，因为后面tensorflow只支持64位的

https://www.continuum.io/downloads/

安装Anaconda，都是默认选项就行

dowload pycharm from jetbrain site, and install (please do it by yourself)，这个很简单，直接略过

接下来是下载spark，我下的是最新版2.1.0的 http://spark.apache.org/downloads.html

解压缩后把它复制到一个容易找的目录，我这是C:\spark-2.1.0-bin-hadoop2.7

这个时候如果直接双击bin下的spark-shell.cmd文件的话是会报错的，主要原因是没有winutils.exe这东西(用来在windows环境下模拟文件操作的)，因此还需要做几个小步骤才能正常启动

1. 设置一个假的hadoop目录，在这个目录的bin下放刚才说的那个winutils.exe文件(需要自己创建bin目录)

2. 设置环境变量HADOOP_HOME，值为这个假的hadoop目录

3. 拷贝winutils.exe到这个bin里，下载

OK，这时可以双击spark-shell.cmd了，如下：

HOHO, ==，==，我们不是要搞PYTHON环境嘛，怎么搞scala了，别急，先搞scala是因为先要把基本的给走通，再去搞python环境的接口。

python接口的REPL是这个文件，pyspark.cmd，双击，也报错...

别急，这里是因为python版本问题，anaconda最新版的python解释器版本是3.6.1，这个版本的spark不支持，需要降低版本到3.5

卸载python? 不用，用anaconda的环境切换就行了

1. 先创建一个新的开发环境: conda create -n my_new_env_python35

2. 激活这个新的开发环境: activate my_new_env_python35

3. 在这个新的开发环境中安装python 3.5: conda install python=3.5

这时python3.5版本的解释器就算是安装完成了，默认目录在C:\ProgramData\Anaconda3\envs\my_new_env_python35\python.exe

然后就是需要把spark的python支持包复制到相应的路径中了，从下图1复制到my_new_env_python35环境的Lib\site-packages目录下

接下来需要把python默认版本改成python3.5，需要修改PATH路径，把python3.5的路径放在第一个查找路径下就行了

然后就开始整pycharm开发环境了。

首先肯定是新建一个python项目了，然后改设置，用来指定python解释器的路径，菜单：File-->Settings

接着设置运行时候的配置参数

漏了python调用pyspark的代码了，代码如下：

import sys

from operator import add

from pyspark import SparkContext

if __name__ == "__main__":

    sc = SparkContext(appName="PythonWordCount")

    lines = sc.textFile('words.txt')

    count=lines.count()

    print(count)

    counts = lines.flatMap(lambda x: x.split(' ')) \

                  .map(lambda x: (x, 1)) \

                  .reduceByKey(add)

    output = counts.collect()

    for (word, count) in output:

        print("%s: %i" % (word, count))

    sc.stop()

至此，python环境算是搞定了。

机器学习 - pycharm, pyspark, spark集成篇的更多相关文章

机器学习 - 开发环境安装pycharm + pyspark + spark集成篇
AS WE ALL KNOW,学机器学习的一般都是从python+sklearn开始学,适用于数据量不大的场景(这里就别计较“不大”具体指标是啥了,哈哈) 数据量大了,就需要用到其他技术了,如:spa ...
PyCharm搭建Spark开发环境 + 第一个pyspark程序
一, PyCharm搭建Spark开发环境 Windows7, Java 1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop 2.7.6 通常情况下,Spark开发 ...
Spark：利用Eclipse构建Spark集成开发环境
前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上 ...
spark2.2.1安装、pycharm连接spark配置
一.单机版本Spark安装 Win10下安装Spark2.2.1 1. 工具准备 JDK 8u161 with NetBeans 8.2: http://www.oracle.com/technetw ...
spark集成hive遭遇mysql check失败的问题
问题: spark集成hive,启动spark-shell或者spark-sql的时候,报错: INFO MetaStoreDirectSql: MySQL check failed, assumin ...
用好lua+unity，让性能飞起来——luajit集成篇/平台相关篇
luajit集成篇大家都知道luajit比原生lua快,快在jit这三个字上. 但实际情况是,luajit的行为十分复杂.尤其jit并不是一个简单的把代码翻译成机器码的机制,背后有很多会影响性能的因 ...
持续集成篇_08_Hudson持续集成服务器的使用（自动化编译、分析、打包、部署）
持续集成篇_08_Hudson持续集成服务器的使用(自动化编译.分析.打包.部署) 1.创建任务 svn用户验证验证通过 *****五颗*表示每分钟检查svn路径是否有变更,有变更就会重新构建,相当 ...
最全Pycharm教程（11）——Pycharm调试器之断点篇
最全Pycharm教程(1)--定制外观最全Pycharm教程(2)--代码风格最全Pycharm教程(3)--代码的调试.执行最全Pycharm教程(4)--有关Python解释器的相关配置 ...
【机器学习速成宝典】模型篇02线性回归【LR】（Python版）
目录什么是线性回归最小二乘法一元线性回归多元线性回归什么是规范化 Python代码(sklearn库) 什么是线性回归(Linear regression) 引例假设某地区租房价格只与房屋 ...

随机推荐

Python系列之heapq内置模块
heapq 是 python 的内置模块,源码位于 Lib/heapq.py ,该模块提供了基于堆的优先排序算法. 堆的逻辑结构就是完全二叉树,并且二叉树中父节点的值小于等于该节点的所有子节点的值.这 ...
headfirst设计模式（2）—观察者模式
定义观察者模式(有时又被称为发布(publish)-订阅(Subscribe)模式,在此种模式中,一个目标物件管理所有相依于它的观察者物件,并且在它本身的状态改变时主动发出通知.这通常透过呼叫各观察 ...
context:annotation-config, mvc:annotation-driven, context:compont-scan 区别
当我们需要使用BeanPostProcessor时,直接在Spring配置文件中定义这些Bean显得比较笨拙,例如: 使用@Autowired注解,必须事先在Spring容器中声明AutowiredA ...
C# 基础控制台程序的创建，输出，输入，定义变量，变量赋值，值覆盖，值拼接，值打印
基础学习内容有 Console.WriteLine("要输出的内容");//往外输出内容的 Console.ReadLine(); //等待用户输入,按回车键结束,防止程序闪退控 ...
C#丨爬虫基础
在前几天看到一片公众号的文章是关于.NET玩爬虫. 所以今天小编索性来try一下,恰好小编最近在关注房价这一块的,索性就写了一个例子抓取房产信息的. 不善言辞的小编直接给出代码吧!相信读者也等不及了. ...
configparser配置文件模块
1.configparser的作用 mysql等很多文件的配置如下: [DEFAULT]ServerAliveInterval = 45Compression = yesCompressionLeve ...
js方法提纲
Math.random() 日期时间函数(需要用变量调用):var b = new Date(); //获取当前时间b.getTime() //获取时间戳b.getFullYear() //获取年份b ...
centOS7 mini配置linux服务器（三）配置防火墙以及IPtables切换
一.firewall介绍 CentOS 7中防火墙是一个非常的强大的功能,在CentOS 6.5中在iptables防火墙中进行了升级了. 1.官方介绍 The dynamic firewall da ...
使用Compute Shader加速Irradiance Environment Map的计算
Irradiance Environment Map基本原理 Irradiance Environment Map(也叫Irradiance Map或Diffuse Environment Map), ...
SQLServer提取日期中的年月日及其他格式
提取年:datepart(yy,getdate())提取月:datepart(mm,getdate())提取日:datepart(dd,getdate())提取日期格式:Select CONVERT( ...

机器学习 - pycharm, pyspark, spark集成篇

机器学习 - pycharm, pyspark, spark集成篇的更多相关文章

随机推荐

热门专题