1.安装anaconda2 安装好之后,本地python环境就采用anaconda自带的python2.7的环境. 2.安装py4j 在本地ctrl+r打开控制台后,直接使用pip安装py4j,因为anaconda默认是安装了pip的,当然也可以使用conda安装. 安装命令:pip install py4j 如果不安装py4j可能出现的问题? 答:因为Spark的Python版本的API依赖于py4j,如果不安装运行程序会抛出如下错误.       3.配置环境变量 配置PyCharm的环境变…
本文示例yaml文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 我们在使用Python进行数据分析时,很多时候都在解决环境搭建的问题,不同版本.依赖包等问题经常给数据科学工作流的搭建和运转带来各种各样令人头疼的问题,本文就将基于笔者自己摸索出的经验,以geopandas环境的搭建为例,教你使用conda+jupyter轻松搞定环境的搭建.管理与拓展. 图1 2 虚拟环境的搭建与使用 2.1 使用con…
ss并且开机启动 0. 安装shadowsocks sudo pip install shadowsocks 1. 建立配置文件ss.json 我的位置是:/home/ray/Documents/shadowsocks/ss.json { "server":"*.*.*.*", "server_port":***, "local_port":1081, "password":"*****"…
Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可能会问,很多现有的PyData包推荐列表怎么样?我觉得对新手来说提供太多的选择可能会受不了.因此这里不会提供推荐列表,我要讨论的范围很窄,只集中于10%的工具,但它们可以完成你90%的工作.当你掌握这些必要的工具后,你就可以浏览PyData工具的长列表了,选择自己接下来要使用的. 值得一提的是,我介…
<Python数据科学手册>[美]Jake VanderPlas著 陶俊杰译 Absorb what is useful, discard what is not, and  add what is uniquel what own.(取其精华,去其糟粕,再加点自己的独创.) 本书在GitHub上开源:https://github.com/jakevdp/PythonDataScienceHandbook 作者在博客发布Notebook的HTML版本:https://jakevdp.githu…
前言 本文讲解了从零开始学习Python数据科学的全过程,涵盖各种工具和方法 你将会学习到如何使用python做基本的数据分析 你还可以了解机器学习算法的原理和使用 说明 先说一段题外话.我是一名数据工程师,在用SAS做分析超过5年后,决定走出舒适区,寻找其它有效的数据分析工具,很快我发现了Python! 我非常喜欢编程,这是我真正喜欢做的事情.事实证明,编程并没有想象中的那么难. 我在一周之内学习了Python的基本语法,接着我一方面继续深入探索Python,另一方面帮助其他人学习这门语言.P…
第一章 1.Anaconda(最著名的python数据科学平台) 下面小伙伴们咱们来初初识下Anaconda吧 What is Anaconda???? 回答: (1).科学计算的平台 (2).有很多方便的包可供咱们使用 (3).跨平台:Mac \Linux\Windows (4).最重要的是:开源免费还有社区供小伙伴们交流 2.安装Anaconda 下载地址:https://mirror.tuna.tsinghua.edu.cn/help/anaconda/(咱们到清华的国内镜像下载快些)[g…
Python是一种神奇的语言.事实上,它是近几年世界上发展最快的编程语言之一,它一次又一次证明了它在开发工作和数据科学立场各行业的实用性.整个Python系统和库是对于世界各地的用户(无论是初学者或者高级)都是一个恰当的选择.其成功和受欢迎的原因之一是它强大的库,这些库使其具有动态性和快速性. 在本文中,我们将看到一些除了常用的像pandas.scikit-learn. matplotlib之外的数据科学任务的Python库.虽然一看见像pandas,scikit-learn这些库就让人脑子浮现…
除了 pandas.scikit-learn 和 matplotlib,还要学习一些用 Python 进行数据科学的新技巧. Python 是一种令人惊叹的语言.事实上,它是世界上增长最快的编程语言之一.它一次又一次地证明了它在各个行业的开发者和数据科学者中的作用.Python 及其库的整个生态系统使其成为全世界用户的恰当选择,无论是初学者还是高级用户.它成功和受欢迎的原因之一是它的一组强大的库,使它如此动态和快速. 在本文中,我们将看到 Python 库中的一些数据科学工具,而不是那些常用的工…
一.简介 接着几个月之前的(数据科学学习手札31)基于Python的网络数据采集(初级篇),在那篇文章中,我们介绍了关于网络爬虫的基础知识(基本的请求库,基本的解析库,CSS,正则表达式等),在那篇文章中我们只介绍了如何利用urllib.requests这样的请求库来将我们的程序模拟成一个请求网络服务的一端,来直接取得设置好的url地址中朴素的网页内容,再利用BeautifulSoup或pyspider这样的解析库来对获取的网页内容进行解析,在初级篇中我们也只了解到如何爬取静态网页,那是网络爬虫…