为什么说 Python 是数据科学的发动机(一)发展历程(附视频中字) 在PyData Seattle 2017中,Jake Vanderplas介绍了Python的发展历程以及最新动态.在这里我们把内容分成上下两篇,先给大家带来上篇--Python的发展历程. 主讲人: Jake Vanderplas是华盛顿大学eScience研究所物理科学研究的负责人.该研究所负责跨学科项目,旨在支持科学领域在数据方面发现.Jake的研究领域包括天文学.天体物理学.机器学习以及可伸缩计算.此外,他是许多开源…
Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可能会问,很多现有的PyData包推荐列表怎么样?我觉得对新手来说提供太多的选择可能会受不了.因此这里不会提供推荐列表,我要讨论的范围很窄,只集中于10%的工具,但它们可以完成你90%的工作.当你掌握这些必要的工具后,你就可以浏览PyData工具的长列表了,选择自己接下来要使用的. 值得一提的是,我介…
http://python.jobbole.com/80853/ Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可能会问,很多现有的PyData包推荐列表怎么样?我觉得对新手来说提供太多的选择可能会受不了.因此这里不会提供推荐列表,我要讨论的范围很 窄,只集中于10%的工具,但它们可以完成你90%的工作.当你掌握这些必要的工具后,你就可以浏览Py…
*从本篇开始所有文章的数据和代码都已上传至我的github仓库:https://github.com/CNFeffery/DataScienceStudyNotes 一.简介 pandas提供了很多方便简洁的方法,用于对单列.多列数据进行批量运算或分组聚合运算,熟悉这些方法后可极大地提升数据分析的效率,也会使得你的代码更加地优雅简洁,本文就将针对pandas中的map().apply().applymap().groupby().agg()等方法展开详细介绍,并结合实际例子帮助大家更好地理解它们…
一.简介 kepler.gl是由Uber开发的进行空间数据可视化的开源工具,是Uber内部进行空间数据可视化的默认工具,通过其面向Python开放的接口包keplergl,我们可以在jupyter notebook中通过书写Python代码的方式传入多种格式的数据,在其嵌入notebook的交互窗口中使用其内建的多种丰富的空间数据可视化功能,本文就将针对在jupyter notebook中使用keplergl的基本用法进行介绍. 二.利用keplergl调用kepler.gl 2.1 从一个小例…
本文示例文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 matplotlib作为数据可视化的利器,被广泛用于数据分析之中,但不太友好的是matplotlib中书写非英文文字内容时,如果不事先对字体进行相关设置,会发现绘制出的诸如中文等均显示为方块乱码,而今天的内容,我们就来小小总结一下matplotlib中字体设置的常用技巧. 图1 2 在matplotlib中设置字体的常用方法 在matplotli…
1.matplotlib模块生成直线图和散点图 >>>import matplotlib.pyplot as plt >>>year = [1950,1970,1990,2010]#作为x轴 >>>pop = [2.519,3.692,5.263,6.972]]#作为Y轴 >>>plt.plot(year,pop)#直线图[<matplotlib.lines.Line2D object at 0x000001A6BA9874E0…
一.简介 seaborn是Python中基于matplotlib的具有更多可视化功能和更优美绘图风格的绘图模块,当我们想要探索单个或一对数据分布上的特征时,可以使用到seaborn中内置的若干函数对数据的分布进行多种多样的可视化,本文以jupyter notebook为编辑工具,针对seaborn中的kdeplot.rugplot.distplot和jointplot,对其参数设置和具体用法进行详细介绍. 二.kdeplot seaborn中的kdeplot可用于对单变量和双变量进行核密度估计并…
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 大家好我是费老师,前不久我在一篇文章中给大家分享过geopandas在其0.11版本中为我们带来的一些重要新特性,其中提到过新的矢量读写后端,使得我们在read_file()以及to_file()中添加参数engine='pyogrio'即可获得500%的性能提升. 而新引擎带来的不仅是性能上的大幅提升,还带来了诸多实用功能以方便我们读写常见矢量…
一.简介 数据库管理系统(DBMS)最重要的功能就是提供数据查询,即用户根据实际需求对数据进行筛选,并以特定形式进行显示.在Microsoft SQL Serve 2012 中,可以使用通用的SELECT语句进行查询操作,该语句具有非常灵活的使用方式和丰富的功能,即可以完成简单的单表查询,也可以完成复杂的连接查询和嵌套查询,本文就将对常用的大多数SQL中的数据查询语句进行总结和演示: 二.实操部分 本节中使用到的数据是美团的商家信息数据,隶属于数据库practice下的表T: 2.1 使用SEL…