Pandas是在Numpy基础上建立的新程序库,提供了一种高效的DataFrame数据结构 本质是带行标签 和 列标签.支持相同类型数据和缺失值的 多维数组 增强版的Numpy结构化数组 行和列不在只是简单的整数索引,还可以带上标签, 三个基本数据结构 Series DataFrame Index Series Series将一组数据和一组索引绑定在一起 可以通过values 和 index属性获取数据, 与Numpy数据的区别:Numpy数组通过隐式定义的整数索引获取数值,Pandas 的Se…
一.简介 Keras是有着自主的一套前端控制语法,后端基于tensorflow和theano的深度学习框架,因为其搭建神经网络简单快捷明了的语法风格,可以帮助使用者更快捷的搭建自己的神经网络,堪称深度学习框架中的sklearn,本文就将基于Keras,以手写数字数据集MNIST为演示数据,对多层感知机(MLP)的训练方法进行一个基本的介绍,而关于多层感知机的相关原理,请移步数据科学学习手札34:https://www.cnblogs.com/feffery/p/8996623.html,本文不再…
一.简介 在实际工作中,遇到数据中带有缺失值是非常常见的现象,简单粗暴的做法如直接删除包含缺失值的记录.删除缺失值比例过大的变量.用0填充缺失值等,但这些做法会很大程度上影响原始数据的分布或者浪费来之不易的数据信息,因此怎样妥当地处理缺失值是一个持续活跃的领域,贡献出众多巧妙的方法,在不浪费信息和不破坏原始数据分布上试图寻得一个平衡点,在R中用于处理缺失值的包有很多,本文将对最为广泛被使用的mice和VIM包中常用的功能进行介绍,以展现处理缺失值时的主要路径: 二.相关函数介绍 2.1  缺失值…
本文示例文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 开门见山,在pandas中,transform是一类非常实用的方法,通过它我们可以很方便地将某个或某些函数处理过程(非聚合)作用在传入数据的每一列上,从而返回与输入数据形状一致的运算结果. 本文就将带大家掌握pandas中关于transform的一些常用使用方式. 图1 2 pandas中的transform 在pandas中transform根…
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 我们在使用pandas分析处理时间序列数据时,经常需要对原始时间粒度下的数据,按照不同的时间粒度进行分组聚合运算,譬如基于每个交易日的股票收盘价,计算每个月的最低和最高收盘价. 而在pandas中,针对不同的应用场景,我们可以使用resample().groupby()以及Grouper()来非常高效快捷地完成此类任务. 图1 2 在pan…
本文示例文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 国庆期间,抽空给大家分享在geopandas中叠加各种在线瓦片底图的方法,来制作出更多样式的地图作品.话不多说,我们直接进入正题. 图1 2 在geopandas中叠加在线地图 我们需要配合contextily这个第三方库来辅助geopandas叠加在线地图,在geopandas已经被正确安装的情况下,使用pip install contexti…
本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 长久以来,在使用matplotlib进行绘图时,一直都没有比较方便的办法像R中的ggtext那样,向图像中插入整段的混合风格富文本内容,譬如下面的例子: 而几天前我在逛github的时候偶然发现了一个叫做flexitext的第三方库,它设计了一套类似ggtext的语法方式,使得我们可以用一种特殊的语法在matplotlib中构建整段富文本,…
注:很早之前就打算专门写一篇与Python数据可视化相关的博客,对一些基本概念和常用技巧做一个小结.今天终于有时间来完成这个计划了! 0. Python中常用的可视化工具 Python在数据科学中的地位,不仅仅是因为numpy, scipy, pandas, scikit-learn这些高效易用.接口统一的科学计算包,其强大的数据可视化工具也是重要组成部分.在Python中,使用的最多的数据可视化工具是matplotlib,除此之外还有很多其他可选的可视化工具包,主要包括以下几大类: matpl…
如果有一定的数据分析与机器学习理论与实践基础,<Python数据科学手册>这本书是绝佳选择. 是对以数据深度需求为中心的科学.研究以及针对计算和统计方法的参考书.很友好实用,结构很清晰.但不适合数据分析的入门的学习人员,尤其matplotlib与机器学习部分,虽点到为止切到要害,但没有一定的基础,很难通顺的走完每个章节,每个小节.而且不是查查文档,看看资料就能解决的. 中文版PDF,474页,带目录和书签,文字能够复制粘贴:附源代码. 英文版PDF,548页,带目录和书签,文字能够复制粘贴.…
2017数据科学报告:机器学习工程师年薪最高,Python最常用 2017-11-03 11:05 数据平台 Kaggle 近日发布了2017 机器学习及数据科学调查报告,针对最受欢迎的编程语言.不同国家数据科学家的平均年龄.不同国家的平均年薪等进行深度调查.此次调查共收到16000余份回复. 以下「AI脑力波」小编对该报告数据进行了梳理编译,供大家参考. 年龄 从全球范围来看,本次调查对象的平均年龄在30岁左右.在不同的国家,数值会有所差异,加拿大接受问卷调查的平均年龄为34岁,而中国的机器学…