利用python数据分析】的更多相关文章

小生今年研二,目前主要从事软件工程数据挖掘与分析.之前一直苦于找不到一个从数据预处理.数据分析.数据可视化和软件建模的统一平台.因此,小生辗转反辙学习了java,R语言,python,scala等等.最后忽然发现python正是小生苦苦寻觅的“稀世珍宝”.在这里主要总结利用python分析数据的一些工具包和相关资料,还望各位指正共同进步. 主要的工具包: numpy: http://www.numpy.org/                                           …
1 重新生成索引 如果某个索引值不存在就引入缺失值 from pandas import Series,DataFrame import pandas as pd import numpy as np obj=Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c']) obj #重新生成索引 obj2=obj.reindex(['a','b','c','d','e']) obj2 a使用method的ffill可以实现前向值填充,效果如下 #前向填充 o…
1 Series a:类似一维数组的对象,每一个数据与之相关的数据标签组成 b:生成的左边为索引,不指定则默认从0开始. from pandas import Series,DataFrame import pandas as pd #series 一组数据与相关得数据标签组成 obj=Series([,,-,]) obj#索引在左边 值在右边 c:可以通过values和index属性获取数组的表示形式和索引对象 obj.values#array([ , , -, ], dtype=int64)…
这是一篇的数据的分析的典型案列,本人也是经历一次从无到有的过程,倍感珍惜,所以将其详细的记录下来,用来帮助后来者快速入门,,希望你能看到最后! 需求:对obo文件进行解析,输出为json字典格式 数据的格式如下: 我们设定 一个trem or  typedef为一条标签,一行为一条记录或者是键值对,以此为标准! 下面我们来对数据进行分析: 数据集中一共包含两种标签[trem] and [typedef]两种标签,每个标签下边有多个键值对,和唯一的标识符id,每行记录以“/n”结尾,且每条标签下下…
2 DataFrame a:通过传入一个等长的列表构成DataFrame 自动加上索引 data={'state':['ohio','ohio','ohio','Nevada','Nevada'], ,,,,], 'pop':[1.5,1.7,3.6,2.1,2.9]} frame=DataFrame(data) b:指定顺序序列(之前是按照默认排序) DataFrame(data,columns=['year','state','pop']) c:传入数据的时候列不存在 那么就是NAN d:从…
一.Numpy的ndarray:一种多维数组 ndarray是一个通用的同构多维数据容器,其所有元素必须是相同的类型.每个数组都有一个shape(一个表示各维度的元组)和dtype(一个用于说明数据数据类型的对象). 创建ndarray 使用array函数: 接受一切序列型对象,然后产生一个新的包含有传入数据的Numpy数组,嵌套序列将会被转化为一个多维数组 import numpy as np data = [[1,2,3,4],[5,6,7,8],[9,10,11,12]] arr2 = n…
打算入坑, python数据分析 , 所以下载了 <利用python数据分析>的电子书, 影印版 , 14年出版的 , 现在有很多工具对不上号, 但是整体思想还是不变的 , 所以准备工作要做好, 第一步就是安装常用个库,  https://pypi.python.org/pypi 因为墙所以这个链接下载不下来 , 知乎上翻了几篇, 发现他们都用豆瓣的pypi源 , 只需要简单的两步   第一步:  cmd命令行  python -m pip install -i https://pypi.do…
pandas 提供了三种主要方法可以对数据进行合并: pandas.merge()方法:数据库风格的合并: pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起: 实例方法combine_first()方法:合并重叠数据. pandas.merge()方法:数据库风格的合并   例如,通过merge()方法将两个DataFrame合并: on='name'的意思是将name列当作键: 默认情况下,merge做的是内连接(inner),即键的交集. 其他方式还有左连接(l…
概念理解 索引即通过一个无符号整数值获取数组里的值. 切片即对数组里某个片段的描述. 一维数组 一维数组的索引 一维数组的索引和Python列表的功能类似: 一维数组的切片 一维数组的切片语法格式为array[index1:index2],意思是从index1索引位置开始,到index2索引(不包括index2)位置结束的一段数组.例如: 当把一个值赋值为一个切片时,该值会作用于此数组片段里每一个元素,例如: 二维数组 二维数组的索引 当以一维数组的索引方式访问一个二维数组的时候,获取的元素不在…
pandas 对象拥有一些常用的数学和统计方法.   例如,sum() 方法,进行列小计:   sum() 方法传入 axis=1 指定为横向汇总,即行小计:   idxmax() 获取最大值对应的索引:   还有一种汇总是累计型的,cumsum(),比较它和 sum() 的区别: unique() 方法用于返回数据里的唯一值:   value_counts() 方法用于统计各值出现的频率:   isin() 方法用于判断成员资格:   安装步骤已经在首篇随笔里写过了,这里不在赘述.利用 Pyt…