Pandas高级教程之:稀疏数据结构】的更多相关文章

目录 简介 Spare data的例子 SparseArray SparseDtype Sparse的属性 Sparse的计算 SparseSeries 和 SparseDataFrame 简介 如果数据中有很多NaN的值,存储起来就会浪费空间.为了解决这个问题,Pandas引入了一种叫做Sparse data的结构,来有效的存储这些NaN的值. Spare data的例子 我们创建一个数组,然后将其大部分数据设置为NaN,接着使用这个数组来创建SparseArray: In [1]: arr…
Pandas高级教程之:GroupBy用法 目录 简介 分割数据 多index get_group dropna groups属性 index的层级 group的遍历 聚合操作 通用聚合方法 同时使用多个聚合方法 NamedAgg 不同的列指定不同的聚合方法 转换操作 过滤操作 Apply操作 简介 pandas中的DF数据类型可以像数据库表格一样进行groupby操作.通常来说groupby操作可以分为三部分:分割数据,应用变换和和合并数据. 本文将会详细讲解Pandas中的groupby操作…
目录 简介 使用concat 使用append 使用merge 使用join 覆盖数据 简介 Pandas提供了很多合并Series和Dataframe的强大的功能,通过这些功能可以方便的进行数据分析.本文将会详细讲解如何使用Pandas来合并Series和Dataframe. 使用concat concat是最常用的合并DF的方法,先看下concat的定义: pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None,…
目录 简介 创建text的DF String 的方法 columns的String操作 分割和替换String String的连接 使用 .str来index extract extractall contains 和 match String方法总结 简介 在1.0之前,只有一种形式来存储text数据,那就是object.在1.0之后,添加了一个新的数据类型叫做StringDtype .今天将会给大家讲解Pandas中text中的那些事. 创建text的DF 先看下常见的使用text来构建DF…
目录 简介 NaN的例子 整数类型的缺失值 Datetimes 类型的缺失值 None 和 np.nan 的转换 缺失值的计算 使用fillna填充NaN数据 使用dropna删除包含NA的数据 插值interpolation 使用replace替换值 简介 在数据处理中,Pandas会将无法解析的数据或者缺失的数据使用NaN来表示.虽然所有的数据都有了相应的表示,但是NaN很明显是无法进行数学运算的. 本文将会讲解Pandas对于NaN数据的处理方法. NaN的例子 上面讲到了缺失的数据会被表…
目录 简介 创建category 使用Series创建 使用DF创建 创建控制 转换为原始类型 categories的操作 获取category的属性 重命名categories 使用add_categories添加category 使用remove_categories删除category 删除未使用的cagtegory 重置cagtegory category排序 重排序 多列排序 比较操作 其他操作 简介 Pandas中有一种特殊的数据类型叫做category.它表示的是一个类别,一般用在…
目录 简介 基础画图 其他图像 bar stacked bar barh Histograms box Area Scatter Hexagonal bin Pie 在画图中处理NaN数据 其他作图工具 散点矩阵图Scatter matrix 密度图Density plot 安德鲁斯曲线Andrews curves 平行坐标Parallel coordinates 滞后图lag plot 自相关图Autocorrelation plot Bootstrap plot RadViz 图像的格式 去…
目录 简介 变动百分百 Covariance协方差 Correlation相关系数 rank等级 简介 数据分析中经常会用到很多统计类的方法,本文将会介绍Pandas中使用到的统计方法. 变动百分百 Series和DF都有一个pct_change() 方法用来计算数据变动的百分比.这个方法在填充NaN值的时候特别有用. ser = pd.Series(np.random.randn(8)) ser.pct_change() Out[45]: 0 NaN 1 -1.264716 2 4.12500…
目录 简介 滚动窗口 Center window Weighted window 加权窗口 扩展窗口 指数加权窗口 简介 在数据统计中,经常需要进行一些范围操作,这些范围我们可以称之为一个window .Pandas提供了一个rolling方法,通过滚动window来进行统计计算. 本文将会探讨一下rolling中的window用法. 滚动窗口 我们有5个数,我们希望滚动统计两个数的和,那么可以这样: In [1]: s = pd.Series(range(5)) In [2]: s.rolli…
目录 简介 常用选项 get/set 选项 经常使用的选项 最大展示行数 超出数据展示 最大列的宽度 显示精度 零转换的门槛 列头的对齐方向 简介 pandas有一个option系统可以控制pandas的展示情况,一般来说我们不需要进行修改,但是不排除特殊情况下的修改需求.本文将会详细讲解pandas中的option设置. 常用选项 pd.options.display 可以控制展示选项,比如设置最大展示行数: In [1]: import pandas as pd In [2]: pd.opt…