一:汇总和计算描述统计

  pandas对象拥有一组常用的数据和统计方法,用于从Series中提取单个值(sum,mean)或者从DataFrame的行或者列中提取一个Series对应的Numpy数组方法相比

  调用sum可以返回一个小计,传入axis=1会按照行进行计算, axis=0,按照列进行计算

  sum或者mean里面可与约简方法的选项

    axis  约简的轴,DateFrame的行为0,列为1

    skipna 排除缺失值,默认为TRUE

    level  如果轴层次化索引的,则根据level分组约简

  还有些方法是间接统计,idxmin达到最小值索引,idxmax达到最大值索引

  cumsum  累计型统计,

  describe 既不是累计型,也不是约简行,它用于一次性产出多个汇总统计,对于非数值型数据,describe 会产生另一种汇总,查看最下图

  描述汇总统计的方法汇总

  count     非NA值的数量

  describe  针对Series 或者DataFrame列计算汇总统计

  min,max 计算最小值和最大值

  argmin  argmax  计算能够获取得到最小值和最大值的索引位置(整数)

  idxmin  idxman    计算能够获取最小值和最大值的索引值

  quantile               计算样本的分位数(0到1)

  sum   值的总和

  mean  值的平均数

  median  值的算术中位数(50%分位数)

  mad   根据平均值计算平均绝对离差

  var  样本值的方差

  std  样本值的标准差

  skew  样本值的偏度

  kurt 样本值的累计

  cumsum  样本值的累计和

  cummin  cummax  样本值的累计最大值和累计最小值

  cumprod   样本值的累计积

  diff  计算一阶差分(对时间序列很有用)

  pct_change  计算百分数变化

  

  

 由于NA值会自动去吃,如果禁止该功能可以采用skipna=false

  

  

二:相关系数与协方差

  pass

三:唯一值,值计数,以及成员资格

  unique  可以得到唯一值

  value_counts   返回一个Series  其索引为唯一值,其值为频率,按计数值降序排序

  isin  计算一个表示Series各值是否包含传入值序列中的布尔数据类型

  

   

  

  

四:处理缺失数据

  NA处理方法:

  dropna  根据各标签的值中是否存在缺失数据对轴标签进行过滤,可通过阀值调节对缺失值的容忍度

  fillna  用于指定值或者插入值方法 如fill和bfill 填充数据缺失值

  isnull  返回一个布尔值对象,这些布尔值表示哪些值是缺失值,其中None也会被当做缺失值处理

  notnull  isnull的否定式

  

  

  

  

五:滤除缺失数据

  比如上面提到的,,直接用dropna删除最直接,也可以通过notnull,下面总结一些常用的方法

   Series中处理缺失值 dropna   notnull

  dataframe处理缺失值dropna会将带有NA全部丢弃,传入参数how=’all'  只会丢弃全部为NA的行,看下面例子

                         传入参数how=‘all'  axis=1  只会丢去全部为NA列的

  另一个滤除DataFrame行的问题涉及时间序列数据,假设你只是想留下一部分观测数据,可以用tjresh参数实现

  

  

  

  

  另一个滤除DataFrame行的问题涉及时间序列数据,假设你只是想留下一部分观测数据,可以用tjresh参数实现

  

  

六:填充缺失值  

  可以选用参数fillna

  fillna选择参数:

  value  用于填充缺失值的标量值或者字典对象

  method  插值方式 如果函数调用时未指定其他参数的话,默认为ffill  

  axis  待填充的轴,默认axis=0

  inplace  修改调用者对象而不产生副本

  limit  (对于前向和后向填充)可以连续填充的最大数量

  

  

  

  

  

  fillna 可以实现很多功能,比如里面可以传sum,mean等

  

七:层次化索引 

  带有MultiIndex索引的Series的格式化输出形式。索引之间的’间隔‘表示’直接使用上面的标签‘ 

  

  

  层次化索引在数据重塑和基于分组的操作(如透视表生成)中扮演着重要的角色,比如说,这段数据可以通过其unstack方法被重新安排带一个DataFrame中

  

  对于DataFrame

  

八:重排分级顺序

  需要重新调整某条轴上各级别的顺序,或者指定级别上的值对数据进行排序,swaplevel接收两个级别编号或者名称,并返回一个交互啦级别的新对象,而sortlevel则根据单个级别中的值对数据进行排序,交换级别是,常常会用到sortlevel,这样的结果就是有序的

  

九:根据级别汇总统计

  根据DataFrame和Series的描述和汇总统计都有一个level的选项,它用于指定在某条轴上求和的级别

  

  

  

pandas数据分析第二天的更多相关文章

  1. 小象学院Python数据分析第二期【升级版】

    点击了解更多Python课程>>> 小象学院Python数据分析第二期[升级版] 主讲老师: 梁斌 资深算法工程师 查尔斯特大学(Charles Sturt University)计 ...

  2. 参考《利用Python进行数据分析(第二版)》高清中文PDF+高清英文PDF+源代码

    第2版针对Python 3.6进行全面修订和更新,涵盖新版的pandas.NumPy.IPython和Jupyter,并增加大量实际案例,可以帮助高效解决一系列数据分析问题. 第2版中的主要更新了Py ...

  3. Python学习教程:Pandas中第二好用的函数

    从网上看到一篇好的文章是关于如何学习python数据分析的迫不及待想要分享给大家,大家也可以点链接看原博客.希望对大家的学习有帮助. 本次的Python学习教程是关于Python数据分析实战基础相关内 ...

  4. python中pandas数据分析基础3(数据索引、数据分组与分组运算、数据离散化、数据合并)

    //2019.07.19/20 python中pandas数据分析基础(数据重塑与轴向转化.数据分组与分组运算.离散化处理.多数据文件合并操作) 3.1 数据重塑与轴向转换1.层次化索引使得一个轴上拥 ...

  5. 利用Python进行数据分析(第二版)电子版书籍分享

    资料下载地址: 链接:https://pan.baidu.com/s/1y1C0bJPkSn7Sv6Eq9G5_Ug 提取码:vscu <利用Python进行数据分析(第二版)>高清中文版 ...

  6. 动态可视化 数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题

    动态可视化 数据可视化之魅D3,Processing,pandas数据分析,科学计算包Numpy,可视化包Matplotlib,Matlab语言可视化的工作,Matlab没有指针和引用是个大问题 D3 ...

  7. pyhton pandas数据分析基础入门(一文看懂pandas)

    //2019.07.17 pyhton中pandas数据分析基础入门(一文看懂pandas), 教你迅速入门pandas数据分析模块(后面附有入门完整代码,可以直接拷贝运行,含有详细的代码注释,可以轻 ...

  8. pyhton中pandas数据分析模块快速入门(非常容易懂)

    //2019.07.16python中pandas模块应用1.pandas是python进行数据分析的数据分析库,它提供了对于大量数据进行分析的函数库和各种方法,它的官网是http://pandas. ...

  9. python数据分析第二版:pandas

    一:pandas 两种数据结构:series和dataframe series:索引(索引自动生成)和标签(人为定义)组成---返回一个对象 obj = pd.Series([1,2,3,4]) ob ...

随机推荐

  1. C# ZPL II 命令打印标签

    public class BarPrinter { public static byte[] ZPLPrinter(string p_title = "", string p_sp ...

  2. CCNA2.0笔记_NAT

    NAT:园区网内的PC是私有地址,整个园区网共享一个公有IP,如果园区网内的PC不做NAT,那么在发数据包给外网的时候会出现传输问题 NAT的原理:改变IP包头,使目的地址.源地址或两个地址在包头中被 ...

  3. PL/SQL查询结果中文乱码

    新建变量,设置变量名:NLS_LANG,变量值:SIMPLIFIED CHINESE_CHINA.ZHS16GBK,确定即可

  4. 查看和修改Oracle数据库服务器端的字符集

    Oracle数据库查看和修改服务器端的字符集的方法是本文主要要介绍的内容,接下来救让我们一起来了解一下这部分内容. A.oracle server 端字符集查询 select userenv('lan ...

  5. php的颜色定义表

    http://outofmemory.cn/code-snippet/1960/php-color-define-table <? /////////////////////////////// ...

  6. 质问微软 WP8.1开发HTTPS 真费劲

    本人用C#多年,WPF2年,一直想做点应用为WP生态贡献一点力量,最近终于有机会接触了 家里的本子是2年前的低压I3,不支持虚拟化,一直没有真机.最近同事妈妈换下来一个820给我拿来做开发用,非常感谢 ...

  7. linux grub 使用

    linux kernel 格式之 vmlinux.zImage.bzImage.vmlinuz.uImage vmlinux     是编译出来的未经压缩的原始内核文件,是linux接受的可执行文件格 ...

  8. STM32F10x_模拟I2C读写EEPROM

    Ⅰ.写在前面 说到IIC,大家都应该不会陌生,我们初学单片机的时候或多或少都知道或了解过,甚至使用I2C控制过器件.但是,有多少人真正去深入理解,或者深入研究过I2C通信协议呢? 1.我们有必要学习I ...

  9. Ubuntu SVN服务器的搭建与配置(转)

    Ubuntu SVN服务器的搭建与配置 一.         安装 sudo apt-get install subversion sudo apt-get install libapache2-sv ...

  10. Java动态代理原理及其简单应用

    概念 代理对象和被代理对象一般实现相同的接口,调用者与代理对象进行交互.代理的存在对于调用者来说是透明的,调用者看到的只是接口.代理对象则可以封装一些内部的处理逻辑,如访问控制.远程通信.日志.缓存等 ...