Pandas 可以对 Series 与 DataFrame 进行快速的描述性统计,方便快速了解数据的集中趋势和分布差异。源Excel文件descriptive_statistics.xlsx:

一、描述性统计汇总df.describe()

  1. df.describe(percentiles=None, include=None, exclude=None)

参数说明:

  • percentiles,百分位数,默认为[.25, .5, .75],即上下四分位数和中位数,其中,中位数一定输出;
  • include,控制描述性统计输出包含的内容。

    数值型和离散型特征数据(定序数据和定类数据)

    默认值:None,即只输出数值型数据列的统计信息(count、mean、std、min、百分位数、max)。

    'all':输入的所有列的统计信息。

    'O':只输出 object(字符、定类数据)的统计信息:count、unique(分类分组数量)、top(出现次数最多的类别)、freq(top出现的频数)
  • exclude,和参数include是相反的,表示不输出哪些内容。
  1. df.describe() # 默认:数值型数据,上下四分位和中位数

  1. df.describe([]) # 只输出中位数
  2. df.describe([.4]) # 中位数和40%分位数

  1. # 指定类型:只输出字符型离散数据统计特征
  2. df.describe(include='O')
  3. # df.describe(include=[np.object])
  4. # 排除类型
  5. df.describe(exclude=[np.number])

二、其他数学统计方法

DataFrame 计算后一般为一个 Series或df,Series 计算后为一个定值。

  1. df.mean() # 返回所有列的均值
  2. df.mean(1) # 返回所有行的均值,下同
  3. df.corr() # 返回列与列之间的相关系数
  4. df.count() # 返回每一列中的非空值的个数
  5. df.max() # 返回每一列的最大值
  6. df.min() # 返回每一列的最小值
  7. df.abs() # 绝对值
  8. df.median() # 返回每一列的中位数
  9. df.std() # 返回每一列的标准差, 贝塞尔校正的样本标准偏差
  10. df.var() # 无偏方差
  11. df.sem() # 平均值的标准误差
  12. df.mode() # 众数
  13. df.prod() # 连乘
  14. df.mad() # 平均绝对偏差
  15. df.cumprod() # 累积连乘,累乘
  16. df.cumsum(axis=0) # 累积连加,累加
  17. df.nunique() # 去重数量,不同值的量
  18. df.idxmax() # 每列最大的值的索引名
  19. df.idxmin() # 最小
  20. df.cummax() # 累积最大值
  21. df.cummin() # 累积最小值
  22. df.skew() # 样本偏度 (第三阶)
  23. df.kurt() # 样本峰度 (第四阶)
  24. df.quantile() # 样本分位数 (不同 % 的值)

特殊说明:

  • 很多方法支持行列指定,默认为列axis=0;
  • 是否排除缺失值,默认排除skipna=False;
  • 假若索引为多层索引,支持索引层次选择,level参数控制;
  • 是否排除bool值,numeric_only,默认为False,不排除;
  • 如果有空值总共算几,min_count,默认为0,一个不算。

pandas(5):数学统计——描述性统计的更多相关文章

  1. Pandas描述性统计

    有很多方法用来集体计算DataFrame的描述性统计信息和其他相关操作. 其中大多数是sum(),mean()等聚合函数,但其中一些,如sumsum(),产生一个相同大小的对象. 一般来说,这些方法采 ...

  2. Pandas | 06 描述性统计

    有很多方法用来集体计算DataFrame的描述性统计信息和其他相关操作. 其中大多数是sum(),mean()等聚合函数. 一般来说,这些方法采用轴参数,就像ndarray.{sum,std,...} ...

  3. Pandas 之 描述性统计案例

    认识 jupyter地址: https://nbviewer.jupyter.org/github/chenjieyouge/jupyter_share/blob/master/share/panda ...

  4. 基于R语言的数据分析和挖掘方法总结——描述性统计

    1.1 方法简介 描述性统计包含多种基本描述统计量,让用户对于数据结构可以有一个初步的认识.在此所提供之统计量包含: 基本信息:样本数.总和 集中趋势:均值.中位数.众数 离散趋势:方差(标准差).变 ...

  5. Python实现描述性统计

    该篇笔记由木东居士提供学习小组.资料 描述性统计的概念很好理解,在日常工作中我们也经常会遇到需要使用描述性统计来表述的问题.以下,我们将使用Python实现一系列的描述性统计内容. 有关python环 ...

  6. SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类

    https://www.zhihu.com/topic/19582125/top-answershttps://wenku.baidu.com/search?word=spss&ie=utf- ...

  7. 使用Python进行描述性统计

    目录 1 描述性统计是什么?2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值.中位数.众数) 2.3 发散程度(极差,方差.标准差.变异系数) 2.4 偏差程度(z ...

  8. \(\S1\) 描述性统计

    在认识客观世界的过程中,统计学的思想和方法经常起着不可替代的作用.在许多工程及自然科学的专业领域中,包括可靠性分析.质量控制.生物信息.脑科学.心理分析.经济分析.金融风险管理.社会科学推断.行为科学 ...

  9. 程序员的数学 三册数学,概率统计、线性代数pdf

    程序员的数学1 2012.pdf 2012版 程序员的数学2 概率统计 ,平冈和幸,(日)堀玄著 ,P4006 2015.pdf 2015版 程序员的数学3-线性代数 2016.pdf 2016版 如 ...

随机推荐

  1. C++算法代码——纪念品分组[NOIP2007 普及组]

    题目来自:http://218.5.5.242:9018/JudgeOnline/problem.php?id=1099 https://www.luogu.com.cn/problem/P1094 ...

  2. Redis Lua 脚本使用

    本文转载自Redis Lua 脚本使用 Lua 简介 Lua语言提供了如下几种数据类型:booleans(布尔).numbers(数值).strings(字符串).tables(表格). 下面是一些 ...

  3. Markdown(3)Typora快捷键

    Typora(3)快捷键 一.快捷键列表 操作内容 快捷键 助记词 1. 标题 Ctrl + 数字 1-6 2. 段落 Ctrl + 数字 0 3. 粗体 Ctrl + B (B) Bold 4. 斜 ...

  4. 一文讲通.NET Core部署到Windows IIS最全解决方案

    回顾之前的ASP.NET的经典托管 在经典ASP.NET应用程序中,所有一切都托管在IIS工作进程中(w3wp.exe),这也被称为IIS应用程序池.ASP.NET程序被托管在应用程序池中,并且被按照 ...

  5. JQGrid 应用

    jqGrid 原理 jqGrid是典型的B/S架构,服务器端只是提供数据管理,客户端只提供数据显示.换句话说,jqGrid可以以一种更加简单的方式来展现你数据库的信息,而且也可以把客户端数据传回给服务 ...

  6. mysql查询缓存简单使用

    MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,属于 Oracle 旗下产品.MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBM ...

  7. 如何在 ASP.NET Core 中写出更干净的 Controller

    你可以遵循一些最佳实践来写出更干净的 Controller,一般我们称这种方法写出来的 Controller 为瘦Controller,瘦 Controller 的好处在于拥有更少的代码,更加单一的职 ...

  8. slickgrid ( nsunleo-slickgrid ) 2 修正区域选择不能跨冻结列的问题

    slickgrid( nsunleo-slickgrid )  2 修正区域选择不能跨冻结列的问题 周六的时候,留了个小小的尾巴,区域选择的问题进做到了定位: 问题原因,在slickgrid启动冻结之 ...

  9. struts2.0中ognl栈的解析

    ongl详解: ValueStack是Struts2的一个接口,字面意义为值栈,OgnlValueStack是 ValueStack的实现类,客 户端发起一个请求,struts2架构会创建一个acti ...

  10. 使用jQuery实现ajax请求

    <%-- Created by IntelliJ IDEA. User: Administrator Date: 2021/3/13 Time: 14:54 To change this tem ...