5-Pandas之常用的描述性统计函数、汇总函数
函数 | 作用 | 函数 | 作用 |
count | 非缺失样本的数量 | sum | 求和 |
mean | 均值 | mad | 平均绝对偏差(Mean absolute deviation) |
median | 中位数 | min | 最小值 |
max | 最大值 | mode | 众数 |
abs | 绝对值 | prod | 乘积 |
std | 标准差 | var | 无偏方差 |
sem | 平均标准误差 | skew | 偏度(三阶矩) |
kurt | 峰度(四阶矩) | quantile | 分位数 |
cumsum | 累计求和 | cumprod | 累积 |
cummax | 累计最大值 | cummin | 累积最小值 |
二、汇总函数
(1)describe():查看各个特征的均值、标准差、最小值、最大值即分位数,对样本数据量进行统计,默认仅对数值型数据进行统计,也可通过上一节数据筛选中所说的include和exclude来设定包括或是剔除哪些类型的特征。
例如:>>>df.describe(include=['object'])
需要注意的是:
- describe()返回的对象也是一个DataFrame类型,所以我们是可以根据自身需求提取需要的汇总量;
- describe()也可以对非数值型数据进行统计,只是统计指标不同而已.
例如:
>>>df['grade'].describe()
count 68
unique 6
top B
freq 18
Name:grade,dtype:object
(2)info():显示各个特征数据类型、非空值数量、总体样本量、占用的内存空间;
若不关心其中缺失值的情况,则可设置null_counts参数的值为False;
>>>df.info(null_counts = False)
若不想具体查看特征的每个变量的情况,则可设置verbose参数的值为False;
>>>df.info(verbose=False)
(3)cov():协方差,描述各个特征之间的相关关系。
>>>df.cov()
即:若有n个特征,将生成一个n*n的矩阵
需要注意的是:协方差的绝对值不反应线性相关的程度
(4)corr():相关系数。表示线性相关的方向和相关程度,其值域为[-1,1]
>>>df.corr()
5-Pandas之常用的描述性统计函数、汇总函数的更多相关文章
- Linux常用到的指令汇总
Linux常用到的指令汇总 根据鸟哥linux私房菜上定义的:一定要先學會的指令:ls, more, cd, pwd, rpm, ifconfig, find 登入與登出(開機與關機):telnet, ...
- mysql copy表或表数据常用的语句整理汇总
mysql copy表或表数据常用的语句整理汇总. 假如我们有以下这样一个表: id username password ----------------------------------- 1 a ...
- Vue常用经典开源项目汇总参考-海量
Vue常用经典开源项目汇总参考-海量 Vue是什么? Vue.js(读音 /vjuː/, 类似于 view) 是一套构建用户界面的 渐进式框架.与其他重量级框架不同的是,Vue 采用自底向上增量开发的 ...
- C#常用的命名规则汇总
C#常用的命名规则汇总 来源 https://www.cnblogs.com/pengyouqiang88/p/5021128.html 本文转载自脚本之家 本文详细汇总了C#常用的命名规则.分享给大 ...
- pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理)
pandas学习(常用数学统计方法总结.读取或保存数据.缺省值和异常值处理) 目录 常用数学统计方法总结 读取或保存数据 缺省值和异常值处理 常用数学统计方法总结 count 计算非NA值的数量 de ...
- [转帖]Linux企业运维人员最常用150个命令汇总
Linux企业运维人员最常用150个命令汇总 https://clsn.io/clsn/lx998.html 基本上都用过了. 命令 功能说明 线上查询及帮助命令(2个) man 查看命令帮助,命令的 ...
- python重要的第三方库pandas模块常用函数解析之DataFrame
pandas模块常用函数解析之DataFrame 关注公众号"轻松学编程"了解更多. 以下命令都是在浏览器中输入. cmd命令窗口输入:jupyter notebook 打开浏览器 ...
- pandas模块常用函数解析之Series(详解)
pandas模块常用函数解析之Series 关注公众号"轻松学编程"了解更多. 以下命令都是在浏览器中输入. cmd命令窗口输入:jupyter notebook 打开浏览器输入网 ...
- pandas中常用的操作一
pandas中常用的功能: 1.显示所有的列的信息,999表示显示最大的列为999 pd.options.display.max_columns=999 2.读取excel时设置使用到列的名称,和列的 ...
随机推荐
- linux下 解释 终端命令 ls -al或者ls -li 输出的信息
$ ls -al drwxr-xr-x. wjshan0808 wjshan0808 Sep : .cache $ ls -li ...
- python 实现汉诺塔
汉诺塔:汉诺塔(又称河内塔)问题是源于印度一个古老传说的益智玩具.大梵天创造世界的时候做了三根金刚石柱子,在一根柱子上从下往上按照大小顺序摞着64片黄金圆盘. 大梵天命令婆罗门把圆盘从下面开始按大小顺 ...
- 实现 React Hooks
实现 React Hooks UI 开发有两个问题: 展示复用 逻辑复用 展示复用目前基本使用组件化来解决,逻辑复用一直以来都没有特别好的解决方案.React 从一开始的 mixin ,到 高阶组件 ...
- 小师妹学JVM之:cache line对代码性能的影响
目录 简介 一个奇怪的现象 两个问题的答案 CPU cache line inc 和 add 总结 简介 读万卷书不如行万里路,讲了这么多assembly和JVM的原理与优化,今天我们来点不一样的实战 ...
- 使用@AutoConfigureBefore、After、Order调整Spring Boot自动配置顺序
前言 Spring Boot是Spring家族具有划时代意义的一款产品,它发展自Spring Framework却又高于它,这种高于主要表现在其最重要的三大特性,而相较于这三大特性中更为重要的便是Sp ...
- 基于SpringBoot AOP面向切面编程实现Redis分布式锁
基于SpringBoot AOP面向切面编程实现Redis分布式锁 基于SpringBoot AOP面向切面编程实现Redis分布式锁 基于SpringBoot AOP面向切面编程实现Redis分布式 ...
- Scala 基础(十四):Scala 模式匹配(二)
1 匹配数组 1)Array(0) 匹配只有一个元素且为0的数组. 2)Array(x,y) 匹配数组有两个元素,并将两个元素赋值为x和y.当然可以依次类推Array(x,y,z) 匹配数组有3个元素 ...
- Maven 专题(七):常用命令
mvn archetype:generate : 反向生成项目的骨架 mvn clean: 清除各个模块target目录及里面的内容 mvn compile: 静态编译,根据xx.java生成xx.c ...
- MYSQL 之 JDBC(十二): 处理Blob
LOB,即Large Objects(大对象),是用来存储大量的二进制和文本数据的一种数据类型 LOB分为两种内省:内部LOB和外部LOB 内部LOB将数据以字节流的形式存储在数据库的内部.因而内部L ...
- python数据处理(九)之自动化与规模化
1 前沿 1.1 适合自动化的任务 每周二输出一些新的分析结果,编制一份报告,并发送给相关方 其他部门或同事需要能够在没有你的指导和支持下运行报告工具和清洗工具 每周进行一次数据下载.清洗和发送 每次 ...