Python怎么检验数据的正态分布

在对数据建模前，很多时候我们需要对数据做正态性检验，进而通过检验结果确定下一步的分析方案。下面介绍 Python 中常用的几种正态性检验方法：
scipy.stats.kstest

kstest 是一个很强大的检验模块，除了正态性检验，还能检验 scipy.stats 中的其他数据分布类型

kstest(rvs, cdf, args=(), N=20, alternative=’two_sided’, mode=’approx’, **kwds)

对于正态性检验，我们只需要手动设置三个参数即可：

rvs：待检验的数据

cdf：检验方法，这里我们设置为‘norm’，即正态性检验

alternative：默认为双尾检验，可以设置为‘less’或‘greater’作单尾检验

>>> import numpy as np

>>> from scipy.stats import kstest

>>> x = np.linspace(-15, 15, 9)

>>> kstest(x, 'norm')

(0.44435602715924361, 0.038850142705171065)

输出结果中第一个为统计数，第二个为P值

具体见官方文档 scipy.stats.kstest
scipy.stats.shapiro

与 kstest 不同，shapiro 是专门用来做正态性检验的模块
注意：shapiro 不适合做样本数＞5000的正态性检验，检验结果的P值可能不准确

scipy.stats.shapiro(x, a=None, reta=False)

一般我们只用 x 参数就行，x 即待检验的数据

>>> from scipy import stats

>>> np.random.seed(12345678)

>>> x = stats.norm.rvs(loc=5, scale=3, size=100)

>>> stats.shapiro(x)

(0.9772805571556091, 0.08144091814756393)

输出结果中第一个为统计数，第二个为P值

具体见官方文档 scipy.stats.shapiro
scipy.stats.normaltest

normaltest 也是专门做正态性检验的模块

scipy.stats.normaltest(a, axis=0, nan_policy=’propagate’)

这里的三个参数都有必要看一下：

a：待检验的数据

axis：默认为0，表示在0轴上检验，即对数据的每一行做正态性检验，我们可以设置为 axis=None 来对整个数据做检验

nan_policy：当输入的数据中有空值时的处理办法。默认为 ‘propagate’，返回空值；设置为 ‘raise’ 时，抛出错误；设置为 ‘omit’ 时，在计算中忽略空值。

>>> import numpy as np

>>> from scipy.stats import normaltest

>>> x = np.random.randn(10, 20)

>>> normaltest(x, axis=None)

>>> NormaltestResult(statistic=0.3582062593239369, pvalue=0.83601967652440512)

输出结果中第一个为统计数，第二个为P值

具体见官方文档 scipy.stats.normaltest
scipy.stats.anderson

anderson 是修改版的 kstest，说是增强版也不为过。也可以做多种分布的检验，默认的检验时正态性检验。

scipy.stats.anderson(x, dist=’norm’)

参数这里就不多说了，但对输出结果说明一下：

anderson 有三个输出值，第一个为统计数，第二个为评判值，第三个为显著性水平， 评判值与显著性水平对应

对于正态性检验，显著性水平为：15%, 10%, 5%, 2.5%, 1%

import numpy as np
from scipy.stats import anderson
x = np.linspace(-15, 15, 9)
anderson(x)
AndersonResult(statistic=0.13676646631470213, critical_values=array([ 0.507, 0.578, 0.693, 0.808, 0.961]), significance_level=array([ 15. , 10. , 5. , 2.5, 1. ]))

转自：https://blog.csdn.net/QimaoRyan/article/details/72861387

Python怎么检验数据的正态分布的更多相关文章

KS-检验（Kolmogorov-Smirnov test） -- 检验数据是否符合某种分布
Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法.其原假设H0:两个数据分布一致或者数据符合理论分布.D=max| f(x)- g(x)|, ...
python数据挖掘之数据探索第一篇
目录数据质量分析当我们得到数据后,接下来就是要考虑样本数据集的数据和质量是否满足建模的要求?是否出现不想要的数据?能不能直接看出一些规律或趋势?每个因素之间的关系是什么? 通过检验数据集的 ...
Python: sklearn库——数据预处理
Python: sklearn库 —— 数据预处理数据集转换之预处理数据: 将输入的数据转化成机器学习算法可以使用的数据.包含特征提取和标准化. 原因:数据集的标准化(服从均值为 ...
python 发送json数据操作实例分析 - python
文章来源:嗨学网敏而好学论坛www.piaodoo.com 欢迎大家相互学习本文实例讲述了python 发送json数据操作.分享给大家供大家参考,具体如下: # !/usr/bin/env py ...
使用Python解析JSON数据的基本方法
这篇文章主要介绍了使用Python解析JSON数据的基本方法,是Python入门学习中的基础知识,需要的朋友可以参考下: ----------------------------------- ...
python matplotlib plot 数据中的中文无法正常显示的解决办法
转发自:http://blog.csdn.net/laoyaotask/article/details/22117745?utm_source=tuicool python matplotlib pl ...
Python/Numpy大数据编程经验
Python/Numpy大数据编程经验 1.边处理边保存数据,不要处理完了一次性保存.不然程序跑了几小时甚至几天后挂了,就啥也没有了.即使部分结果不能实用,也可以分析程序流程的问题或者数据的特点. ...
Windows下Python读取GRIB数据
之前写了一篇<基于Python的GRIB数据可视化>的文章,好多博友在评论里问我Windows系统下如何读取GRIB数据,在这里我做一下说明. 一.在Windows下Python为什么无法 ...
为什么说Python 是大数据全栈式开发语言
欢迎大家访问我的个人网站<刘江的博客和教程>:www.liujiangblog.com 主要分享Python 及Django教程以及相关的博客交流QQ群:453131687 原文链接 h ...

随机推荐

MATLAB符号求解极限积分微分级数2
一.符号表达式的极限 limit(F,x,a):求当时,符号表达式F的极限. limit(F,a):符号表达式F采用默认自变量(可由函数findsym求得),该函数求F的自变量趋于a时的极限值. li ...
【ARM-Linux开发】 uboot启动阶段修改启动参数方法及分析
作者:围补本来启动方式这节不是什么复杂的事儿,不过想简单的说清楚明白,还真是不知道怎么组织.毕竟文字跟有声语言表达有别.但愿简单的东西别让我讲的太复杂! Arm板系统文件一般有三个--bootloa ...
Vue CLI 3 如何自定义 js 的文件名
参考链接:https://blog.csdn.net/weixin_33979363/article/details/88742342
Charles系列三：Charles打断点（包含修改请求，修改返回的内容），模拟慢速网络（弱网测试），域名映射，过滤请求，接口调试，打压测试
一:Charles断点的使用(包含修改请求,修改返回的数据) 设置断点来修改请求和返回的数据,在开发过程中可以模拟多种响应.步骤如下: 1.添加断点方法有两种: 方法1:找到Charles中菜单项Pr ...
js延迟2秒执行事件
有时候,我们在做修改回显数据时,就需要默认触发一些事件,但是由于数据没有很快从服务器中取回,所以就有延迟执行js事件 setTimeout(function () { // 这里就是处理的事件 }, ...
hanlp分词工具应用案例：商品图自动推荐功能的应用
本篇分享一个hanlp分词工具应用的案例,简单来说就是做一图库,让商家轻松方便的配置商品的图片,最好是可以一键完成配置的. 先看一下效果图吧: 商品单个推荐效果:匹配度高的放在最前面这个想法很好,那 ...
LoadRunner编程之文件的操作
这篇文章主要写下LoadRunner下如何进行文件的操作. 1,文件的声明 LoadRunner不支持FILE数据类型,所以在LoadRunner中用int来声明一个文件: int MyFile; 2 ...
后台返回数据为map集合，前端js处理方法
当后台返回的数据不是json而是map集合的时候,前端js中处理就将其看作是一个数组,例如后台返回的代码入下: Map<String, String> result = new HashM ...
spark调优篇-数据倾斜(汇总)
数据倾斜为什么会数据倾斜 spark 中的数据倾斜并不是说原始数据存在倾斜,原始数据都是一个一个的 block,大小都一样,不存在数据倾斜: 而是指 shuffle 过程中产生的数据倾斜,由于不同的 ...
ngixn二级域名
每个人的配置不一样,我说说我的安装完nginx后,找到nginx配置文件/usr/local/nginx/conf/nginx.conf nginx代理apche(作为一级域名) 默认一级域名(ds ...

Python怎么检验数据的正态分布

Python怎么检验数据的正态分布的更多相关文章

随机推荐

热门专题