统计学(检验、分布)的 python(numpy/pandas/scipy) 实现
- scipy 中统计相关的 api:https://docs.scipy.org/doc/scipy/reference/stats.html
- https://zhuanlan.zhihu.com/p/24635014
- https://blog.csdn.net/lanchunhui/article/details/52328380
1. t 检验:两个分布的差异
多维数据集的每一个属性列都可理解为一个特征的实例。两个分布的距离:每一个属性列代表的特征跟标签列之间的相关性。
t 检验用 t 分布理论来推论差异发生的概率,以比较两个分布的平均数之间的差异是否显著。主要用于样本含量小(n<30" role="presentation">n<30n<30),总体标准差 σ" role="presentation">σσ 未知的正态分布。
独立样本 t 检验统计量如下计算:
尤其注意,这里的方差是无偏估计(np.std(x, ddof=1))
# 通过字典构造 DataFrame
data = {'Category': ['cat2', 'cat1', 'cat2', 'cat1',
'cat2', 'cat1', 'cat2', 'cat1', 'cat1', 'cat1', 'cat2'],
'values': [1, 2, 3, 1, 2, 3, 1, 2, 3, 5, 1]}
data_df = DataFrame(data)
# 计算各自的均值
>> data_df.groupby('Category').mean()
cat1 2.666667
cat2 1.600000
cat1 = data_df[data_df['Category'] == 'cat1']
# data_df.Category == 'cat1'
cat2 = data_df[data_df['Category'] == 'cat2']
from scipy.stats import ttest_ind
# 计算二者的 t 检验统计量,及对应的 p-value
>> ttest_ind(cat1['values'], cat2['values'])
Ttest_indResult(statistic=1.4927289925706944, pvalue=0.16970867501294376)
scipy 下的 t-test 计算方法
def t_test(x1, x2):
n1, n2 = x1.size, x2.size
mu1, mu2 = np.mean(x1), np.mean(x2)
s1, s2 = np.std(x1, ddof=1), np.std(x2, ddof=1)
num = np.abs(mu1 - mu2)
denom = np.sqrt((((n1-1)*s1**2 + (n2-1)*s2**2)/(n1+n2-2))*(1/n1+1/n2))
with np.errstate(divide='ignore'):
return num / denom
统计学(检验、分布)的 python(numpy/pandas/scipy) 实现的更多相关文章
- 有关python numpy pandas scipy 等 能在YARN集群上 运行PySpark
有关这个问题,似乎这个在某些时候,用python写好,且spark没有响应的算法支持, 能否能在YARN集群上 运行PySpark方式, 将python分析程序提交上去? Spark Applicat ...
- linux下安装numpy,pandas,scipy,matplotlib,scikit-learn
python在数据科学方面需要用到的库: a.Numpy:科学计算库.提供矩阵运算的库. b.Pandas:数据分析处理库 c.scipy:数值计算库.提供数值积分和常微分方程组求解算法.提供了一个非 ...
- Python: NumPy, Pandas学习资料
NumPy 学习资料 书籍 NumPy Cookbook_[Idris2012] NumPy Beginner's Guide,3rd_[Idris2015] Python数据分析基础教程:NumPy ...
- Python Numpy,Pandas基础笔记
Numpy Numpy是python的一个库.支持维度数组与矩阵计算并提供大量的数学函数库. arr = np.array([[1.2,1.3,1.4],[1.5,1.6,1.7]])#创建ndarr ...
- python numpy+mkl+scipy win64 安装
用pip在windows下安装numpy,scipy等库时一般来说都不会很顺利比较好的方式是自己下载对应的whl文件pip install 话不多说上链接 http://www.lfd.uci.edu ...
- python/numpy/pandas数据操作知识与技巧
pandas针对dataframe各种操作技巧集合: filtering: 一般地,使用df.column > xx将会产生一个只有boolean值的series,以该series作为dataf ...
- Python_科学计算平台__pypi体系的numpy、scipy、pandas、matplotlib库简介
1.numpy--基础,以矩阵为基础的数学计算模块,纯数学 存储和处理大型矩阵. 这个是很基础的扩展,其余的扩展都是以此为基础. 快速学习入口 https://docs.scipy.org/doc/n ...
- python安装pip、numpy、scipy、statsmodels、pandas、matplotlib等
1.安装python 2.安装numpy(开源的数值计算扩展,可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多. 很多库都是以此库为依 ...
- centos 7 下安装numpy、scipy等python包
本文适用于刚入门的小白,欢迎大牛们批评指正. 因为要开始数据分析,而python又不像R和matlab那么简洁.需要安装的包很多~ 网上找了好多牛人博客,想在centos7下安装numpy,scipy ...
随机推荐
- c 宏的定义
#include <stdio.h> #include <conio.h> #define VAL 40 #ifdef VAL #undef VAL #endif #defin ...
- shell 求模
$ expr % $ let i=% $ echo $i $ echo % | bc $ ((i=%)) $ echo $i
- win10 操作系统 修改桌面图标
桌面右击出现菜单后,点击个性化: 点击左边菜单的主题,点击桌面图标设置,在新窗口中选择需要显示的图标接口 details please check following screenshot
- MongoDB(课时10 数组)
3.4.2.5 数组查询 MongoDB里面支持数组保存,一旦支持数组保存,就需要对于数组的数据进行匹配. 范例:插入一部分数组内容 课程是数组的形式(截图时少截一条信息) 此时数据包含数组内容,而后 ...
- 【转】C/C++ 函数指针与类函数指针
转自:http://blog.csdn.net/iamshaofa/article/details/17614615 C函数指针 int numAdd(int a, int b) { return a ...
- javascript对象使用总结
javascript对象使用总结 一.总结 一句话总结:js对象的主要知识点是创建对象和继承,并且创建对象和继承的方法都是逐步层层递进的 创建对象 继承 原型 创建对象 1 <script> ...
- [Java学习] JSON工具学习记录--FastJSON
最近做项目,总是与json打交道,在用了即可json工具后,个人认为fastJson最好用,很方便,API也清晰可见,所以记录下使用方法,给需要的人提供帮助.(部分摘抄自网络) 一.API入口 Fas ...
- vue.js 混入
混入:mixins 一种分发Vue组件中可反复使用的功能的方法. 混入对象可以:包含任意组件选项. 混入对象的选项将被混入该组件本身的选项. 如果有同名选项,在和组件的数据发生冲突时,组件数据优先.混 ...
- Confluence 6 的高级 Crowd 设置
启用嵌套用户组(Enable Nested Groups) 为嵌套组启用或禁用支持. 在启用嵌套用户组之前,你需要检查你在 Crowd 中定义的目录能够支持嵌套用户组.当嵌套用户组启用成功后,你可以将 ...
- java通过java.net.URL发送http请求调用接口
一般在*.html,*.jsp页面中我们通过使用ajax调用接口,这个是我们通常用的.对于这些接口,大都是本公司写的接口供自己调用,所以直接用ajax就可以.但是,如果是多家公司共同开发一个东西,一个 ...