iwehdio的博客园:https://www.cnblogs.com/iwehdio/

  方差分析可以用来推断一个或多个因素在其状态变化时,其因素水平或交互作用是否会对实验指标产生显著影响。主要分为单因素方差分析、多因素无重复方差分析和多因素重复方差分析。
  做数理统计课后题,发现方差分析计算比较麻烦,想用Python掉包实现。但是发现大多教程对参数的讲解不是很清楚,在此做记录。
  主要用到的库是pandas和statsmodels。简要流程是,先用pandas库的DataFrame数据结构来构造输入数据格式。然后用statsmodels库中的ols函数得到最小二乘线性回归模型。最后用statsmodels库中的anova_lm函数进行方差分析。

  1. import pandas as pd
  2. import numpy as np
  3. from statsmodels.formula.api import ols
  4. from statsmodels.stats.anova import anova_lm

​   首先,是输入的数据格式。使用pandas的DataFrame,每一行为一次试验的因素水平和试验结果。以下图中的题目为例。

  则对于因素A和因素B即结果R可表示为如下的DataFrame:

  1. data = pd.DataFrame([[1, 1, 32],
  2. [1, 2, 35],
  3. [1, 3, 35.5],
  4. [1, 4, 38.5],
  5. [2, 1, 33.5],
  6. [2, 2, 36.5],
  7. [2, 3, 38],
  8. [2, 4, 39.5],
  9. [3, 1, 36],
  10. [3, 2, 37.5],
  11. [3, 3, 39.5],
  12. [3, 4, 43]],
  13. columns=['A', 'B', 'value'])

​   第一列为因素A的水平,第二列为因素B的水平,第三列为试验结果。在方差分析中,只关心每次试验中因素水平是否相同,所以我们可以把较为复杂的因素水平抽象为标签值 1,2,3。  

​   然后,输入ols函数。主要用到该函数的两个参数,formula和data。
  formula指定了:
        ①试验结果是哪一列。
        ②需要计算的是哪几个因素水平对结果的影响。
        ③是否计算交互作用。

  formula的类型为字符串,输入格式为如果试验结果的列名为‘value’,需要计算的因素的列名为‘A’和‘B’,则示例如下。

  1. # 因素A的水平对结果的影响
  2. 'value ~ C(A)'
  3. # 因素A和因素B的水平对结果的影响
  4. 'value ~ C(A) + C(B)'
  5. # 因素A和因素B以及A和B的交互作用的水平对结果的影响
  6. 'value ~ C(A) + C(B) + C(A)*C(B)'
  7. # 多因素无重复试验,不计算交互作用的影响
  8. model = ols('value~C(A) + C(B)', data=data[['A', 'B', 'value']]).fit()
  9. anovat = anova_lm(model)
  10. print(anovat)

  data为之前生成的DataFrame中选出的进行分析所需要的列,实际上ols是通过DataFrame的列名来获得试验结果和因素水平的数据的。
  最后用ols函数进行最小二乘线性拟合,用anova_lm函数进行方差分析并输出结果。之前题目输出的结果为:

  Residual表示误差,df表示自由度,sum_sq表示离差平方和,mean_sq表示均方离差,F表示F值,PR(>F)表示F值所对应的显著水平α。
  进行单因素多方差分析,将formula中的C(B)去掉即可。如果是对于有重复的多因素方差分析,示例如下:

  结果为: 

参考:施雨 《应用数理统计(西安交通大学)》 课后习题 4.1,4.3,4.5,4.6,4.9
   python做单因素方差分析:https://www.cnblogs.com/jin-liang/p/9852321.html
   Python数据科学:方差分析:https://blog.csdn.net/Kaitiren/article/details/85066793

iwehdio的博客园:https://www.cnblogs.com/iwehdio/

数理统计(一)——用Python进行方差分析的更多相关文章

  1. 【总目录】——概率论与数理统计及Python实现

    注:这是一个横跨数年的任务,标题也可以叫做“从To Do List上划掉学习统计学”.在几年前为p值而苦恼的时候,还不知道Python是什么:后来接触过Python,就喜欢上了这门语言.统计作为数据科 ...

  2. 【概率论与数理统计】小结3 - 一维离散型随机变量及其Python实现

    注:上一小节对随机变量做了一个概述,这一节主要记录一维离散型随机变量以及关于它们的一些性质.对于概率论与数理统计方面的计算及可视化,主要的Python包有scipy, numpy和matplotlib ...

  3. 【概率论与数理统计】小结4 - 一维连续型随机变量及其Python实现

    注:上一小节总结了离散型随机变量,这个小节总结连续型随机变量.离散型随机变量的可能取值只有有限多个或是无限可数的(可以与自然数一一对应),连续型随机变量的可能取值则是一段连续的区域或是整个实数轴,是不 ...

  4. 数理统计(二)——Python中的概率分布API

    数理统计(二)——Python中的概率分布API iwehdio的博客园:https://www.cnblogs.com/iwehdio/ 数理统计中进行假设检验需要查一些分布的上分位数表.在scip ...

  5. 方差分析(python代码实现)

    python机器学习-乳腺癌细胞挖掘(欢迎关注博主主页,学习python视频资源,还有大量免费python经典文章) https://study.163.com/course/introduction ...

  6. Python matplotlib 概率论与数理统计 伯努利分布 二项分布

    Python 代码实现 二项分布 import numpy as np import matplotlib.pyplot as plt import math from scipy import st ...

  7. 【机器学习理论】概率论与数理统计--假设检验,卡方检验,t检验,F检验,方差分析

    显著性水平α与P值: 1.显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示. 显著性是对差异的程度而言的,是在进行假设检验前确定的一个可允许作为判断界限的小概率标准. 2.P值是用来 ...

  8. 机器学习:Python中如何使用最小二乘法

    之所以说"使用"而不是"实现",是因为python的相关类库已经帮我们实现了具体算法,而我们只要学会使用就可以了.随着对技术的逐渐掌握及积累,当类库中的算法已经 ...

  9. python数据分析入门学习笔记

    学习利用python进行数据分析的笔记&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我一边学习一边完善~ 前言:各种和数据分 ...

随机推荐

  1. 理解Spark运行模式(三)(STANDALONE和Local)

    前两篇介绍了Spark的yarn client和yarn cluster模式,本篇继续介绍Spark的STANDALONE模式和Local模式. 下面具体还是用计算PI的程序来说明,examples中 ...

  2. 【前端知识体系-CSS相关】Bootstrap相关知识

    1.Bootstrap 的优缺点? 优点:CSS代码结构合理,现成的代码可以直接使用(响应式布局) 缺点:定制流程较为繁琐,体积大 2.如何实现响应式布局? 原理:通过media query设置不同分 ...

  3. 关于log4j

    搭建完maven+SpringMVC以后,我们还需要添加日志功能,方便记录应用在应用中产生的日志信息. 1.添加依赖包:依赖中除了对slf4j依赖外还有对邮件插件的依赖.当遇到报错的时候可以发送邮件到 ...

  4. 023.掌握Pod-Pod扩容和缩容

    一 Pod的扩容和缩容 Kubernetes对Pod的扩缩容操作提供了手动和自动两种模式,手动模式通过执行kubectl scale命令或通过RESTful API对一个Deployment/RC进行 ...

  5. 2C 还是 2B,跟找工作有什么关系?

    通常,我们会把公司的业务类型分成以下几种: 2C,to Customer,指面向个人客户的业务,即将公司的产品或服务销售给个人,通常做出购买决策的个人也是使用产品或服务的用户.举例说明,像 BAT 发 ...

  6. 排错:golang运行http服务器直接挂掉无错误提示

    一运行就退出一运行就退出,没有报错提示检查代码也没有问题. 代码也没问题,原来是端口被占用了,改成8888就正常了

  7. 达梦"记录超长"警告

    出现"记录超长"背景介绍: 导入数据库时,出现数据库记录超长警告,导致数据无法正常导入! 1.重新建库,把页大小改大 这种方式是在建立数据库实例的时候进行的 修改[页大小] 2.把 ...

  8. HTML学习 day02

    1.HTML的相关概念 网站建设流程 网页组成  网页主要由三部分组成:结构(Structure).表现(Presentation)和行为(Behavior). html(Hypertext Mark ...

  9. wordpress开源小程序

    wordpress多端开源小程序正式发布了,目前支持微信/QQ/百度/今日头条. 目前我们的开源小程序,已经建立了微信QQ交流群,需要的可以加下,微信添加hackdex(备注开源拉你入群),QQ群:7 ...

  10. 题解 P1226 【【模板】快速幂||取余运算】

    1.题目分析 原题 本题在于快速幂的使用,以及对long long的应用问题. 2.解题思路 快速幂 求幂常见用法: int pow(int a,int b) { int ans; for(int i ...