数理统计(一)——Python进行方差分析 iwehdio的博客园:https://www.cnblogs.com/iwehdio/ 方差分析可以用来推断一个或多个因素在其状态变化时,其因素水平或交互作用是否会对实验指标产生显著影响.主要分为单因素方差分析.多因素无重复方差分析和多因素重复方差分析. 做数理统计课后题,发现方差分析计算比较麻烦,想用Python掉包实现.但是发现大多教程对参数的讲解不是很清楚,在此做记录. 主要用到的库是pandas和statsmodels.简要流程是,先用pan…
注:这是一个横跨数年的任务,标题也可以叫做“从To Do List上划掉学习统计学”.在几年前为p值而苦恼的时候,还不知道Python是什么:后来接触过Python,就喜欢上了这门语言.统计作为数据科学的基础,想要从事这方面的工作,这始终是一个绕不过去的槛. 其实从中学就开始学习统计学了,最早的写"正"字唱票(相当于寻找众数),就是一种统计分析的过程.还有画直方图,求平均值,找中位数等.自己在学校里并没有完整系统的学习过概率论和数理统计,直到在工作中用到,才从最初的印象中,逐渐把这门学…
注:上一小节对随机变量做了一个概述,这一节主要记录一维离散型随机变量以及关于它们的一些性质.对于概率论与数理统计方面的计算及可视化,主要的Python包有scipy, numpy和matplotlib等. 以下所有Python代码示例,均默认已经导入上面的这几个包,导入代码如下: import numpy as np from scipy import stats import matplotlib.pyplot as plt 0.  Python中调用一个分布函数的步骤 scipy是Pytho…
注:上一小节总结了离散型随机变量,这个小节总结连续型随机变量.离散型随机变量的可能取值只有有限多个或是无限可数的(可以与自然数一一对应),连续型随机变量的可能取值则是一段连续的区域或是整个实数轴,是不可数的.最常见的一维连续型随机变量有三种:均匀分布,指数分布和正态分布.下面还是主要从概述.定义.主要用途和Python的实现几个方面逐一描述. 以下所有Python代码示例,均默认已经导入上面的这几个包,导入代码如下: import numpy as np from scipy import st…
数理统计(二)——Python中的概率分布API iwehdio的博客园:https://www.cnblogs.com/iwehdio/ 数理统计中进行假设检验需要查一些分布的上分位数表.在scipy的stats统计模块中,有关于数理统计中一些概率分布的API,可求得分布的概率分布函数.概率密度函数和上分位数等.选常用的正态分布.t分布.F分布.卡方分布和伽马分布做使用介绍. 导入模块,并说明各个模块对应的分布: from scipy import stats # 正态分布 stats.nor…
python机器学习-乳腺癌细胞挖掘(欢迎关注博主主页,学习python视频资源,还有大量免费python经典文章) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 项目合作QQ:231469242 Tukey等多重检验容易报错,数据结构不一致 TypeErr…
Python 代码实现 二项分布 import numpy as np import matplotlib.pyplot as plt import math from scipy import stats n = 100 p = 0.05 k = np.arange(0,n) binomial = stats.binom.pmf(k,n,p) plt.plot(k,binomial,'o-') plt.title('binomial:n=%i,p=%.2f'%(n,p),fontsize=15…
显著性水平α与P值: 1.显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,用α表示. 显著性是对差异的程度而言的,是在进行假设检验前确定的一个可允许作为判断界限的小概率标准. 2.P值是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较. P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率.如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理就有理由拒绝原假设,P值越小,拒绝原假设的理由越充分. 总结,P值…
之所以说"使用"而不是"实现",是因为python的相关类库已经帮我们实现了具体算法,而我们只要学会使用就可以了.随着对技术的逐渐掌握及积累,当类库中的算法已经无法满足自身需求的时候,我们也可以尝试通过自己的方式实现各种算法. 言归正传,什么是"最小二乘法"呢? 定义:最小二乘法(又称最小平方法)是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配. 作用:利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误…
学习利用python进行数据分析的笔记&下星期二内部交流会要讲的内容,一并分享给大家.博主粗心大意,有什么不对的地方欢迎指正~还有许多尚待完善的地方,待我一边学习一边完善~ 前言:各种和数据分析相关python库的介绍(前言1~4摘抄自<利用python进行数据分析>) 1.Numpy: Numpy是python科学计算的基础包,它提供以下功能(不限于此): (1)快速高效的多维数组对象naarray (2)用于对数组执行元素级计算以及直接对数组执行数学运算的函数 (3)用于读写硬盘上…