Ref: 估计CDF The Empirical CDF 绘制empirical cdf的图像: x = c(4, 0, 3, 2, 2) plot.ecdf(x) Kolmogorov-Smirnov test testing the "sameness" of two independent samples from a continuous…
Ref: 前面我们考虑的情况是:response是连续的,variable是离散的.举例:如果打算检查GPA的中位数是否与学生坐在教室的位置有关, 那么GPA的中位数是连续的,是响应变量:学生坐的位置(前中后)是离散的,是解释变量. 现在考虑解释变量也是连续的情况,即检查两个连续变量之间的因果关系.其中,我们最关心的是关系的强弱和方向. 首先,我们考虑线性…
Ref: additive model value = typical value + row effect + column effect + residual predicate value = typical value + row effect + column effect 其中value是我们关注的值,typical value是overall…
Ref: 经过前面的步骤,我们已经可以判断几个样本之间是否有差异,差异有多大,现在,我们的备选假设 变成有规律的了,如: 在前面的方法中,我们没有限定这种有顺序的小于等于关系. contrasts: R中可以使用ANGEL包中的函数.染鹅我装不了这个包:)仅供参考. permcontrast(data, R=1000, contrast, graph=T,…
Ref: 前面都是对一两个样本的检查,现在考虑k个样本的情况,我们的假设是: Analysis of Variance (ANOVA) assumptions are: Groups are independent Distributions are Normally distributed Groups have equal variances 那么我们…
今天继续two-sample test Ref: Mann-Whitney Test 前面说这个和Wilcoxon是identical的,只是统计量不同.现在我们来看一下它的统计量U.注意,现在检查的仍然是两个独立样本. Treatment 1:  x1, x2, ... , xmTreatment 2:  y1, y2, ... , yn U = # o…
Ref: Two sample test 直接使用R的t-test t.test(n, t, alternative="two.sided", var.equal=T) permutation test 当我们判断两个样本的均值或者中值是否相等时,如果样本数量足够大,可以使用t-test. 但是,当两个样本的数量都很小时,它们的分布可能是有偏的,…
Ref: 使用非参数方法的优势: 1. 对总体分布做的假设少,所以总体分布未知也可以: 2. 容易做: 3. 一般对离群值更具鲁棒性robust: 4. 适用于数据中包含ranks, ordinal or categorical的. In a skewed distribution, the population median, η, is a bette…
Ref: The Binomial Distribution in R: # return PMF. prob is the probability of success . x can be a list dbinom(x, size, prob) # CDF pbinom(x, size, prob) # returns a value for a p…
一. t-tests 这一部分我们使用分布在MASS包中的UScrime数据集.它是关于美国47个州在1960年时,关于惩罚制度对犯罪率的影响. Prob:监禁(坐牢)的概率: U1:14到24岁的城市那你的失业率: U2:35到39岁的城市男子的失业率: So:an indicator variable for Southern states 1. 独立的t-test(independent t-test) t.test(y~x,data) t.tset(y1,y2) 例01: > libra…
8.4 Confidence Intervals for One Population Mean When σ Is Unknown 原先是 standardized version of x bar: 当没有提供population 的标准差时,采用S(样本标准差作为population 标准差),即studentized version of x bar t-Distributions and t-Curves t-curves have more spread than the stand…
Previously in this series: The beta distribution Empirical Bayes estimation Credible intervals The Bayesian approach to false discovery rates Bayesian A/B testing Beta-binomial regression Understanding empirical Bayesian hierarchical modeling Mixture… Statsmodels Statsmodels is a Python package that provides a complement to scipy for statistical computations including descriptive statistics and estimation of statistical models. statsmodels原名叫…
Statistics in Python Materials for the “Statistics in Python” euroscipy 2015 tutorial. Requirements Standard scientific Python environment (numpy, scipy, matplotlib) Pandas Statsmodels Seaborn To install Python and these dependencies, we recommend th…
1.What are “Parametric Statistics”? 统计中的参数指的是总体的一个方面,而不是统计中的一个方面,后者指的是样本的一个方面.例如,总体均值是一个参数,而样本均值是一个统计量.参数统计检验对总体参数和数据的分布进行假设.这些类型的测试包括学生的T测试和方差分析测试,假设数据来自正态分布. A parameter in statistics refers to an aspect of a population, as opposed to a statistic,…