样本方差的无偏估计与（n-1）的由来

一、无偏估计

所谓总体参数估计量的无偏性指的是，基于不同的样本，使用该估计量可算出多个估计值，但它们的平均值等于被估参数的真值。

在某些场合下，无偏性的要求是有实际意义的。例如，假设在某厂商与某销售商之间存在长期的供货关系，则在对产品出厂质量检验方法的选择上，采用随机抽样的方法来估计次品率就很公平。这是因为从长期来看，这种估计方法是无偏的。比如这一次所估计出来的次品率实际上偏高，厂商吃亏了；但下一次的估计很可能偏低，厂商的损失就可以补回来。由于双方的交往会长期多次发生，这时采用无偏估计，总的来说可以达到互不吃亏的效果。

不过，在某些场合中，无偏性的要求毫无实际意义。这里又有两种情况：一种情况是在某些场合中不可能发生多次抽样。例如，假设在某厂商和某销售商之间只会发生一次买卖交易，此后不可能再发生第二次商业往来。这时双方谁也吃亏不起，这里就没有什么“平均”可言。另一种情况则是估计误差不可能相互补偿，因此“平均”不得。例如，假设需要通过试验对一个批量的某种型号导弹的系统误差做出估计。这个时候，既使我们的估计的确做到了无偏，但如果这一批导弹的系统误差实际上要么偏左，要么偏右，结果只能是大部分导弹都不能命中目标，不可能存在“偏左”与“偏右”相互抵消，从而“平均命中”的概念。

由此可见，具有无偏性的估计量不一定就是我们“最需要”的“恰当”估计量。

无偏估计是参数的样本估计值的期望值等于参数的真实值。估计量的数学期望等于被估计参数，则称此为无偏估计。

设A'=g(X1,X2,...,Xn)是未知参数A的一个点估计量，若A'满足 E(A'）= A 则称A'为A的无偏估计量，否则为有偏估计量。

注：无偏估计就是系统误差为零的估计。

由于公式A'=g(X1,X2,...,Xn)中的X1,X2,...,Xn一般为一次抽样的结果，没有明确是怎么抽样的一个过程，所以导致不好理解为什么A'就是A的无偏估计量，特别是很难举出实例来给与证明。

经过自己的查阅资料和理解，实际上无偏估计量可以理解如下：

简单的理解，无偏估计量就是：在样本中进行n次随机的抽样，每次抽样都可以计算出一个对某一个参数的点估计量，计算n次，得到n个点估计量，然后对n个点估计量计算期望，得到的值和需要估计的总体参数相等，则称n中的任何点估计量为总体参数的无偏估计量。

举例：

比如我要对某个学校一个年级的上千个学生估计他们的平均水平（真实值，上帝才知道的数字），那么我决定抽样来计算。

我抽出一个10个人的样本，可以计算出一个均值。那么如果我下次重新抽样，抽到的10个人可能就不一样了，那么这个从样本里面计算出来的均值可能就变了，对不对？

因为这个均值是随着我抽样变化的，而我抽出哪10个人来计算这个数字是随机的，那么这个均值也是随机的。但是这个均值也会服从一个规律（一个分布），那就是如果我抽很多次样本，计算出很多个这样的均值，这么多均值们的平均数应该接近上帝才知道的真实平均水平。

如果你能理解“样本均值”其实也是一个随机变量，那么就可以理解为这个随机变量的期望是真实值，所以无偏（这是无偏的定义）；而它又是一个随机变量，只是估计而不精确地等于，所以是无偏估计量。

二、计算

假设X为独立同分布的一组随机变量，总体为M，随机抽取N个随机变量构成一个样本，和是总体的均值和方差, 是常数。是对样本的均值和方差，由于样本是随机抽取的，也是随机的。

既然是随机变量，就可以观察他们的均值方差。

这里需要注意的是，由于样本是随机的，所以X₁，X₂，X₃...都是随机的。上式中可以看出，样本均值这个变量的期望就是总体的均值，因此可以说均值是无偏的。

接下来看样本方差的均值：

根据方差公式，可以得到：

因此：

这里可以看出样本方差的期望并不是无偏的，要无偏估计，应该再乘上一个系数：

所以无偏估计的样本的方差：

。

n-1既为自由度，就是说，在一个容量为n的样本里，当确定了n-1个变量以后，第n个变量就确定了，因为样本均值是无偏的。

协方差除以n-1原理和方差一样，因为方差为协方差的特殊情况。

参考：

http://www.cnblogs.com/gczr/p/8250272.html

https://blog.csdn.net/yangzhenzhen/article/details/73244592