数理统计16：NP理论、似然比检验、假设检验与区间估计

本文介绍Neyman-Pearson理论，这也是我们会见到的最常见假设检验问题类，这里第一Part的概念介绍略显枯燥，大家尽量理解即可。由于本系列为我独自完成的，缺少审阅，如果有任何错误，欢迎在评论区中指出，谢谢！

Part 1：NP理论的基本概念
Part 2：似然比检验
Part 3：假设检验与区间估计

Part 1：NP理论的基本概念

NP理论的样本\(X\sim \{F_{\theta}:\theta\in\Theta \}\)，即来自一个参数分布族，相比拟合优度检验，此时的模型假定条件要更强一些，也因此需要检验的假设就落在了未知参数的取值范围上。一般地，原假设\(H_0\)和备择假设\(H_1\)是这么提出的：

\[H_0:\theta\in\Theta_0\leftrightarrow H_1:\theta\in\Theta_1,
\]

这里\(\Theta_1=\Theta\setminus\Theta_0\)，也就是说，要么\(\theta\)落在\(\Theta_0\)内，要么\(\theta\)落在\(\Theta_1\)内。假设检验，就是根据样本\(\boldsymbol{X}\)的具体观测，在\(H_0\)和\(H_1\)中选择一个，也就是接受零假设或者拒绝零假设。

比如，对于正态总体\(N(\mu,\sigma^2)\)中抽取的总体

\[\begin{matrix}
79.38 & 81.39 & 81.89 & 78.63 & 77.65,
\end{matrix}
\]

如果想知道是否有\(\mu=79\)，在\(\sigma^2\)未知的情况下，零假设和备择假设就应该如此提出：

\[H_0:\mu=79\leftrightarrow H_1:\mu\ne 79,
\]

这里\(\Theta_0=\{79\},\Theta_1=\mathbb{R}\setminus\{79\}\)。在这样的样本之下，何时接受\(H_0\)？我们不妨引入这样的一个检验：计算\(\mu\)的\(95\%\)置信区间，如果这个置信区间包含\(79\)就接受\(H_0\)。从这里构建出的置信区间是\([77.54,82.03]\)，因而我们选择接受\(H_0\)。

既然置信区间完全由抽取的样本\(\boldsymbol{X}\)决定，当样本\(\boldsymbol{X}\)取到某个范围\(\mathscr X_1\)时置信区间一定包含\(\mu_0=79\)，而如果样本没有落入\(\mathscr X_1\)，就意味着落入了另一个空间\(\mathscr X_2=\mathbb{R}^5-\mathscr X_1\)，此时的置信区间就一定不包含\(\mu_0=79\)，拒绝原假设。因此，完全可以将样本空间划分为两部分，使得样本落入其中一部分时拒绝零假设，没有落入这部分就接受原假设，我们将拒绝原假设的样本空间的子集称为拒绝域。

可以看出，一个检验的实质就是其拒绝域\(D\)，如果两个检验有相同的拒绝域，这两个检验自然就是相同的。在这里，拒绝域是确定的一个部分，可以构建一个检验\(T\)，如此描述：

\[T=\left\{\begin{array}l
H_0,&X\notin D;\\
H_1,& X\in D.
\end{array}\right.
\]

不过，有时候问题的拒绝域不是这么确定的，如从\(B(5,\theta)\)中抽取一个样本对\(\theta\)作估计，规定\(H_0:\theta=0.5\)。如果\(X=3\)，我们就接受\(H_0\)；如果\(X=1,5\)就拒绝\(H_0\)。但是\(X=2,4\)时，我们就在接受或者\(H_0\)中陷入困难，因为好像拒绝和接受都不是那么妥当。

此时，我们引入检验函数的概念，来更好地描述检验。规定检验函数为定义在样本空间\(\mathscr X\)、取值于\([0,1]\)的函数\(\varphi(\boldsymbol{x})\)，规定\(\varphi(\boldsymbol{x})\)为样本观测为\(\boldsymbol{x}\)时拒绝\(H_0\)的概率。此时，一个检验与一个检验函数就是一一对应的，拒绝域\(D\)就是\(\{\boldsymbol{x}:\varphi(\boldsymbol{x})=1\}\)。

如果\(\varphi(\boldsymbol{x})\)的值域为\(\{0,1\}\)而不包含任何介于其中的值，就称为非随机检验，如果存在有些\(\boldsymbol{x}\)有\(0<\varphi(\boldsymbol{x})<1\)，就称为随机检验。我们主要讨论的都是非随机检验。对于随机检验，往往需要一个与样本独立的随机试验作为辅助。

有检验就一定会犯错，在检验假设时会犯的错误可以分为两类：一类是\(H_0\)正确但被拒绝，称为弃真错误（第一类错误）；另一类是\(H_0\)错误但被接受，称为存伪错误（第二类错误）。我们自然希望犯错的概率尽可能小，一般说来对于一个检验，如果犯第一类错误的概率高，犯第二类错误的概率就低。

为了描述检验犯错的概率，引入功效函数的概念：设\(\varphi(\boldsymbol{x})\)是一个检验函数，则其对应的功效函数定义为

\[\beta_\varphi(\theta)=\mathbb{P}_{\theta}\{用检验\varphi否定了H_0\}=\mathbb{E}_{\theta}(\varphi(\boldsymbol{X})).
\]

这是一个关于参数\(\theta\)的函数，特别对于非随机检验，有\(\beta_\varphi(\theta)=\mathbb{P}_{\theta}(\boldsymbol{X}\in D)\)。有了功效函数，就可以完全决定犯两类错误的概率：

\[\alpha^*_{\varphi}(\theta)=\left\{\begin{array}l
\beta_\varphi(\theta),& \theta\in\Theta_0,\\
0,& \theta\in\Theta_1;
\end{array}\right.\\ \beta^*_{\varphi}(\theta)=\left\{\begin{array}l
0,& \theta\in\Theta_0,\\
1-\beta_\varphi(\theta),& \theta\in\Theta_1.
\end{array}\right.
\]

如果要使\(\alpha_{\varphi}^*(\theta)\)和\(\beta^*_{\varphi}(\theta)\)都尽可能小，则功效函数\(\beta_{\varphi}(\theta)\)就应该在\(\Theta_0\)中尽可能小，在\(\Theta_1\)中尽可能大。

既然固定样本容量时，任何检验都不能同时让第一类错误和第二类错误的概率很小，那么Neyman-Pearson所提出的原则就是：在保证犯第一类错误的概率不超过指定数值\(\alpha\)的检验中，寻找犯第二类错误概率尽可能小的检验。

最后，给出检验的水平的概念。如果\(\varphi\)犯第一类错误的概率总不超过\(\alpha\)，则称\(\alpha\)是检验\(\varphi\)的一个水平，即\(\varphi\)是水平为\(\alpha\)的检验等价于\(\forall \theta\)，\(\beta_{\varphi}(\theta)\le \alpha\)。显然，如果\(\alpha\)是检验\(\varphi\)的水平，则对于任何比\(\alpha\)大的\(\alpha'\)，\(\alpha'\)也是\(\varphi\)的水平。记检验所有水平的下确界为\(\varphi\)的真实水平，也是\(\sup\{\beta_{\varphi}(\theta):\theta\in\Theta\}\)。

Part 2：似然比检验

对于参数假设检验，一种通用的方式是构造似然比检验，它的构造方式直观，适用面广，故适合于几乎所有参数假设检验问题。日后当我们学习多元统计分析的时候，由于多元理论尚不成熟，似然比检验会在其中发挥更大的用途。

似然比检验是基于似然函数而构造的，由于零假设和备择假设将参数空间分为两个部分，在这两个部分上都取让似然函数取值最大的点。由于零假设的参数空间是全参数空间的一个子集，所以零假设上似然函数的最大值必定不超过全参数空间上似然函数的最大值。构造似然比统计量为

\[\lambda(\boldsymbol{x})=\frac{\sup\limits_{\theta\in\Theta_0}f(\boldsymbol{x};\theta)}{\sup\limits_{\theta\in\Theta}f(\boldsymbol{x};\theta)}\in[0,1].
\]

如果此比值较大，则参数在\(\Theta_0\)内的可能性就较大，故倾向于接受原假设；如果此比值较小，则参数空间在\(\Theta_0\)内的可能性就较小，故倾向于拒绝原假设。一个基于似然比统计量的非随机检验函数就应该具有以下的形式：

\[\varphi(\boldsymbol{x})=\left\{\begin{array}l
1,& \lambda(\boldsymbol{x})<c;\\
0,& \lambda(\boldsymbol{x})\ge c.
\end{array} \right.\quad D=\{\boldsymbol{X}:\lambda(\boldsymbol{X})<c \}.
\]

这就是似然比检验。有时候\(\lambda(\boldsymbol{x})\)的形式可能较复杂，找与\(\lambda(\boldsymbol{x})\)具有相同或者相反单调性的统计量构造形式相似的检验，也是似然比检验；如果\(\lambda(\boldsymbol{x})\)的精确形式很难求，也可以用极限分布来替代，这是因为关于似然比统计量的极限分布由Wilks定理所保证为卡方分布。

以下简单给出一个似然比检验的构造，求\(N(\mu,\sigma^2)\)中，\(H_0:\mu=\mu_0\leftrightarrow H_1:\mu\ne\mu_0\)的水平为\(\alpha\)的似然比检验。其步骤是这样的：

写出似然函数为

\[f(\boldsymbol{x};\theta)=(2\pi\sigma^2)^{-\frac{n}{2}}\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n(x_j-\mu)^2 \right\}.
\]
分别求出零假设\(\Theta_0\)内的极大似然估计点和全参数空间\(\Theta\)内的极大似然估计点。在这里，\(\Theta\)内的极大似然估计点显然是\(\hat \mu=\bar X\)，\(\hat\sigma^2=\frac{1}{n}\sum_{j=1}^n(X_j-\bar X)^2\)；而\(\Theta_0\)内的极大似然估计点，则是

\[\hat \sigma^2_0=\frac{1}{n}\sum_{j=1}^n(X_j-\mu_0)^2.
\]
第三步，将极大似然估计点代入似然比估计量，计算并化简形式。许多时候，似然比统计量计算过程具有很多的化简操作。

\[\begin{aligned}
\lambda(\boldsymbol{X})&=\left(\frac{\hat\sigma_0^2}{\hat \sigma^2}\right)^{-\frac{n}{2}}\frac{\exp\{{-\frac{1}{2\hat \sigma_0^2}}\sum_{j=1}^n(X_j-\mu_0)^2 \}}{\exp\{-\frac{1}{2\hat\sigma^2}\sum_{j=1}^n(X_j-\bar X)^2 \}}\\

&\xlongequal{后一项约分} \left(\frac{\hat\sigma_0^2}{\hat\sigma^2} \right)^{-\frac{n}{2}}\\

&=\left(\frac{\sum_{j=1}^n(X_j-\mu_0)^2}{\sum_{j=1}^n(X_j-\bar X)^2} \right)^{-\frac{n}{2}}\\
&=\left(\frac{\sum_{j=1}^n(X_j-\bar X)^2+n(\bar X-\mu_0)^2}{\sum_{j=1}^n(X_j-\bar X)^2} \right)^{\frac{n}{2}}\\
&=\left(1+\frac{(\bar X-\mu_0)^2}{\frac{1}{n}\sum_{j=1}^n (X_j-\bar X)^2} \right)^{-\frac{n}{2}}
\end{aligned}.
\]
第四步，将似然比统计量进行同单调性变换。这一步一般是最难的，需要将统计量转变成一个分布已知、且同单调性的统计量，才能构造出水平为\(\alpha\)的检验。我们可以先假设\(H_0\)成立，那么

\[\frac{\sqrt{n}}{\sigma}(\bar X-\mu_0)\sim N(0,1),\\
\frac{1}{\sigma^2}\sum_{j=1}^n(X_j-\bar X)^2\sim \chi^2(n-1),
\]

所以令

\[T=\frac{\sqrt{n}(\bar X-\mu_0)}{\sqrt{\frac{1}{n-1}\sum_{j=1}^n (X_j-\mu_0)}}\sim t(n-1),\\
\lambda(\boldsymbol{X})=\left(1+\frac{1}{n-1}T^2 \right)^{-\frac{n}{2}}.
\]

注意到\(\lambda(\boldsymbol{X})\)与\(T^2\)的单调性相反，所以拒绝域\(\lambda(\boldsymbol{X})<c'\)应当等价于具有\(|T|>c\)的形式。
第五步，求其水平为\(\alpha\)的检验，也就是找到点\(c\)使得

\[\mathbb{P}(|T|>c|H_0)=\alpha,
\]

由于\(H_0\)下\(T\sim t(n-1)\)，所以显然\(c=t_{\alpha/2}(n-1)\)。故似然比检验得到这个问题的拒绝域就是

\[D=\{\boldsymbol{X}:|T(\boldsymbol{X})|>t_{\alpha/2} \}.
\]

似然比检验的难点主要在于第四步，进行同单调性变换的过程；而第三步化简虽然繁琐，但只需要按部就班地执行即可。这里恰好是正态分布，所以可以找到一个具有良好分布的\(T\)，使得似然比检验有较精确的形式。很多时候，找不到这个单调性相同或相反的统计量，而似然比统计量本身的精确分布又很难求得，这时候，Wilks定理就给出了一个非常重要且实用的结果。

Wilks定理：设\(\Theta\)的维数为\(k\)，\(\Theta_0\)的维数为\(s\)，若\(k-s>0\)，且样本的概率分布满足一定的正则条件，则似然比统计量在\(H_0\)成立的情况下，有

\[-2\ln\lambda\stackrel{d}\to \chi^2_{k-s}.
\]

这样，我们就可以容易地使用似然比统计量进行检验。首先，假设\(H_0\)成立，这时候\(\lambda\)就不能太小，\(-2\ln \lambda\)也就不能太大，因此检验的拒绝域必定是\(D=\{-2\ln\lambda >c \}\)；然后Wilks定理保证了\(-2\ln\lambda\)的极限分布为\(\chi^2_{k-s}\)，所以在检验水平为\(\alpha\)的情况下，拒绝域可以是

\[D=\{-2\ln\lambda > \chi^2_{\alpha/2}(k-s)\}.
\]

不过尽管似然比检验具有直观、方便构造、具有普适性的优点，它的缺点也十分明显：缺乏针对性，效率不高。因此，如果有更精确的构造检验的方法，尤其是正态分布的参数假设检验问题，我们一般不会选择似然比检验。

Part 3：假设检验与区间估计

现在我们讨论单参数假设检验水平为\(\alpha\)的检验问题，事实上这可以与区间估计建立联系。

设\(\boldsymbol{X}=(X_1,\cdots,X_n)\)是从总体\(\{f(x,\theta);\theta\in\Theta\}\)中抽取的简单随机样本，如果参数\(\theta\)的置信水平为\(1-\alpha\)的置信区间为\([\hat\theta_1(\boldsymbol{X}),\hat\theta_2(\boldsymbol{X})]\)，考虑检验问题：

\[H_0:\theta=\theta_0\leftrightarrow H_1:\theta\ne\theta_0,
\]

如果我们需要一个水平为\(\alpha\)的检验，令\(\bar D\)为其接受域，就有

\[\mathbb{P}(\bar D|\theta=\theta_0)=1-\alpha
\]

我们会发现，由置信区间的定义解\(\boldsymbol{X}\in \bar D\)，就能得到\(\hat\theta_1(\boldsymbol{X})\le \theta_0\le \hat\theta_2(\boldsymbol{X})\)。也就是说，如果\(\theta_0\)落入了置信区间规定的范围，就不能拒绝原假设；否则就拒绝原假设。这就是由置信区间构造假设检验的方式。对于单边检验\(H_0:\theta\ge \theta_0\)或者\(H_0:\theta\le \theta_0\)，则相应地求出单边的置信限即可。

因此，要构造出水平为\(\alpha\)的假设检验，只需要构造一个关于\(\theta\)的区间估计（或者置信限），归根结底还是依赖于点估计构造假设检验，在下一节中，我们将展示单正态分布总体参数的假设检验问题，会以一种稍微不同的方式展示点估计的使用方法。

本文的内容略显枯燥，Part 1主要是概念方面的问题，Part 2介绍了一种实用的似然比检验方法，但在我们当前学习的数理统计中用处不广泛，而Part 3将区间估计与假设检验结合在一起，为我们对大多数参数分布族的假设检验提供了方向。下一篇文章中，我们将对正态分布的参数假设检验问题进行讨论，并介绍假设检验中十分重要的概念：检验的p-value。