数理统计9：完备统计量，指数族，充分完备统计量法，CR不等式

昨天我们给出了统计量是UMVUE的一个必要条件：它是充分统计量的函数，且是无偏估计，但这并非充分条件。如果说一个统计量的无偏估计函数一定是UMVUE，那么它还应当具有完备性的条件，这就是我们今天将探讨的内容。由于本系列为我独自完成的，缺少审阅，如果有任何错误，欢迎在评论区中指出，谢谢！

Part 1：完备统计量

完备统计量跟充分统计量从名字上看是相对应的，但是完备统计量的意义不像充分统计量那么明确——充分统计量代表能“完全包含”待估参数信息的统计量，而完备统计量则是使得不同的参数值对应不同的统计量分布。具体说来，完备统计量的定义是这样的：

设总体分布族的密度函数为$f(x;\theta)$，这里$\theta\in \Theta$是待估参数，称$\Theta$为参数空间（其实我们之前接触过但没有专门提过参数空间的概念）。设$T=T(\boldsymbol{X})$为一统计量，若对任何可测函数$\varphi(\cdot)$具有以下的条件：

\[\mathbb{E}[\varphi(T(\boldsymbol{X}))]=0\Rightarrow \mathbb{P}(\varphi(T(\boldsymbol{X}))=0)=1,\quad \forall\theta\in\Theta,
\]

就称$T(\boldsymbol{X})$是完备统计量。如果放宽条件，当$\varphi(\cdot)$是有界函数时上式成立，则称此统计量是有界完备统计量。显然，有界完备统计量必是完备统计量。

从线性代数的角度来看，可以把函数空间视为一个无限维向量空间，那么取期望就可以视为该向量空间上的一个映射，容易验证此映射具有线性映射的性质：

\[\mathbb{E}[f(T(\boldsymbol{X}))+g(T(\boldsymbol{X}))]=\mathbb{E}[f(T(\boldsymbol{X}))]+\mathbb{E}[g(T(\boldsymbol{X}))],\\
\mathbb{E}[\lambda f(T(\boldsymbol{X}))]=\lambda\mathbb{E}[f(T(\boldsymbol{X}))],
\]

完备性就要求$T(\boldsymbol{X})$的选择，会使得期望映射成为一个单射（可以回顾单射的条件是$\mathrm{null}\mathbb{E}=\{0\}$，可参考此链接），也就意味着每一个期望值都对应唯一的可测函数$\varphi(\cdot)$。

特别当$T(\boldsymbol{X})$有密度函数$g(x;\theta)$时，完备性条件可以写成

\[\int_{-\infty}^\infty \varphi(x)g(x;\theta)\mathrm{d}x=0\Rightarrow \varphi(x)\equiv 0.
\]

在将函数空间看成内积空间时，我们一般将$\int_{-\infty}^\infty\varphi(x)g(x)\mathrm{d}x$视为$\langle\varphi(x),g(x)\rangle$，即两个函数的内积，所以$\int_{-\infty}^\infty\varphi(x)g(x;\theta)\mathrm{d}x=0$即$\varphi(x),g(x;\theta)$正交。完备统计量的密度函数是这样一个函数系$\{g(x;\theta)\}$：如果$\varphi(x)$与函数系中的任意函数正交，则$\varphi(x)\equiv 0$。从这一点上，$\{g(x;\theta)\}$张成了整个函数空间。

由可测函数的可乘性，如果$T$是完备的，则对任何可测函数$\delta(\cdot)$，$\delta(T)$也是完备的。

下面，我们试着用定义来验证均匀分布$U(a,b)$的完备统计量是$(X_{(1)},X_{(n)})$。分别写出其密度函数为

\[f_1(x)=\frac{n(b-x)^{n-1}}{(b-a)^n}I_{a<x<b},\quad f_n(x)=\frac{n(x-a)^{n-1}}{(b-a)^n}I_{a<x<b},
\]

若$\mathbb{E}[\delta(X_{(1)})]=0$，则

\[\int_a^b\delta(x)(b-x)^{n-1}\mathrm{d}x=0,
\]

对$a$求偏导得

\[-\delta(a)(b-a)^{n-1}=0,\forall a<b\Rightarrow \delta(x)\equiv0;
\]

若$\mathbb{E}[\delta(X_{(n)})]=0$，则

\[\int_a^b\delta(x)(x-a)^{n-1}\mathrm{d}x=0,
\]

对$b$求偏导得

\[\delta(b)(b-a)^{n-1}=0,\forall a<b\Rightarrow \delta(x)\equiv0.
\]

因此，$(X_{(1)},X_{(n)})$是$(a,b)$的完备统计量。

我个人认为这里不太严谨，因为这没有考虑$(X_{(1)},X_{(n)})$的零期望函数。实际上应该写出$(X_{(1)},X_{(n)})$的联合密度函数：

\[f(x,y)=n(n-1)\frac{(y-x)^{n-2}}{(b-a)^n}I_{a<x<y<b},
\]

再证明对任何$\delta(x,y)$，有

\[\iint_{a<x<y<b}\delta(x,y)(y-x)^{n-2}\mathrm{d}x\mathrm{d}y=0,
\]

由于$(y-x)^{n-2}>0$恒成立，故$\delta(x,y)\equiv 0$。但是这里的证明我写不清楚，如果有人可以给出明确的证明欢迎在评论区留言。

充分统计量和完备统计量具有以下Basu定理，它可以用于验证两个统计量的独立性：设$T(\boldsymbol{X})$是参数$\theta$充分统计量，且是有界完备统计量，若另一统计量$V(\boldsymbol{X})$的分布与$\theta$无关（称为辅助统计量），则$\forall \theta\in\Theta$，$V(\boldsymbol{X})$与$T(\boldsymbol{X})$独立。直觉上看，Basu定理就指明了这样的结论：只与$\theta$有关的统计量，和完全与$\theta$无关的统计量相互独立。

不过，从定义上判定某个统计量是完备统计量稍显繁琐，有时还会用到拉普拉斯变换、傅里叶变换等数理统计里比较冷门的知识，因此不作要求。但是，当分布族呈现某种特殊形式时，完备统计量是比较好寻找的，下面我们就要提出这种分布族——指数族。

Part 2：指数族

指数族并不特指某一种分布族，而是涵盖了许多种看起来不太相关的分布族，它们的概率函数有一定的共性。我们已经很多次提到概率函数这个概念，在验证统计量的充分性时、提出极大似然估计时都用过，再次说明，对于连续型分布，概率函数指样本联合密度函数；对于离散型分布，概率函数就是取样本值的概率。

现在我们给出指数族的定义。指数族是指这样的一类分布族，其概率函数为$f(\boldsymbol{x};\theta)$，$\theta\in\Theta$，它可以表现为下面的形式：

\[f(\boldsymbol{x},\theta)=C(\theta)\exp\left\{\sum_{j=1}^kQ_j(\theta)T_j(\boldsymbol{x}) \right\}h(\boldsymbol{x}).
\]

也就是说，如果某个分布族的概率函数可以分解为以下三部分的乘积：纯参数部分、纯样本部分、指数参数与样本的若干乘积和，那么这个分布族就是指数族。进一步地，令$\theta_i\xlongequal{def}Q_i(\theta)$，则上式还能被改写为

\[f(\boldsymbol{x},\theta)=C^*(\boldsymbol{\theta})\exp\left\{\sum_{j=1}^k\theta_jT_j(\boldsymbol{x}) \right\}h(\boldsymbol{x}),\quad \boldsymbol{\theta}=(\theta_1,\cdots,\theta_k).
\]

也就是将指数族中，指数部分的参数整体视为一个新的参数，上式称为指数族的自然形式，$(\theta_1,\cdots,\theta_k)$的取值范围$\Theta^*$称为自然参数空间。

可以验证，许多常见分布族都是指数族，连续型如正态分布、$\Gamma$分布、$\beta$分布，离散型如二项分布、泊松分布、负二项分布都属于指数族。需要注意的是：均匀分布$U(a,b)$不是指数族。以下简单地给出一些指数族的验证。

正态分布$N(\mu,\sigma^2)$：

\[\begin{aligned}
f(\boldsymbol{x};\theta)&=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n(x_j-\mu)^2 \right\} \\
&=\frac{e^{-\mu^2/2\sigma^2}}{(2\pi\sigma^2)^{n/2}}\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n x_j^2+\frac{\mu}{\sigma^2}\sum_{j=1}^n x_j \right\}.
\end{aligned}
\]

$\Gamma$分布$\Gamma(\alpha,\lambda)$（包含指数分布和$\chi^2$分布）：

\[\begin{aligned}
f(\boldsymbol{x};\theta)&=\left(\frac{\lambda^\alpha}{\Gamma(\lambda)}\right)^n\left(\prod_{j=1}^n x_j \right)^{\alpha-1}\exp\left\{-\lambda\sum_{j=1}^n x_j \right\}\prod_{j=1}^n( I_{x_j>0})\\
&=\left(\frac{\lambda^n}{\Gamma(\lambda)}\right)^n\exp\left\{(\alpha-1)\left(\sum_{j=1}^n \ln x_j \right)-\lambda\sum_{j=1}^nx_j \right\}\prod_{j=1}^n( I_{x_j>0}).
\end{aligned}
\]

$\beta$分布$\beta(a,b)$：

\[\begin{aligned}
f(\boldsymbol{x};\theta)&=\left(\frac{1}{\beta(a,b)} \right)^n\left(\prod_{j=1}^n x_j \right)^{a-1}\left[\prod_{j=1}^n(1-x_j) \right]^{b-1}\prod_{j=1}^n( I_{0<x_j<1})\\
&=\left(\frac{1}{\beta(a,b)}\right)^n\exp\left\{(a-1)\left(\sum_{j=1}^n\ln x_j \right)+(b-1)\left(\sum_{j=1}^n\ln(1-x_j) \right) \right\}\prod_{j=1}^n( I_{0<x_j<1}).
\end{aligned}
\]

二项分布$B(1,p)$：

\[\begin{aligned}
f(\boldsymbol{x};\theta)&=\prod_{j=1}^np^{x_j}(1-p)^{1-x_j}\\
&=\exp\left\{\ln p\cdot\sum_{j=1}^n x_j+\ln(1-p)\sum_{j=1}^n(1-x_j) \right\}\\
&=(1-p)^n\exp\left\{\ln\left(\frac{p}{1-p} \right)\sum_{j=1}^n x_j \right\}.
\end{aligned}
\]

泊松分布$P(\lambda)$：

\[\begin{aligned}
f(\boldsymbol{x};\theta)&=\prod_{j=1}^n\frac{\lambda^{x_j}}{(x_j)!}e^{-\lambda}\\
&=e^{-n\lambda }\exp\left\{\ln\lambda\cdot\sum_{j=1}^n x_j \right\}\prod_{j=1}^n\frac{1}{(x_j)!}.
\end{aligned}
\]

为什么说均匀分布族$U(a,b)$不是指数族？这是因为均匀分布族有一个重要特性是，它的支撑集与参数有关，支撑集就是$x$可能取值的集合。如果支撑集与参数有关，那么密度函数中自然包含$I_{a<x<b}$这一项，而示性函数中既包含参数、又包含样本值是不能被放到指数部分的，所以支撑集与参数有关的分布族都不是指数族。

为什么说指数族重要？首先不加证明地指出指数族具有的两条性质：

指数族的自然参数空间为凸集。这保证了自然参数的取值范围有良好的性质。
指数族的概率函数积分与任意阶偏导可交换。回想我们在证明正态分布中$(\bar X,S^2)$是UMVUE时，就用到了这条性质，只是当时没有加以说明。

其次，指数族的形式，便于我们寻找充分统计量和完备统计量。充分性方面，显然指数族的分解形式直接就是因子分解定理的扩展，中间的$(T_1(\boldsymbol{x}),\cdots,T_k(\boldsymbol{x}))$自然就是参数$\theta$的充分统计量。而完备性方面，在指数族的自然形式下，有如下的定理：

样本$\boldsymbol{X}=(X_1,\cdots,X_n)$的概率函数可以写成指数族的自然形式如下：

\[f(\boldsymbol{x};\boldsymbol{\theta})=C(\boldsymbol{\theta})\exp\left\{\sum_{j=1}^k\theta_jT_j(\boldsymbol{x}) \right\}h(\boldsymbol{x}),\quad \boldsymbol{\theta}=(\theta_1,\cdots,\theta_k)\in\Theta^*.
\]

如果$\Theta^*$作为$\mathbb{R}^k$的子集有内点，则$(T_1(\boldsymbol{x}),\cdots,T_k(\boldsymbol{x}))$是完备统计量。

我们探讨的许多分布族都是指数族，这个定理指出，指数族的充分统计量几乎也是完备统计量，这就给我们寻找指数族的完备统计量提供了很大的便利。

Part 3：寻找UMVUE——充分完备统计量法

为什么我们要花费大量篇幅介绍完备统计量和指数族？在开篇之处我们就提到，UMVUE必定是充分统计量的无偏估计函数，但反之不一定成立。当我们给出完备统计量后，我们可以给出寻找UMVUE的充分条件了，这就是Lehmann-Scheffé定理（参考链接）。

定理内容如下。设$\boldsymbol{X}=(X_1,\cdots,X_n)$是$f(x;\theta)$中抽取的简单随机样本，$g(\theta)$是参数空间$\Theta$上的可估参数，$T(\boldsymbol{X})$是$\theta$的充分完备统计量。若$\tilde g(T(\boldsymbol{X}))$是$g(\theta)$的一个无偏估计，则$\tilde g(T(\boldsymbol{X}))$是$g(\theta)$的唯一UMVUE（均方唯一）。

特别当$f({x};\theta)$为指数族时，如果自然形式为

\[f(\boldsymbol{x};\boldsymbol{\theta})=C(\boldsymbol{\theta})\exp\left\{\sum_{j=1}^k\theta_jT_j(\boldsymbol{x}) \right\}h(\boldsymbol{x}),
\]

则$T(\boldsymbol{X})=(T_1(\boldsymbol{X}),\cdots,T_k(\boldsymbol{X}))$是$\theta$的充分完备统计量，如果能找到一个$\hat g(\cdot)$，使得

\[\mathbb{E}(\hat g(T(\boldsymbol{X})))=g(\theta),
\]

则$\hat g(T(\boldsymbol{X}))$是$g(\theta)$的UMVUE。

这个定理十分简洁，指出如果我们要寻找UMVUE，只需找到关于参数的一个充分完备统计量，再构造一定的函数使之成为无偏估计即可。比起零无偏估计法只能验证、不能寻找而言，充分完备统计量法不仅在验证上十分简洁，而且提供了寻找UMVUE的方向。

关于定理的证明，先证关于充分完备统计量无偏估计的唯一性，如果$\hat g(T(\boldsymbol{X}))$和$\tilde g(T(\boldsymbol{X}))$都是$g(\theta)$的无偏估计，则

\[\delta(T(\boldsymbol{X}))\xlongequal{def}\hat g(T(\boldsymbol{X}))-\tilde g(T(\boldsymbol{X}))
\]

满足$\mathbb{E}[\delta(T(\boldsymbol{X}))]=0$，由$T(\boldsymbol{X})$的完备性，$\delta(T(\boldsymbol{X}))\equiv 0$。

再证$\tilde g(T(\boldsymbol{X}))$是UMVUE，设$\varphi(\boldsymbol{X})$是$g(\theta)$的任一无偏估计，令$h(T(\boldsymbol{X}))=\mathbb{E}(\varphi(\boldsymbol{X})|T)$，它是一个比$\varphi(\boldsymbol{X})$更有效的无偏估计，且是唯一的。既然任一非$T(\boldsymbol{X})$函数的无偏估计都能被改进为$T(\boldsymbol{X})$的函数，而关于$T(\boldsymbol{X})$函数的无偏估计又是唯一的，那么$h(T(\boldsymbol{X}))$自然是UMVUE。

限于篇幅，我们在下一篇文章中指出如何使用充分完备统计量法寻找待估参数的UMVUE。

Part 4：Cramer-Rao不等式

最后，我们不作展开地简单介绍一下Cramer-Rao不等式，它给出了用任何无偏估计量估计待估参数的方差下限。

C-R不等式的成立依赖于一定的C-R正则条件，接下来我们假设总体分布族的概率函数是$f(x;\theta)$，这里$\theta$是单个参数：

$\Theta$是直线上的某个开区间；
分布族拥有共同的支撑集；
总体分布族的概率函数关于参数$\theta$的一阶导数$\frac{\partial f(x;\theta)}{\partial\theta}$存在；
概率函数$f(x,\theta)$的积分（或无穷级数）与微分运算可交换，即

\[\frac{\partial}{\partial\theta}\int f(x;\theta)\mathrm{d}x=\int\frac{\partial}{\partial\theta}f(x;\theta)\mathrm{d}x;
\]
定义$I(\theta)$为

\[I(\theta)=\mathbb{E}\left[\frac{\partial \ln f(X,\theta)}{\partial\theta} \right]^2=-\mathbb{E}\left[\frac{\partial^2\ln f(X,\theta)}{\partial\theta^2} \right].
\]

这个数学期望存在，且$0<I(\theta)<\infty$。

以上五个条件称为C-R正则条件，特别$I(\theta)$称为Fisher信息函数，它刻画了总体模型所含待估参数信息的多少。当正则条件满足时，C-R不等式表现为，对任何$g(\theta)$的无偏估计$\hat g(\boldsymbol{X})$，其方差下界称为C-R下界，为

\[\mathbb{D}[\hat g(\boldsymbol{X})]\ge \frac{(g'(\theta))^2}{nI(\theta)}.
\]

在实际应用C-R不等式求某个待估参数的方差下界时，要先计算出$I(\theta)$，一般用上面的第二个等号更好计算。

要注意的是，即使是某个待估参数的UMVUE，可能也达不到C-R下界，即并非UMVUE的方差一定是C-R下界，但是方差达到C-R下界的无偏估计一定是UMVUE。

基于此，对于$g(\theta)$的无偏估计量$\hat g(\boldsymbol{X})$，定义其效率为C-R下界与估计量方差的比值，即

\[e_{\hat g}(\theta)=\frac{[g'(\theta)]^2}{nI(\theta)\cdot\mathbb{D}(\hat g(\boldsymbol{X}))},\quad e_{\hat g}(\theta)\in[0,1].
\]

如果某个估计量$\hat g(\boldsymbol{X})$的效率$e_{\hat g}(\theta)=1$，就称之为有效估计，如果$e_{\hat g}(\theta)\to 1$，就称之为渐进有效估计。

今天的重点在于充分完备统计量法寻找UMVUE，顺带介绍了完备统计量、指数族与C-R不等式。不过，我们还没有将充分完备统计量法投入实用，所以下一篇文章中，我们将讨论几个充分完备统计量法的应用案例。