昨天我们给出了统计量是UMVUE的一个必要条件:它是充分统计量的函数,且是无偏估计,但这并非充分条件。如果说一个统计量的无偏估计函数一定是UMVUE,那么它还应当具有完备性的条件,这就是我们今天将探讨的内容。由于本系列为我独自完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢

Part 1:完备统计量

完备统计量跟充分统计量从名字上看是相对应的,但是完备统计量的意义不像充分统计量那么明确——充分统计量代表能“完全包含”待估参数信息的统计量,而完备统计量则是使得不同的参数值对应不同的统计量分布。具体说来,完备统计量的定义是这样的:

设总体分布族的密度函数为\(f(x;\theta)\),这里\(\theta\in \Theta\)是待估参数,称\(\Theta\)为参数空间(其实我们之前接触过但没有专门提过参数空间的概念)。设\(T=T(\boldsymbol{X})\)为一统计量,若对任何可测函数\(\varphi(\cdot)\)具有以下的条件:

\[\mathbb{E}[\varphi(T(\boldsymbol{X}))]=0\Rightarrow \mathbb{P}(\varphi(T(\boldsymbol{X}))=0)=1,\quad \forall\theta\in\Theta,
\]

就称\(T(\boldsymbol{X})\)是完备统计量。如果放宽条件,当\(\varphi(\cdot)\)是有界函数时上式成立,则称此统计量是有界完备统计量。显然,有界完备统计量必是完备统计量。

从线性代数的角度来看,可以把函数空间视为一个无限维向量空间,那么取期望就可以视为该向量空间上的一个映射,容易验证此映射具有线性映射的性质:

\[\mathbb{E}[f(T(\boldsymbol{X}))+g(T(\boldsymbol{X}))]=\mathbb{E}[f(T(\boldsymbol{X}))]+\mathbb{E}[g(T(\boldsymbol{X}))],\\
\mathbb{E}[\lambda f(T(\boldsymbol{X}))]=\lambda\mathbb{E}[f(T(\boldsymbol{X}))],
\]

完备性就要求\(T(\boldsymbol{X})\)的选择,会使得期望映射成为一个单射(可以回顾单射的条件是\(\mathrm{null}\mathbb{E}=\{0\}\),可参考此链接),也就意味着每一个期望值都对应唯一的可测函数\(\varphi(\cdot)\)。

特别当\(T(\boldsymbol{X})\)有密度函数\(g(x;\theta)\)时,完备性条件可以写成

\[\int_{-\infty}^\infty \varphi(x)g(x;\theta)\mathrm{d}x=0\Rightarrow \varphi(x)\equiv 0.
\]

在将函数空间看成内积空间时,我们一般将\(\int_{-\infty}^\infty\varphi(x)g(x)\mathrm{d}x\)视为\(\langle\varphi(x),g(x)\rangle\),即两个函数的内积,所以\(\int_{-\infty}^\infty\varphi(x)g(x;\theta)\mathrm{d}x=0\)即\(\varphi(x),g(x;\theta)\)正交。完备统计量的密度函数是这样一个函数系\(\{g(x;\theta)\}\):如果\(\varphi(x)\)与函数系中的任意函数正交,则\(\varphi(x)\equiv 0\)。从这一点上,\(\{g(x;\theta)\}\)张成了整个函数空间。

由可测函数的可乘性,如果\(T\)是完备的,则对任何可测函数\(\delta(\cdot)\),\(\delta(T)\)也是完备的。

下面,我们试着用定义来验证均匀分布\(U(a,b)\)的完备统计量是\((X_{(1)},X_{(n)})\)。分别写出其密度函数为

\[f_1(x)=\frac{n(b-x)^{n-1}}{(b-a)^n}I_{a<x<b},\quad f_n(x)=\frac{n(x-a)^{n-1}}{(b-a)^n}I_{a<x<b},
\]

若\(\mathbb{E}[\delta(X_{(1)})]=0\),则

\[\int_a^b\delta(x)(b-x)^{n-1}\mathrm{d}x=0,
\]

对\(a\)求偏导得

\[-\delta(a)(b-a)^{n-1}=0,\forall a<b\Rightarrow \delta(x)\equiv0;
\]

若\(\mathbb{E}[\delta(X_{(n)})]=0\),则

\[\int_a^b\delta(x)(x-a)^{n-1}\mathrm{d}x=0,
\]

对\(b\)求偏导得

\[\delta(b)(b-a)^{n-1}=0,\forall a<b\Rightarrow \delta(x)\equiv0.
\]

因此,\((X_{(1)},X_{(n)})\)是\((a,b)\)的完备统计量。

我个人认为这里不太严谨,因为这没有考虑\((X_{(1)},X_{(n)})\)的零期望函数。实际上应该写出\((X_{(1)},X_{(n)})\)的联合密度函数:

\[f(x,y)=n(n-1)\frac{(y-x)^{n-2}}{(b-a)^n}I_{a<x<y<b},
\]

再证明对任何\(\delta(x,y)\),有

\[\iint_{a<x<y<b}\delta(x,y)(y-x)^{n-2}\mathrm{d}x\mathrm{d}y=0,
\]

由于\((y-x)^{n-2}>0\)恒成立,故\(\delta(x,y)\equiv 0\)。但是这里的证明我写不清楚,如果有人可以给出明确的证明欢迎在评论区留言。

充分统计量和完备统计量具有以下Basu定理,它可以用于验证两个统计量的独立性:设\(T(\boldsymbol{X})\)是参数\(\theta\)充分统计量,且是有界完备统计量,若另一统计量\(V(\boldsymbol{X})\)的分布与\(\theta\)无关(称为辅助统计量),则\(\forall \theta\in\Theta\),\(V(\boldsymbol{X})\)与\(T(\boldsymbol{X})\)独立。直觉上看,Basu定理就指明了这样的结论:只与\(\theta\)有关的统计量,和完全与\(\theta\)无关的统计量相互独立。

不过,从定义上判定某个统计量是完备统计量稍显繁琐,有时还会用到拉普拉斯变换、傅里叶变换等数理统计里比较冷门的知识,因此不作要求。但是,当分布族呈现某种特殊形式时,完备统计量是比较好寻找的,下面我们就要提出这种分布族——指数族

Part 2:指数族

指数族并不特指某一种分布族,而是涵盖了许多种看起来不太相关的分布族,它们的概率函数有一定的共性。我们已经很多次提到概率函数这个概念,在验证统计量的充分性时、提出极大似然估计时都用过,再次说明,对于连续型分布,概率函数指样本联合密度函数;对于离散型分布,概率函数就是取样本值的概率。

现在我们给出指数族的定义。指数族是指这样的一类分布族,其概率函数为\(f(\boldsymbol{x};\theta)\),\(\theta\in\Theta\),它可以表现为下面的形式:

\[f(\boldsymbol{x},\theta)=C(\theta)\exp\left\{\sum_{j=1}^kQ_j(\theta)T_j(\boldsymbol{x}) \right\}h(\boldsymbol{x}).
\]

也就是说,如果某个分布族的概率函数可以分解为以下三部分的乘积:纯参数部分、纯样本部分、指数参数与样本的若干乘积和,那么这个分布族就是指数族。进一步地,令\(\theta_i\xlongequal{def}Q_i(\theta)\),则上式还能被改写为

\[f(\boldsymbol{x},\theta)=C^*(\boldsymbol{\theta})\exp\left\{\sum_{j=1}^k\theta_jT_j(\boldsymbol{x}) \right\}h(\boldsymbol{x}),\quad \boldsymbol{\theta}=(\theta_1,\cdots,\theta_k).
\]

也就是将指数族中,指数部分的参数整体视为一个新的参数,上式称为指数族的自然形式,\((\theta_1,\cdots,\theta_k)\)的取值范围\(\Theta^*\)称为自然参数空间

可以验证,许多常见分布族都是指数族,连续型如正态分布、\(\Gamma\)分布、\(\beta\)分布,离散型如二项分布、泊松分布、负二项分布都属于指数族。需要注意的是:均匀分布\(U(a,b)\)不是指数族。以下简单地给出一些指数族的验证。

正态分布\(N(\mu,\sigma^2)\):

\[\begin{aligned}
f(\boldsymbol{x};\theta)&=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n(x_j-\mu)^2 \right\} \\
&=\frac{e^{-\mu^2/2\sigma^2}}{(2\pi\sigma^2)^{n/2}}\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n x_j^2+\frac{\mu}{\sigma^2}\sum_{j=1}^n x_j \right\}.
\end{aligned}
\]

\(\Gamma\)分布\(\Gamma(\alpha,\lambda)\)(包含指数分布和\(\chi^2\)分布):

\[\begin{aligned}
f(\boldsymbol{x};\theta)&=\left(\frac{\lambda^\alpha}{\Gamma(\lambda)}\right)^n\left(\prod_{j=1}^n x_j \right)^{\alpha-1}\exp\left\{-\lambda\sum_{j=1}^n x_j \right\}\prod_{j=1}^n( I_{x_j>0})\\
&=\left(\frac{\lambda^n}{\Gamma(\lambda)}\right)^n\exp\left\{(\alpha-1)\left(\sum_{j=1}^n \ln x_j \right)-\lambda\sum_{j=1}^nx_j \right\}\prod_{j=1}^n( I_{x_j>0}).
\end{aligned}
\]

\(\beta\)分布\(\beta(a,b)\):

\[\begin{aligned}
f(\boldsymbol{x};\theta)&=\left(\frac{1}{\beta(a,b)} \right)^n\left(\prod_{j=1}^n x_j \right)^{a-1}\left[\prod_{j=1}^n(1-x_j) \right]^{b-1}\prod_{j=1}^n( I_{0<x_j<1})\\
&=\left(\frac{1}{\beta(a,b)}\right)^n\exp\left\{(a-1)\left(\sum_{j=1}^n\ln x_j \right)+(b-1)\left(\sum_{j=1}^n\ln(1-x_j) \right) \right\}\prod_{j=1}^n( I_{0<x_j<1}).
\end{aligned}
\]

二项分布\(B(1,p)\):

\[\begin{aligned}
f(\boldsymbol{x};\theta)&=\prod_{j=1}^np^{x_j}(1-p)^{1-x_j}\\
&=\exp\left\{\ln p\cdot\sum_{j=1}^n x_j+\ln(1-p)\sum_{j=1}^n(1-x_j) \right\}\\
&=(1-p)^n\exp\left\{\ln\left(\frac{p}{1-p} \right)\sum_{j=1}^n x_j \right\}.
\end{aligned}
\]

泊松分布\(P(\lambda)\):

\[\begin{aligned}
f(\boldsymbol{x};\theta)&=\prod_{j=1}^n\frac{\lambda^{x_j}}{(x_j)!}e^{-\lambda}\\
&=e^{-n\lambda }\exp\left\{\ln\lambda\cdot\sum_{j=1}^n x_j \right\}\prod_{j=1}^n\frac{1}{(x_j)!}.
\end{aligned}
\]

为什么说均匀分布族\(U(a,b)\)不是指数族?这是因为均匀分布族有一个重要特性是,它的支撑集与参数有关,支撑集就是\(x\)可能取值的集合。如果支撑集与参数有关,那么密度函数中自然包含\(I_{a<x<b}\)这一项,而示性函数中既包含参数、又包含样本值是不能被放到指数部分的,所以支撑集与参数有关的分布族都不是指数族

为什么说指数族重要?首先不加证明地指出指数族具有的两条性质:

  1. 指数族的自然参数空间为凸集。这保证了自然参数的取值范围有良好的性质。
  2. 指数族的概率函数积分与任意阶偏导可交换。回想我们在证明正态分布中\((\bar X,S^2)\)是UMVUE时,就用到了这条性质,只是当时没有加以说明。

其次,指数族的形式,便于我们寻找充分统计量和完备统计量。充分性方面,显然指数族的分解形式直接就是因子分解定理的扩展,中间的\((T_1(\boldsymbol{x}),\cdots,T_k(\boldsymbol{x}))\)自然就是参数\(\theta\)的充分统计量。而完备性方面,在指数族的自然形式下,有如下的定理:

样本\(\boldsymbol{X}=(X_1,\cdots,X_n)\)的概率函数可以写成指数族的自然形式如下:

\[f(\boldsymbol{x};\boldsymbol{\theta})=C(\boldsymbol{\theta})\exp\left\{\sum_{j=1}^k\theta_jT_j(\boldsymbol{x}) \right\}h(\boldsymbol{x}),\quad \boldsymbol{\theta}=(\theta_1,\cdots,\theta_k)\in\Theta^*.
\]

如果\(\Theta^*\)作为\(\mathbb{R}^k\)的子集有内点,则\((T_1(\boldsymbol{x}),\cdots,T_k(\boldsymbol{x}))\)是完备统计量。

我们探讨的许多分布族都是指数族,这个定理指出,指数族的充分统计量几乎也是完备统计量,这就给我们寻找指数族的完备统计量提供了很大的便利。

Part 3:寻找UMVUE——充分完备统计量法

为什么我们要花费大量篇幅介绍完备统计量和指数族?在开篇之处我们就提到,UMVUE必定是充分统计量的无偏估计函数,但反之不一定成立。当我们给出完备统计量后,我们可以给出寻找UMVUE的充分条件了,这就是Lehmann-Scheffé定理参考链接)。

定理内容如下。设\(\boldsymbol{X}=(X_1,\cdots,X_n)\)是\(f(x;\theta)\)中抽取的简单随机样本,\(g(\theta)\)是参数空间\(\Theta\)上的可估参数,\(T(\boldsymbol{X})\)是\(\theta\)的充分完备统计量。若\(\tilde g(T(\boldsymbol{X}))\)是\(g(\theta)\)的一个无偏估计,则\(\tilde g(T(\boldsymbol{X}))\)是\(g(\theta)\)的唯一UMVUE(均方唯一)。

特别当\(f({x};\theta)\)为指数族时,如果自然形式为

\[f(\boldsymbol{x};\boldsymbol{\theta})=C(\boldsymbol{\theta})\exp\left\{\sum_{j=1}^k\theta_jT_j(\boldsymbol{x}) \right\}h(\boldsymbol{x}),
\]

则\(T(\boldsymbol{X})=(T_1(\boldsymbol{X}),\cdots,T_k(\boldsymbol{X}))\)是\(\theta\)的充分完备统计量,如果能找到一个\(\hat g(\cdot)\),使得

\[\mathbb{E}(\hat g(T(\boldsymbol{X})))=g(\theta),
\]

则\(\hat g(T(\boldsymbol{X}))\)是\(g(\theta)\)的UMVUE。

这个定理十分简洁,指出如果我们要寻找UMVUE,只需找到关于参数的一个充分完备统计量,再构造一定的函数使之成为无偏估计即可。比起零无偏估计法只能验证、不能寻找而言,充分完备统计量法不仅在验证上十分简洁,而且提供了寻找UMVUE的方向。

关于定理的证明,先证关于充分完备统计量无偏估计的唯一性,如果\(\hat g(T(\boldsymbol{X}))\)和\(\tilde g(T(\boldsymbol{X}))\)都是\(g(\theta)\)的无偏估计,则

\[\delta(T(\boldsymbol{X}))\xlongequal{def}\hat g(T(\boldsymbol{X}))-\tilde g(T(\boldsymbol{X}))
\]

满足\(\mathbb{E}[\delta(T(\boldsymbol{X}))]=0\),由\(T(\boldsymbol{X})\)的完备性,\(\delta(T(\boldsymbol{X}))\equiv 0\)。

再证\(\tilde g(T(\boldsymbol{X}))\)是UMVUE,设\(\varphi(\boldsymbol{X})\)是\(g(\theta)\)的任一无偏估计,令\(h(T(\boldsymbol{X}))=\mathbb{E}(\varphi(\boldsymbol{X})|T)\),它是一个比\(\varphi(\boldsymbol{X})\)更有效的无偏估计,且是唯一的。既然任一非\(T(\boldsymbol{X})\)函数的无偏估计都能被改进为\(T(\boldsymbol{X})\)的函数,而关于\(T(\boldsymbol{X})\)函数的无偏估计又是唯一的,那么\(h(T(\boldsymbol{X}))\)自然是UMVUE。

限于篇幅,我们在下一篇文章中指出如何使用充分完备统计量法寻找待估参数的UMVUE。

Part 4:Cramer-Rao不等式

最后,我们不作展开地简单介绍一下Cramer-Rao不等式,它给出了用任何无偏估计量估计待估参数的方差下限。

C-R不等式的成立依赖于一定的C-R正则条件,接下来我们假设总体分布族的概率函数是\(f(x;\theta)\),这里\(\theta\)是单个参数:

  1. \(\Theta\)是直线上的某个开区间;

  2. 分布族拥有共同的支撑集;

  3. 总体分布族的概率函数关于参数\(\theta\)的一阶导数\(\frac{\partial f(x;\theta)}{\partial\theta}\)存在;

  4. 概率函数\(f(x,\theta)\)的积分(或无穷级数)与微分运算可交换,即

    \[\frac{\partial}{\partial\theta}\int f(x;\theta)\mathrm{d}x=\int\frac{\partial}{\partial\theta}f(x;\theta)\mathrm{d}x;
    \]
  5. 定义\(I(\theta)\)为

    \[I(\theta)=\mathbb{E}\left[\frac{\partial \ln f(X,\theta)}{\partial\theta} \right]^2=-\mathbb{E}\left[\frac{\partial^2\ln f(X,\theta)}{\partial\theta^2} \right].
    \]

    这个数学期望存在,且\(0<I(\theta)<\infty\)。

以上五个条件称为C-R正则条件,特别\(I(\theta)\)称为Fisher信息函数,它刻画了总体模型所含待估参数信息的多少。当正则条件满足时,C-R不等式表现为,对任何\(g(\theta)\)的无偏估计\(\hat g(\boldsymbol{X})\),其方差下界称为C-R下界,为

\[\mathbb{D}[\hat g(\boldsymbol{X})]\ge \frac{(g'(\theta))^2}{nI(\theta)}.
\]

在实际应用C-R不等式求某个待估参数的方差下界时,要先计算出\(I(\theta)\),一般用上面的第二个等号更好计算。

要注意的是,即使是某个待估参数的UMVUE,可能也达不到C-R下界,即并非UMVUE的方差一定是C-R下界,但是方差达到C-R下界的无偏估计一定是UMVUE。

基于此,对于\(g(\theta)\)的无偏估计量\(\hat g(\boldsymbol{X})\),定义其效率为C-R下界与估计量方差的比值,即

\[e_{\hat g}(\theta)=\frac{[g'(\theta)]^2}{nI(\theta)\cdot\mathbb{D}(\hat g(\boldsymbol{X}))},\quad e_{\hat g}(\theta)\in[0,1].
\]

如果某个估计量\(\hat g(\boldsymbol{X})\)的效率\(e_{\hat g}(\theta)=1\),就称之为有效估计,如果\(e_{\hat g}(\theta)\to 1\),就称之为渐进有效估计。


今天的重点在于充分完备统计量法寻找UMVUE,顺带介绍了完备统计量、指数族与C-R不等式。不过,我们还没有将充分完备统计量法投入实用,所以下一篇文章中,我们将讨论几个充分完备统计量法的应用案例。

数理统计9:完备统计量,指数族,充分完备统计量法,CR不等式的更多相关文章

  1. 数理统计16:NP理论、似然比检验、假设检验与区间估计

    本文介绍Neyman-Pearson理论,这也是我们会见到的最常见假设检验问题类,这里第一Part的概念介绍略显枯燥,大家尽量理解即可.由于本系列为我独自完成的,缺少审阅,如果有任何错误,欢迎在评论区 ...

  2. 数理统计11:区间估计,t分布,F分布

    在之前的十篇文章中,我们用了九篇文章的篇幅讨论了点估计的相关知识,现在来稍作回顾. 首先,我们讨论了正态分布两个参数--均值.方差的点估计,给出了它们的分布信息,并指出它们是相互独立的:然后,我们讨论 ...

  3. 《Spark MLlib机器学习实践》内容简介、目录

      http://product.dangdang.com/23829918.html Spark作为新兴的.应用范围最为广泛的大数据处理开源框架引起了广泛的关注,它吸引了大量程序设计和开发人员进行相 ...

  4. 卡方检验(Chi-square test/Chi-Square Goodness-of-Fit Test)

    什么是卡方检验 卡方检验是一种用途很广的计数资料的假设检验方法.它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析.其根本思想就是在于比较理论频数和实际频数 ...

  5. 您真的理解了SQLSERVER的日志链了吗?

    您真的理解了SQLSERVER的日志链了吗? 先感谢宋沄剑给本人指点迷津,还有郭忠辉童鞋今天在QQ群里抛出的问题 这个问题跟宋沄剑讨论了三天,再次感谢宋沄剑 一直以来,SQLSERVER提供了一个非常 ...

  6. Java笔记4-do while循环,break,修饰符,方法的调用

    do while循环语法:do{ //循环体}while(条件表达式); 注:它是先执行循环体,后再判断的循环结构. 如:int i = 0;do{ System.out.println(" ...

  7. R与数据分析旧笔记(十三) 聚类初步

    聚类 聚类 关键度量指标:距离 常用距离 绝对值距离 绝对值距离也称为"棋盘距离"或"城市街区距离". 欧氏(Euclide)距离 闵可夫斯基(Minkowsk ...

  8. bzoj3571————2016——3——12(最小乘积匹配)

    bzoj3571 传送门http://www.lydsy.com/JudgeOnline/problem.php?id=3571 题解: ——————来自伟大的thy大神  http://blog.c ...

  9. opnet点对点通信模型 分类: opnet 2014-05-26 22:15 246人阅读 评论(3) 收藏

    网络包含两个节点,一个发送节点,一个接收节点.发送节点按照某种随机的规律产生数据包(包大小和包间隔可自己定义),然后发送给接收节点.传输过程中会有一些随机的差错(误包率也可自己定义).接收节点收到正确 ...

随机推荐

  1. LeetCode501.二叉搜索树中的众数

    题目,本题未做出,还有很多要学习 class Solution { public: vector<int>ans; int base,count,maxCount; void update ...

  2. openpose c++ 配置教程 + python api

    之前有介绍过基于tensorflow的openpose版本安装,但是我觉得没有caffe框架那么好用,很多功能也实现不了,比如调节net_resolution的调节,通过调节分辨率来提高检测的精确性和 ...

  3. 萌新入门之python基础语法

    首先我们先了解一些python最最基础的入门 1.标识符 定义:我们写代码的时候自己取得名字比如项目名,包名,模块名这些: 规范:1.数字/字母/下划线组成,不能以数字开头 2.起名字要见名知意 3. ...

  4. luogu P4116 Qtree3

    题目描述 给出N个点的一棵树(N-1条边),节点有白有黑,初始全为白 有两种操作: 0 i : 改变某点的颜色(原来是黑的变白,原来是白的变黑) 1 v : 询问1到v的路径上的第一个黑点,若无,输出 ...

  5. [Usaco2008 Mar]牛跑步

    题目描述 BESSIE准备用从牛棚跑到池塘的方法来锻炼. 但是因为她懒,她只准备沿着下坡的路跑到池塘, 然后走回牛棚. BESSIE也不想跑得太远,所以她想走最短的路经. 农场上一共有M (1 < ...

  6. 阿里云VOD(一)

    一.阿里云视频点播 1.功能介绍 视频点播(ApsaraVideo VoD,简称VoD)是集视频采集.编辑.上传.媒体资源管理.自动化转码处理(窄带高清TM).视频审核分析.分发加速于一体的一站式音视 ...

  7. jmeter-登录获取cookie后参数化,或手动添加cookie, 再进行并发测试

    以下情况其实并不适用于直接登录可以获取cookie情况,直接可以登录成功,直接添加cookie管理,cookie可以直接使用用于以下请求操作. 如果登录一次后,后续许多操作,可以将cookie管理器放 ...

  8. top命令详解-性能分析

    top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,常用于服务端性能分析. top命令说明 [www.linuxidc.com@linuxidc-t-tomcat-1 ...

  9. error out of table range

    .

  10. oracle模糊查询mysql的区别

    https://blog.csdn.net/weixin_38673554/article/details/86503982#_1 oracle与使用mysql的区别 https://www.cnbl ...