Sufficient Statistic (充分统计量)
定义
统计量是一些随机样本\(X_1, X_2, \cdots, X_n\)的函数
\]
样本\(X\)的分布\(f_{\theta}(X)=f(X;\theta)\)由位置参数\(\theta\)决定, 通常我们通过极大似然估计
\]
而充分统计量是指这样的统计量:
\]
即在给定\(T(X)=t\)的情况下, \(\{X_i\}\)的条件联合分布与未知参数\(\theta\)无关.
Example: 考虑伯努利分布, 成功的概率为\(p\), 失败的概率为\(1-p\), 有\(n\)个独立同分布的样本\(X_1, X_2,\cdots, X_n\), 则:
\]
实际上(后面会讲到)\(T=\sum_i^n X_i\)为其一充分统计量. 实际上,
\]
显然与位置参数\(p\)无关.
充分统计量特别的意义, 比如上面提到的极大似然估计, 由于
\]
由于\(P(\{X_i\}|T)\)与\(\theta\)无关, 所以最大化上式等价于
\]
特别地, 有时候标量\(T\)并不充分, 需要\(T=(T_1, T_2,\cdots, T_k)\) 整体作为充分统计量, 比如当正态分布地\(\mu, \sigma\)均为未知参数的时候, \(T=(\frac{1}{n}\sum_i X_i, \frac{1}{n-1}\sum_i (X_i - \bar{X})^2)\). 性质和上面的别无二致, 所以下面也不特别说明了.
当置于贝叶斯框架下时, 可以发现:
= \frac{P(\{X_i\}, T, \theta)}{P(\{X_i\}, T)}
= \frac{P(\{X_i\}| T, \theta) P(T|\theta)}{P(\{X_i\}, T)}
= \frac{P(\{X_i\}| T) P(T|\theta)}{P(\{X_i\}, T)}
= P(\theta|T).
\]
即给定\(\{X_i\}\)或者\(T\), \(\theta\)的条件(后验)分布是一致的.
特别地, 我们可以用互信息来定义充分统计量, \(T\)为充分统计量, 当且仅当
\]
注: 一般情况下\(I(\theta;X) \ge I(\theta;T(X))\).
充分统计量的判定
用上面的标准来判断充分统计量是非常困难的一件事, 好在有Fisher-Neyman分离定理:
Factorization Theorem: \(\{X_i\}\)的联合密度函数为\(f_{\theta}(X)\), 则\(T\)是关于\(\theta\)的充分统计量当且仅当存在非负函数\(g, h\)满足
\]
注: \(T\)可以是\(T=(T_1, T_2,\cdots, T_k)\).
proof:
\(\Rightarrow\)
\]
此时
h(X_1, X_2,\cdots, X_n) = p(\{X_i\}|T).
\]
\(\Leftarrow\)
为了符号简便, 令\(X = \{X_1, X_2,\cdots, X_n\}\).
p(T=t;\theta)
&= \int_{T(X)=t} p(X,T=t;\theta) \mathrm{d}X \\
&= \int_{T(X)=t} f(X;\theta) \mathrm{d}X \\
&= \int_{T(X)=t} h(X) g(T=t;\theta) \mathrm{d}X \\
&= \int_{T(X)=t} h(X) \mathrm{d}X \cdot g(T=t;\theta) \\
\end{array}.
\]
则
p(X | T=t;\theta)
&= \frac{p(X,T=t;\theta)}{p(T=t;\theta)} \\
&= \frac{p(X;\theta)}{p(T=t;\theta)} \\
&= \frac{h(X)g(T=t;\theta)}{\int_{T(X)=t}h(X)\mathrm{d} X \cdot g(T=t;\theta)} \\
&= \frac{h(X)}{\int_{T(X)=t}h(X)}. \\
\end{array}
\]
与\(\theta\)无关.
注: 上述的证明存疑.
最小统计量
最小统计量S, 即
- S是充分统计量;
- 充分统计量\(T\), 存在\(f\), 使得\(S=f(T)\).
注: 若\(T\)是充分统计量, 则任意的可逆函数\(f\)得到的\(f(T)\)也是充分统计量.
例子
\(U[0, \theta]\)
均匀分布, 此时
\]
故
\]
\(U[\alpha, \beta]\)
\]
g(T;\alpha, \beta) = \frac{1}{(\beta - \alpha)^n} \mathbb{I}[\alpha\le \min \{X_i\}] \cdot \mathbb{I}[\max \{X_i\} \le \theta], \\
h(X) = 1.
\]
Poisson
\]
\]
g(T;\theta) = e^{-n\lambda} \cdot \lambda^T, \\
h(X) = \frac{1}{\prod_{i} X_i!}.
\]
Normal
\]
\]
若\(\sigma\)已知:
g(T;\mu) = (2\pi\sigma^2)^{-\frac{n}{2}} \exp(-\frac{n}{2\sigma^2})(\mu-T)^2, \\
h(X) = \exp (-\frac{1}{2\sigma^2}\sum_{i=1}^n (X_i - \bar{X})^2).
\]
若\(\sigma\)未知:
g(T;\mu,\sigma) = (2\pi\sigma^2)^{-\frac{n}{2}}\exp(-\frac{n-1}{2\sigma^2}s^2) \exp(-\frac{n}{2\sigma^2})(\mu-\bar{X})^2, \\
h(X) = 1.
\]
指数分布
\]
\]
g(T;\lambda) = \frac{1}{\lambda^n} e^{-\frac{T}{\lambda}}, \\
h(X) = 1.
\]
Gamma
\]
\]
g(T;\theta) = \frac{1}{(\Gamma(\alpha) \beta^{\alpha})^n}(\prod_{i} X_i)^{\alpha-1} e^{-\frac{\sum_iX_i}{\beta}}, \\
h(X) = 1.
\]
Sufficient Statistic (充分统计量)的更多相关文章
- [MCSM]Exponential family: 指数分布族
Exponential family(指数分布族)是一个经常出现的概念,但是对其定义并不是特别的清晰,今天好好看了看WIKI上的内容,有了一个大致的了解,先和大家分享下.本文基本是WIKI上部分内容的 ...
- Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型
(一)牛顿法解最大似然估计 牛顿方法(Newton's Method)与梯度下降(Gradient Descent)方法的功能一样,都是对解空间进行搜索的方法.其基本思想如下: 对于一个函数f(x), ...
- Jordan Lecture Note-4: Linear & Ridge Regression
Linear & Ridge Regression 对于$n$个数据$\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\},x_i\in\mathbb{R}^d,y ...
- [转]浅谈PCA的适用范围
线性代数主要讲矩阵,矩阵就是线性变换,也就是把直线变成直线的几何变换,包括过原点的旋转.镜射.伸缩.推移及其组合.特征向量是对一个线性变换很特殊的向量:只有他们在此变换下可保持方向不变,而对应的特征值 ...
- LDA主题模型学习笔记5:C源代码理解
1.说明 本文对LDA原始论文的作者所提供的C代码中LDA的主要逻辑部分做凝视,原代码可在这里下载到:https://github.com/Blei-Lab/lda-c 这份代码实现论文<Lat ...
- CS299笔记:广义线性模型
指数分布族 我们称一类分布属于指数分布族(exponential family distribution),如果它的分布函数可以写成以下的形式: \[ \begin{equation} p(y;\et ...
- CS229 笔记04
CS229 笔记04 Logistic Regression Newton's Method 根据之前的讨论,在Logistic Regression中的一些符号有: \[ \begin{eqnarr ...
- 斯坦福CS229机器学习课程笔记 part3:广义线性模型 Greneralized Linear Models (GLMs)
指数分布族 The exponential family 因为广义线性模型是围绕指数分布族的.大多数常用分布都属于指数分布族,服从指数分布族的条件是概率分布可以写成如下形式:η 被称作自然参数(nat ...
- 广义线性模型(GLM, Generalized Linear Model)
引言:通过高斯模型得到最小二乘法(线性回归),即: 通过伯努利模型得到逻辑回归,即: 这些模型都可以通过广义线性模型得到.广义线性模型是把自变量的线性预测函数当作因变量的估计值.在 ...
随机推荐
- Java 堆、栈、队列(遇见再更新)
目录 Java 栈.队列 栈 常用方法 案例 队列 Java 栈.队列 栈 常用方法 boolean empty() 测试堆栈是否为空 Object peek() 查看堆栈顶部的对象 Object p ...
- A Child's History of England.40
Excommunication was, next to the Interdict I told you of at the close {end} of the last chapter, the ...
- python web工程师跳巢攻略
python web工程师跳巢攻略 流程 一面问基础 二面问项目 三面问设计(经验) web请求的流程 浏览器 负载均衡 web框架 业务逻辑 数据库缓存 后端技术栈 python语言基础 语言特点 ...
- Android数据存取
Android数据存取 一.SharedPreferencesc存取数据 SharedPreferences是使用键值对的方式来存储数据的,也就是在保存一条数据时,需要给这条数据提供一个对应的键,这样 ...
- JavaIO——File类
1.File文件类 File类(描述具体文件或文件夹的类):是唯一一个与文件本身操作有关的程序类,可完成文件的创建.删除.取得文件信息等操作.但不能对文件的内容进行修改. (1)File类的基本使用 ...
- Linux学习 - 输入输出重定向,管道符,通配符
一.键盘输入读取read read [选项] [变量名] -p [显示信息] 在等待read输入时,输出提示信息 -t [秒数] 指定read输入等待时间 -n [字符数] 指定read只接收n个字符 ...
- Linux基础命令---get获取ftp文件
get 使用lftp登录ftp服务器之后,可以使用get指令从服务器获取文件. 1.语法 get [-E] [-a] [-c] [-O base] rfile [-o lfil ...
- Project Reactor工厂方法和错误处理
工厂方法创建流 Backpressure : the ability for the consumer to signal the producer that the rate of emission ...
- linux 磁盘满了,vim 编辑文件时无法保存
早上来发现 redis 不能用,报 MISCONF Redis is configured to save RDB snapshots, but it is currently not able to ...
- CSS font-size: 0去除内联元素空白间隙
我们在编写HTML标签的时候,通常会使用换行,缩进来保证代码的可读性.同时,在编写CSS样式的时候,也会需要把一些元素设置为inline或inline-block.这样一来,有时在页面中会出现意外的空 ...