Sufficient statistic - Wikipedia

Sufficient statistic - arizona

定义

统计量是一些随机样本\(X_1, X_2, \cdots, X_n\)的函数

\[T = r(X_1, X_2, \cdots, X_n).
\]

样本\(X\)的分布\(f_{\theta}(X)=f(X;\theta)\)由位置参数\(\theta\)决定, 通常我们通过极大似然估计

\[\max_{\theta} \quad P(X_1,X_2,\cdots, X_n ;\theta) = \prod_{i=1}^n P(X_i;\theta) = \prod_{i=1}^n f_{\theta}(X_i).
\]

而充分统计量是指这样的统计量:

\[P(\{X_i\}|T=t;\theta) = P(\{X_i\}|T=t),
\]

即在给定\(T(X)=t\)的情况下, \(\{X_i\}\)的条件联合分布与未知参数\(\theta\)无关.

Example: 考虑伯努利分布, 成功的概率为\(p\), 失败的概率为\(1-p\), 有\(n\)个独立同分布的样本\(X_1, X_2,\cdots, X_n\), 则:

\[P(\{X_i\};p) = p^{\sum_i X_i}(1-p)^{n-\sum_i X_i},
\]

实际上(后面会讲到)\(T=\sum_i^n X_i\)为其一充分统计量. 实际上,

\[P(\{X_i\}|T=t;p) = \frac{P(\{X_i\}, T=t; p)}{P(T=t;p)} = \frac{\mathbb{I}[{\sum_{i}^nX_i=t]}\cdot p^t (1-p)^{n-t}}{C_n^t p^t (1-p)^{n-t}}=\frac{\mathbb{I}[\sum_i^n X_i = t]}{C_n^t}.
\]

显然与位置参数\(p\)无关.

充分统计量特别的意义, 比如上面提到的极大似然估计, 由于

\[P(\{X_i\};\theta) = P(\{X_i\}, T;\theta) = P(\{X_i\}|T;\theta) \:P(T;\theta) = P(\{X_i\}|T) \:P(T;\theta),
\]

由于\(P(\{X_i\}|T)\)与\(\theta\)无关, 所以最大化上式等价于

\[\max_{\theta} \quad P(T;\theta) = P(r(X_1, X_2,\cdots, X_n); \theta).
\]

特别地, 有时候标量\(T\)并不充分, 需要\(T=(T_1, T_2,\cdots, T_k)\) 整体作为充分统计量, 比如当正态分布地\(\mu, \sigma\)均为未知参数的时候, \(T=(\frac{1}{n}\sum_i X_i, \frac{1}{n-1}\sum_i (X_i - \bar{X})^2)\). 性质和上面的别无二致, 所以下面也不特别说明了.

当置于贝叶斯框架下时, 可以发现:

\[P(\theta|\{X_i\}) = \frac{P(\{X_i\}, \theta)}{P(\{X_i\})}
= \frac{P(\{X_i\}, T, \theta)}{P(\{X_i\}, T)}
= \frac{P(\{X_i\}| T, \theta) P(T|\theta)}{P(\{X_i\}, T)}
= \frac{P(\{X_i\}| T) P(T|\theta)}{P(\{X_i\}, T)}
= P(\theta|T).
\]

即给定\(\{X_i\}\)或者\(T\), \(\theta\)的条件(后验)分布是一致的.

特别地, 我们可以用互信息来定义充分统计量, \(T\)为充分统计量, 当且仅当

\[I(\theta;X) = I(\theta;T(X)).
\]

注: 一般情况下\(I(\theta;X) \ge I(\theta;T(X))\).

充分统计量的判定

用上面的标准来判断充分统计量是非常困难的一件事, 好在有Fisher-Neyman分离定理:

Factorization Theorem: \(\{X_i\}\)的联合密度函数为\(f_{\theta}(X)\), 则\(T\)是关于\(\theta\)的充分统计量当且仅当存在非负函数\(g, h\)满足

\[f(X_1, X_2,\cdots, X_n; \theta) = h(X_1, X_2,\cdots, X_n) g(T; \theta).
\]

注: \(T\)可以是\(T=(T_1, T_2,\cdots, T_k)\).

proof:

\(\Rightarrow\)

\[p(X_1,X_2,\cdots, X_n;\theta) = p(\{X_i\}|T;\theta) = p(\{X_i\}|T;\theta)p(T;\theta) = p(\{X_i\}|T)p(T;\theta)
\]

此时

\[g(T;\theta) = p(T;\theta), \\
h(X_1, X_2,\cdots, X_n) = p(\{X_i\}|T).
\]

\(\Leftarrow\)

为了符号简便, 令\(X = \{X_1, X_2,\cdots, X_n\}\).

\[\begin{array}{ll}
p(T=t;\theta)
&= \int_{T(X)=t} p(X,T=t;\theta) \mathrm{d}X \\
&= \int_{T(X)=t} f(X;\theta) \mathrm{d}X \\
&= \int_{T(X)=t} h(X) g(T=t;\theta) \mathrm{d}X \\
&= \int_{T(X)=t} h(X) \mathrm{d}X \cdot g(T=t;\theta) \\
\end{array}.
\]

\[\begin{array}{ll}
p(X | T=t;\theta)
&= \frac{p(X,T=t;\theta)}{p(T=t;\theta)} \\
&= \frac{p(X;\theta)}{p(T=t;\theta)} \\
&= \frac{h(X)g(T=t;\theta)}{\int_{T(X)=t}h(X)\mathrm{d} X \cdot g(T=t;\theta)} \\
&= \frac{h(X)}{\int_{T(X)=t}h(X)}. \\
\end{array}
\]

与\(\theta\)无关.

注: 上述的证明存疑.

最小统计量

最小统计量S, 即

  1. S是充分统计量;
  2. 充分统计量\(T\), 存在\(f\), 使得\(S=f(T)\).

注: 若\(T\)是充分统计量, 则任意的可逆函数\(f\)得到的\(f(T)\)也是充分统计量.

例子

\(U[0, \theta]\)

均匀分布, 此时

\[p(X_1, X_2,\cdots, X_n;\theta) = \frac{1}{\theta^n} \mathbb{I}[0\le \min \{X_i\}] \cdot \mathbb{I}[\max \{X_i\} \le \theta],
\]

\[T = \max \{X_i\}, \: g(T;\theta) = \mathbb{I}[\max \{X_i\} \cdot \frac{1}{\theta^n}, \: h(X) = \mathbb{I}[0\le \min \{X_i\}].
\]

\(U[\alpha, \beta]\)

\[p(X_1, X_2,\cdots, X_n;\alpha,\beta) = \frac{1}{(\beta - \alpha)^n} \mathbb{I}[\alpha\le \min \{X_i\}] \cdot \mathbb{I}[\max \{X_i\} \le \theta],
\]
\[T = (\min \{X_i\}, \max \{X_i\}), \\
g(T;\alpha, \beta) = \frac{1}{(\beta - \alpha)^n} \mathbb{I}[\alpha\le \min \{X_i\}] \cdot \mathbb{I}[\max \{X_i\} \le \theta], \\
h(X) = 1.
\]

Poisson

\[P(X;\lambda) = \frac{\lambda^X e^{-\lambda}}{X!}.
\]
\[p(X_1, X_2,\cdots, X_n;\lambda) = e^{-n\lambda} \lambda^{\sum_{i}X_i} \cdot \frac{1}{\prod_i X_i!}.
\]
\[T = \sum_iX_i, \\
g(T;\theta) = e^{-n\lambda} \cdot \lambda^T, \\
h(X) = \frac{1}{\prod_{i} X_i!}.
\]

Normal

\[P(X;\mu,\sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp(-\frac{(X-\mu)^2}{2\sigma^2}).
\]
\[p(X_1, X_2,\cdots, X_n;\mu, \sigma) = (2\pi\sigma^2)^{-\frac{n}{2}} \exp (-\frac{1}{2\sigma^2}\sum_{i=1}^n (X_i - \bar{X})^2) \exp(-\frac{n}{2\sigma^2})(\mu-\bar{X})^2.
\]

若\(\sigma\)已知:

\[T=\frac{1}{n}\sum X_i = \bar{X} , \\
g(T;\mu) = (2\pi\sigma^2)^{-\frac{n}{2}} \exp(-\frac{n}{2\sigma^2})(\mu-T)^2, \\
h(X) = \exp (-\frac{1}{2\sigma^2}\sum_{i=1}^n (X_i - \bar{X})^2).
\]

若\(\sigma\)未知:

\[T = (\bar{X}, s^2), s^2 = \frac{\sum_{i=1}^n(X_i-\bar{X})^2}{n-1}, \\
g(T;\mu,\sigma) = (2\pi\sigma^2)^{-\frac{n}{2}}\exp(-\frac{n-1}{2\sigma^2}s^2) \exp(-\frac{n}{2\sigma^2})(\mu-\bar{X})^2, \\
h(X) = 1.
\]

指数分布

\[p(X) = \frac{1}{\lambda} e^{-\frac{X}{\lambda}}, \quad X \ge 0.
\]
\[p(X_1, X_2,\cdots, X_n;\lambda) = \frac{1}{\lambda^n} e^{-\frac{\sum_{i=1}^n X_i}{\lambda}}.
\]
\[T = \sum_{i=1}^n X_i, \\
g(T;\lambda) = \frac{1}{\lambda^n} e^{-\frac{T}{\lambda}}, \\
h(X) = 1.
\]

Gamma

\[\Gamma(\alpha, \beta) = \frac{1}{\Gamma(\alpha) \beta^{\alpha}}X^{\alpha-1} e^{-\frac{X}{\beta}}.
\]
\[p(X_1, X_2,\cdots, X_n;\alpha, \beta) = \frac{1}{(\Gamma(\alpha) \beta^{\alpha})^n}(\prod_{i} X_i)^{\alpha-1} e^{-\frac{\sum_iX_i}{\beta}}.
\]
\[T = (\prod_i X_i, \sum_i X_i), \\
g(T;\theta) = \frac{1}{(\Gamma(\alpha) \beta^{\alpha})^n}(\prod_{i} X_i)^{\alpha-1} e^{-\frac{\sum_iX_i}{\beta}}, \\
h(X) = 1.
\]

Sufficient Statistic (充分统计量)的更多相关文章

  1. [MCSM]Exponential family: 指数分布族

    Exponential family(指数分布族)是一个经常出现的概念,但是对其定义并不是特别的清晰,今天好好看了看WIKI上的内容,有了一个大致的了解,先和大家分享下.本文基本是WIKI上部分内容的 ...

  2. Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型

    (一)牛顿法解最大似然估计 牛顿方法(Newton's Method)与梯度下降(Gradient Descent)方法的功能一样,都是对解空间进行搜索的方法.其基本思想如下: 对于一个函数f(x), ...

  3. Jordan Lecture Note-4: Linear & Ridge Regression

    Linear & Ridge Regression 对于$n$个数据$\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\},x_i\in\mathbb{R}^d,y ...

  4. [转]浅谈PCA的适用范围

    线性代数主要讲矩阵,矩阵就是线性变换,也就是把直线变成直线的几何变换,包括过原点的旋转.镜射.伸缩.推移及其组合.特征向量是对一个线性变换很特殊的向量:只有他们在此变换下可保持方向不变,而对应的特征值 ...

  5. LDA主题模型学习笔记5:C源代码理解

    1.说明 本文对LDA原始论文的作者所提供的C代码中LDA的主要逻辑部分做凝视,原代码可在这里下载到:https://github.com/Blei-Lab/lda-c 这份代码实现论文<Lat ...

  6. CS299笔记:广义线性模型

    指数分布族 我们称一类分布属于指数分布族(exponential family distribution),如果它的分布函数可以写成以下的形式: \[ \begin{equation} p(y;\et ...

  7. CS229 笔记04

    CS229 笔记04 Logistic Regression Newton's Method 根据之前的讨论,在Logistic Regression中的一些符号有: \[ \begin{eqnarr ...

  8. 斯坦福CS229机器学习课程笔记 part3:广义线性模型 Greneralized Linear Models (GLMs)

    指数分布族 The exponential family 因为广义线性模型是围绕指数分布族的.大多数常用分布都属于指数分布族,服从指数分布族的条件是概率分布可以写成如下形式:η 被称作自然参数(nat ...

  9. 广义线性模型(GLM, Generalized Linear Model)

    引言:通过高斯模型得到最小二乘法(线性回归),即:      通过伯努利模型得到逻辑回归,即:      这些模型都可以通过广义线性模型得到.广义线性模型是把自变量的线性预测函数当作因变量的估计值.在 ...

随机推荐

  1. Java 堆、栈、队列(遇见再更新)

    目录 Java 栈.队列 栈 常用方法 案例 队列 Java 栈.队列 栈 常用方法 boolean empty() 测试堆栈是否为空 Object peek() 查看堆栈顶部的对象 Object p ...

  2. A Child's History of England.40

    Excommunication was, next to the Interdict I told you of at the close {end} of the last chapter, the ...

  3. python web工程师跳巢攻略

    python web工程师跳巢攻略 流程 一面问基础 二面问项目 三面问设计(经验) web请求的流程 浏览器 负载均衡 web框架 业务逻辑 数据库缓存 后端技术栈 python语言基础 语言特点 ...

  4. Android数据存取

    Android数据存取 一.SharedPreferencesc存取数据 SharedPreferences是使用键值对的方式来存储数据的,也就是在保存一条数据时,需要给这条数据提供一个对应的键,这样 ...

  5. JavaIO——File类

    1.File文件类 File类(描述具体文件或文件夹的类):是唯一一个与文件本身操作有关的程序类,可完成文件的创建.删除.取得文件信息等操作.但不能对文件的内容进行修改. (1)File类的基本使用 ...

  6. Linux学习 - 输入输出重定向,管道符,通配符

    一.键盘输入读取read read [选项] [变量名] -p [显示信息] 在等待read输入时,输出提示信息 -t [秒数] 指定read输入等待时间 -n [字符数] 指定read只接收n个字符 ...

  7. Linux基础命令---get获取ftp文件

    get 使用lftp登录ftp服务器之后,可以使用get指令从服务器获取文件.   1.语法       get [-E]  [-a]  [-c] [-O base]  rfile  [-o lfil ...

  8. Project Reactor工厂方法和错误处理

    工厂方法创建流 Backpressure : the ability for the consumer to signal the producer that the rate of emission ...

  9. linux 磁盘满了,vim 编辑文件时无法保存

    早上来发现 redis 不能用,报 MISCONF Redis is configured to save RDB snapshots, but it is currently not able to ...

  10. CSS font-size: 0去除内联元素空白间隙

    我们在编写HTML标签的时候,通常会使用换行,缩进来保证代码的可读性.同时,在编写CSS样式的时候,也会需要把一些元素设置为inline或inline-block.这样一来,有时在页面中会出现意外的空 ...