Sufficient statistic - Wikipedia

Sufficient statistic - arizona

定义

统计量是一些随机样本\(X_1, X_2, \cdots, X_n\)的函数

\[T = r(X_1, X_2, \cdots, X_n).
\]

样本\(X\)的分布\(f_{\theta}(X)=f(X;\theta)\)由位置参数\(\theta\)决定, 通常我们通过极大似然估计

\[\max_{\theta} \quad P(X_1,X_2,\cdots, X_n ;\theta) = \prod_{i=1}^n P(X_i;\theta) = \prod_{i=1}^n f_{\theta}(X_i).
\]

而充分统计量是指这样的统计量:

\[P(\{X_i\}|T=t;\theta) = P(\{X_i\}|T=t),
\]

即在给定\(T(X)=t\)的情况下, \(\{X_i\}\)的条件联合分布与未知参数\(\theta\)无关.

Example: 考虑伯努利分布, 成功的概率为\(p\), 失败的概率为\(1-p\), 有\(n\)个独立同分布的样本\(X_1, X_2,\cdots, X_n\), 则:

\[P(\{X_i\};p) = p^{\sum_i X_i}(1-p)^{n-\sum_i X_i},
\]

实际上(后面会讲到)\(T=\sum_i^n X_i\)为其一充分统计量. 实际上,

\[P(\{X_i\}|T=t;p) = \frac{P(\{X_i\}, T=t; p)}{P(T=t;p)} = \frac{\mathbb{I}[{\sum_{i}^nX_i=t]}\cdot p^t (1-p)^{n-t}}{C_n^t p^t (1-p)^{n-t}}=\frac{\mathbb{I}[\sum_i^n X_i = t]}{C_n^t}.
\]

显然与位置参数\(p\)无关.

充分统计量特别的意义, 比如上面提到的极大似然估计, 由于

\[P(\{X_i\};\theta) = P(\{X_i\}, T;\theta) = P(\{X_i\}|T;\theta) \:P(T;\theta) = P(\{X_i\}|T) \:P(T;\theta),
\]

由于\(P(\{X_i\}|T)\)与\(\theta\)无关, 所以最大化上式等价于

\[\max_{\theta} \quad P(T;\theta) = P(r(X_1, X_2,\cdots, X_n); \theta).
\]

特别地, 有时候标量\(T\)并不充分, 需要\(T=(T_1, T_2,\cdots, T_k)\) 整体作为充分统计量, 比如当正态分布地\(\mu, \sigma\)均为未知参数的时候, \(T=(\frac{1}{n}\sum_i X_i, \frac{1}{n-1}\sum_i (X_i - \bar{X})^2)\). 性质和上面的别无二致, 所以下面也不特别说明了.

当置于贝叶斯框架下时, 可以发现:

\[P(\theta|\{X_i\}) = \frac{P(\{X_i\}, \theta)}{P(\{X_i\})}
= \frac{P(\{X_i\}, T, \theta)}{P(\{X_i\}, T)}
= \frac{P(\{X_i\}| T, \theta) P(T|\theta)}{P(\{X_i\}, T)}
= \frac{P(\{X_i\}| T) P(T|\theta)}{P(\{X_i\}, T)}
= P(\theta|T).
\]

即给定\(\{X_i\}\)或者\(T\), \(\theta\)的条件(后验)分布是一致的.

特别地, 我们可以用互信息来定义充分统计量, \(T\)为充分统计量, 当且仅当

\[I(\theta;X) = I(\theta;T(X)).
\]

注: 一般情况下\(I(\theta;X) \ge I(\theta;T(X))\).

充分统计量的判定

用上面的标准来判断充分统计量是非常困难的一件事, 好在有Fisher-Neyman分离定理:

Factorization Theorem: \(\{X_i\}\)的联合密度函数为\(f_{\theta}(X)\), 则\(T\)是关于\(\theta\)的充分统计量当且仅当存在非负函数\(g, h\)满足

\[f(X_1, X_2,\cdots, X_n; \theta) = h(X_1, X_2,\cdots, X_n) g(T; \theta).
\]

注: \(T\)可以是\(T=(T_1, T_2,\cdots, T_k)\).

proof:

\(\Rightarrow\)

\[p(X_1,X_2,\cdots, X_n;\theta) = p(\{X_i\}|T;\theta) = p(\{X_i\}|T;\theta)p(T;\theta) = p(\{X_i\}|T)p(T;\theta)
\]

此时

\[g(T;\theta) = p(T;\theta), \\
h(X_1, X_2,\cdots, X_n) = p(\{X_i\}|T).
\]

\(\Leftarrow\)

为了符号简便, 令\(X = \{X_1, X_2,\cdots, X_n\}\).

\[\begin{array}{ll}
p(T=t;\theta)
&= \int_{T(X)=t} p(X,T=t;\theta) \mathrm{d}X \\
&= \int_{T(X)=t} f(X;\theta) \mathrm{d}X \\
&= \int_{T(X)=t} h(X) g(T=t;\theta) \mathrm{d}X \\
&= \int_{T(X)=t} h(X) \mathrm{d}X \cdot g(T=t;\theta) \\
\end{array}.
\]

\[\begin{array}{ll}
p(X | T=t;\theta)
&= \frac{p(X,T=t;\theta)}{p(T=t;\theta)} \\
&= \frac{p(X;\theta)}{p(T=t;\theta)} \\
&= \frac{h(X)g(T=t;\theta)}{\int_{T(X)=t}h(X)\mathrm{d} X \cdot g(T=t;\theta)} \\
&= \frac{h(X)}{\int_{T(X)=t}h(X)}. \\
\end{array}
\]

与\(\theta\)无关.

注: 上述的证明存疑.

最小统计量

最小统计量S, 即

  1. S是充分统计量;
  2. 充分统计量\(T\), 存在\(f\), 使得\(S=f(T)\).

注: 若\(T\)是充分统计量, 则任意的可逆函数\(f\)得到的\(f(T)\)也是充分统计量.

例子

\(U[0, \theta]\)

均匀分布, 此时

\[p(X_1, X_2,\cdots, X_n;\theta) = \frac{1}{\theta^n} \mathbb{I}[0\le \min \{X_i\}] \cdot \mathbb{I}[\max \{X_i\} \le \theta],
\]

\[T = \max \{X_i\}, \: g(T;\theta) = \mathbb{I}[\max \{X_i\} \cdot \frac{1}{\theta^n}, \: h(X) = \mathbb{I}[0\le \min \{X_i\}].
\]

\(U[\alpha, \beta]\)

\[p(X_1, X_2,\cdots, X_n;\alpha,\beta) = \frac{1}{(\beta - \alpha)^n} \mathbb{I}[\alpha\le \min \{X_i\}] \cdot \mathbb{I}[\max \{X_i\} \le \theta],
\]
\[T = (\min \{X_i\}, \max \{X_i\}), \\
g(T;\alpha, \beta) = \frac{1}{(\beta - \alpha)^n} \mathbb{I}[\alpha\le \min \{X_i\}] \cdot \mathbb{I}[\max \{X_i\} \le \theta], \\
h(X) = 1.
\]

Poisson

\[P(X;\lambda) = \frac{\lambda^X e^{-\lambda}}{X!}.
\]
\[p(X_1, X_2,\cdots, X_n;\lambda) = e^{-n\lambda} \lambda^{\sum_{i}X_i} \cdot \frac{1}{\prod_i X_i!}.
\]
\[T = \sum_iX_i, \\
g(T;\theta) = e^{-n\lambda} \cdot \lambda^T, \\
h(X) = \frac{1}{\prod_{i} X_i!}.
\]

Normal

\[P(X;\mu,\sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp(-\frac{(X-\mu)^2}{2\sigma^2}).
\]
\[p(X_1, X_2,\cdots, X_n;\mu, \sigma) = (2\pi\sigma^2)^{-\frac{n}{2}} \exp (-\frac{1}{2\sigma^2}\sum_{i=1}^n (X_i - \bar{X})^2) \exp(-\frac{n}{2\sigma^2})(\mu-\bar{X})^2.
\]

若\(\sigma\)已知:

\[T=\frac{1}{n}\sum X_i = \bar{X} , \\
g(T;\mu) = (2\pi\sigma^2)^{-\frac{n}{2}} \exp(-\frac{n}{2\sigma^2})(\mu-T)^2, \\
h(X) = \exp (-\frac{1}{2\sigma^2}\sum_{i=1}^n (X_i - \bar{X})^2).
\]

若\(\sigma\)未知:

\[T = (\bar{X}, s^2), s^2 = \frac{\sum_{i=1}^n(X_i-\bar{X})^2}{n-1}, \\
g(T;\mu,\sigma) = (2\pi\sigma^2)^{-\frac{n}{2}}\exp(-\frac{n-1}{2\sigma^2}s^2) \exp(-\frac{n}{2\sigma^2})(\mu-\bar{X})^2, \\
h(X) = 1.
\]

指数分布

\[p(X) = \frac{1}{\lambda} e^{-\frac{X}{\lambda}}, \quad X \ge 0.
\]
\[p(X_1, X_2,\cdots, X_n;\lambda) = \frac{1}{\lambda^n} e^{-\frac{\sum_{i=1}^n X_i}{\lambda}}.
\]
\[T = \sum_{i=1}^n X_i, \\
g(T;\lambda) = \frac{1}{\lambda^n} e^{-\frac{T}{\lambda}}, \\
h(X) = 1.
\]

Gamma

\[\Gamma(\alpha, \beta) = \frac{1}{\Gamma(\alpha) \beta^{\alpha}}X^{\alpha-1} e^{-\frac{X}{\beta}}.
\]
\[p(X_1, X_2,\cdots, X_n;\alpha, \beta) = \frac{1}{(\Gamma(\alpha) \beta^{\alpha})^n}(\prod_{i} X_i)^{\alpha-1} e^{-\frac{\sum_iX_i}{\beta}}.
\]
\[T = (\prod_i X_i, \sum_i X_i), \\
g(T;\theta) = \frac{1}{(\Gamma(\alpha) \beta^{\alpha})^n}(\prod_{i} X_i)^{\alpha-1} e^{-\frac{\sum_iX_i}{\beta}}, \\
h(X) = 1.
\]

Sufficient Statistic (充分统计量)的更多相关文章

  1. [MCSM]Exponential family: 指数分布族

    Exponential family(指数分布族)是一个经常出现的概念,但是对其定义并不是特别的清晰,今天好好看了看WIKI上的内容,有了一个大致的了解,先和大家分享下.本文基本是WIKI上部分内容的 ...

  2. Stanford大学机器学习公开课(四):牛顿法、指数分布族、广义线性模型

    (一)牛顿法解最大似然估计 牛顿方法(Newton's Method)与梯度下降(Gradient Descent)方法的功能一样,都是对解空间进行搜索的方法.其基本思想如下: 对于一个函数f(x), ...

  3. Jordan Lecture Note-4: Linear & Ridge Regression

    Linear & Ridge Regression 对于$n$个数据$\{(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\},x_i\in\mathbb{R}^d,y ...

  4. [转]浅谈PCA的适用范围

    线性代数主要讲矩阵,矩阵就是线性变换,也就是把直线变成直线的几何变换,包括过原点的旋转.镜射.伸缩.推移及其组合.特征向量是对一个线性变换很特殊的向量:只有他们在此变换下可保持方向不变,而对应的特征值 ...

  5. LDA主题模型学习笔记5:C源代码理解

    1.说明 本文对LDA原始论文的作者所提供的C代码中LDA的主要逻辑部分做凝视,原代码可在这里下载到:https://github.com/Blei-Lab/lda-c 这份代码实现论文<Lat ...

  6. CS299笔记:广义线性模型

    指数分布族 我们称一类分布属于指数分布族(exponential family distribution),如果它的分布函数可以写成以下的形式: \[ \begin{equation} p(y;\et ...

  7. CS229 笔记04

    CS229 笔记04 Logistic Regression Newton's Method 根据之前的讨论,在Logistic Regression中的一些符号有: \[ \begin{eqnarr ...

  8. 斯坦福CS229机器学习课程笔记 part3:广义线性模型 Greneralized Linear Models (GLMs)

    指数分布族 The exponential family 因为广义线性模型是围绕指数分布族的.大多数常用分布都属于指数分布族,服从指数分布族的条件是概率分布可以写成如下形式:η 被称作自然参数(nat ...

  9. 广义线性模型(GLM, Generalized Linear Model)

    引言:通过高斯模型得到最小二乘法(线性回归),即:      通过伯努利模型得到逻辑回归,即:      这些模型都可以通过广义线性模型得到.广义线性模型是把自变量的线性预测函数当作因变量的估计值.在 ...

随机推荐

  1. 学习java 7.3

    学习内容:定义类不需要加static 成员方法在多个对象时是可以共用的,而成员变量不可以共用,多个对象指向一个内存时,改变变量的值,对象所在的类中的变量都会改变 成员变量前加private,成员方法前 ...

  2. 游戏案例|Service Mesh 在欢乐游戏的应用演变和实践

    作者 陈智伟,腾讯 12 级后台专家工程师,现负责欢乐游戏工作室公共后台技术研发以及团队管理工作.在微服务分布式架构以及游戏后台运维研发有丰富的经验. 前言 欢乐游戏工作室后台是分布式微服务架构,目前 ...

  3. day03 部署NFS服务

    day03 部署NFS服务 NFS的原理 1.什么是NFS 共享网络文件存储服务器 2.NFS的原理 1.用户访问NFS客户端,将请求转化为函数 2.NFS通过TCP/IP连接服务端 3.NFS服务端 ...

  4. flink---实时项目--day01--1. openrestry的安装 2. 使用nginx+lua将日志数据写入指定文件中 3. 使用flume将本地磁盘中的日志数据采集到的kafka中去

    1. openrestry的安装 OpenResty = Nginx + Lua,是⼀一个增强的Nginx,可以编写lua脚本实现⾮非常灵活的逻辑 (1)安装开发库依赖 yum install -y ...

  5. set、multiset深度探索

    set/multiset的底层是rb_tree,因此它有自动排序特性.set中的元素不允许重复必须独一无二,key与value值相同,multiset中的元素允许重复. set的模板参数key即为关键 ...

  6. c学习 - 第七章:数组

    7.3.6 字符串处理函数 (1).puts(字符数组) 字符串输出到终端 (2).gets(字符数组) 从标准输入获取字符串(包括空格) (3).strcat(字符数组1,字符数组2) 连接两个字符 ...

  7. Linux学习 - 脚本安装包

    脚本安装包不是独立的软件包类型,常见安装的是源码包

  8. 实现nfs持久挂载+autofs自动挂载

    实验环境: 两台主机 node4:192.168.37.44 NFS服务器 node2:192.168.37.22 客户端 在nfs服务器,先安装nfs和rpcbind [root@node4 fen ...

  9. Spring Boot发布war包流程

    1.修改web model的pom.xml <packaging>war</packaging> SpringBoot默认发布的都是jar,因此要修改默认的打包方式jar为wa ...

  10. JUC概述

    JUC概述1: 首先是进程和线程的概念: 进程:是指系统在系统中正在运行的一个应用程序,程序一旦运行就是进程,进程是资源分配的最小单位 线程:进程之内独立执行,是程序执行的最小单位 线程的六大状态:在 ...