By Yunduan Cui

这是我自己的PRML学习笔记,目前持续更新中。

第二章 Probability Distributions 概率分布

本章介绍了书中要用到的概率分布模型,是之后章节的基础。已知一个有限集合 \(\{x_{1}, x_{2},..., x_{n}\}\), 概率分布是用来建立一个模型:\(p(x)\). 这一问题又称作密度估计( density estimation ).

主要内容
1. Binomial and Multinomial distributions 面向离散随机变量的伯努利分布与多项分布
2. Gaussian distribution 面向连续随机变量的高斯分布
3. 针对高斯分布的参数估计:频率学派/贝叶斯学派
4. 共轭先验,以及各个概率分布的统一
5. 参数/无参数方法

2.1 Binary Variables 二进制变量

  • 伯努利分布(Bernoulli distribution)

定义二进制随机变量 \(x \in \{0, 1\}\),伯努利分布满足:

\(Bern(x|\mu)=\mu^{x}(1-\mu)^{1-x}\)

其中 \(\mu\) 是控制该分布的参数,符合:

\(p(x=1|\mu)=\mu\).

伯努利分布的期望与方差满足:

\(\mathbb{E}[x] = \mu\)
\(var[x] = \mu(1-\mu)\)

当有一个观测集合 \(\mathcal{D}=\{x_{1}, x_{2},..., x_{n}\}\) 并假设观测之间都是相互独立的,我们就能得到一个关于 \(\mu\) 的似然函数(likelihood function):

\(p(\mathcal{D}|\mu)=
\displaystyle{\prod_{n=1}^{N}}p(x_{n}|\mu)=\displaystyle{\prod_{n=1}^{N}}\mu^{x_{n}}(1-\mu)^{1-x_{n}}\)

在求最大似然函数时,这种形式非常不方便运算,我们对\(p(\mathcal{D}|\mu)\)的对数式进行计算(转化连乘为连加):

\(\ln{p(\mathcal{D}|\mu)}=
\displaystyle{\sum_{n=1}^{N}}\ln{p}(x_{n}|\mu)=\displaystyle{\sum_{n=1}^{N}}\{x_{n}\ln{\mu}+(1-x_{n})\ln{(1-\mu)}\}\)

求其最大值,得到 \(\mu_{ML}=\frac{1}{N}\displaystyle{\sum_{n=1}^{N}}x_{n}\) 这就是在该观测集上伯努利分布的最大似然估计。等价于经验风险最小化

最大似然估计也有缺陷,假如观测集合太少,过拟合就极易发生(比如投掷硬币三次若都是头像朝上的话,最大似然估计将直接判断向上的概率为\(100\%\),这显然不对)。 我们可以通过引入先验 \(\mu\) 来避免这种情况。等价于最大后验估计即结构风险最小化——详见后面的贝塔分布

  • 二项分布(binomial distribution)

伯努利分布中观测集合 \(\mathcal{D}\) 是给定的,当我们仅知道 \(x=1\) 的观测次数是 \(m\) 时,我们能推导出二项分布:

\(Bin(m|N,\mu)=\binom{N}{m}\mu^{m}(1-\mu)^{N-m}=\frac{N!}{(N-m)!m!}\mu^{m}(1-\mu)^{N-m}\)

这是关于某事件发生多少次的概率。二项分布的期望与方差满足:

\(\mathbb{E}[m] = \displaystyle{\sum_{m=0}}mBin(m|N,\mu)=N\mu\)
\(var[m] = \displaystyle{\sum_{m=0}}(m-\mathbb{E}[m])^{2}Bin(m|N,\mu)=N\mu(1-\mu)\)

  • 贝塔分布(beta distribution)

这一节考虑怎么引入先验信息到二进制分布中,并介绍共轭先验(conjugacy prior)

贝塔分布是作为先验概率分布被引入的,它由两个超参数 \(a, b\) 控制。

\(Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}\)

\(\Gamma(x)\equiv \int_{0}^{\infty}u^{x-1}e^{-u}du\)

其中的系数保证了贝塔分布的归一性 \(\int_{0}^{\infty}Beta(\mu|a,b)d\mu=1\). 贝塔分布的期望与方差满足:

\(\mathbb{E}[\mu] = \frac{a}{a+b}\)
\(var[\mu] = \frac{ab}{(a+b)^{2}(a+b+1)}\)

由贝叶斯公式\(p(A|B)=\frac{p(B|A)p(A)}{p(B)}\)可以得到后验概率的比例关系(不考虑系数项且 \(l=N-m\)):

\(p(\mu|m,l,a,b)\propto\mu^{m}(1-\mu)^{l}\mu^{a-1}(1-\mu)^{b-1}=\mu^{m+a-1}(1-\mu)^{l+b-1}\)

很容易发现这个后验概率与先验概率一样是一个关于 \(\mu\) 的函数。我们可以将其视为另一个贝塔函数并对其归一,得到:

\(p(\mu|m,l,a,b)=\frac{\Gamma(m+a+l+b)}{\Gamma(m+a)\Gamma(l+b)}\mu^{m+a-1}(1-\mu)^{l+b-1}\)

这样先验可以生成后验并成为下一步学习的先验。

如果我们需要尽可能准确地估计下一次试验的结果,利用后验概率,我们需要计算:

\(p(x=1|\mathcal{D})=\int_{0}^{1}p(x=1|\mu)p(\mu|\mathcal{D})d\mu=\int_{0}^{1}\mu p(\mu|\mathcal{D})d\mu=\mathbb{E}[\mu|\mathcal{D}]\)

因为已经知道 \(p(\mu|\mathcal{D})=p(\mu|m,l,a,b)\) 且对于贝塔分 \(Beta(\mu|a,b)\) 布有 \(\mathbb{E}[\mu] = \frac{a}{a+b}\), 所以:

\(p(x=1|\mathcal{D})= \frac{m+a}{m+a+l+b}\)

这个结果在观测集合趋向无穷大时逼近最大似然估计结果 \(\mu_{ML}\). 而在数据集大小有限的情况下,估计结果要在最大似然估计与先验知识之间。同时我们可以发现,随着观测集合的不断增大,贝塔分布的参数 \(a\) 和 \(b\) 都在趋于无穷大,这时候方差 \(var[\mu]\) 就变得越来越小。直观上,随着观测的不断进行,后验概率的不确定性不断减少

2.2 Multinomial Variables 多项式变量

我们考虑互不相交的 \(K\) 个离散变量。定义一个 \(K\) 维向量 \(\mathbf{x}\) 并确保每次只有一个元素为1,其余为 0,定义 \(x_{k}=1\) 的概率为 \(\mu_{k}\), 有:

\(p(\mathbf{x}|\mathbf{{\mu}})=\displaystyle{\prod_{k=1}^{K}}\mu_{k}^{x_k}\)

满足 \(\sum_{k}\mu_{k}=1\) 且 \(\mu_{k}\ge 0\). 同时也易得 \(\mathbb{E}[\mathbf{x}|\mathbf{\mu}]=\mathbf{\mu}\)

考虑一个数据集合 \(\mathbf{D}\) 关于 \(N\) 个 \(K\) 维观测变量 \(x_{1}, x_{2}, ..., x_{N}\), 可以得到其似然函数为:

\(P(\mathbf{D}|\mu)=\prod_{k=1}^{K} \mu_{k}^{(\sum_{n}x_{nk})}=\prod_{k=1}^{K} \mu_{k}^{m_{k}}\)

其中 \(m_{k}\) 便是观测到的 \(x_{k}=1\) 的次数。

我们通过对 \(\ln{P(\mathbf{D}|\mu)}\) 相对于 \(\mu_{k}\) 求极值来得到多项式变量的最大似然解。注意这里我们要引入拉格朗日乘子,因为要满足另一个附加条件 \(\sum_{k=1}^{K}\mu_{k}=1\), 我们求该式的最大值:

\(\sum_{k=1}^{K}m_{k}\ln{\mu_{k}}+\lambda\big(\sum_{k=1}^{K}\mu_{k}- 1 \big)\)

解得:

\(\mu_{k}=-\frac{m_{k}}{\lambda}\)

又因为 \(\sum_{k=1}^{K}\mu_{k}=1\) 故最大似然解为:

\(\mu_{k}^{ML}=-\frac{m_{k}}{N}\)

与二项分布类似,我们可以得到关于 \(m\) 的联合分布即多项式分布:

\(Mult(m_{1}, m_{2}, ..., m_{k}|\mu, N)=\binom{N}{m_{1}m_{2}...m_{k}}\prod_{k=1}^{K} \mu_{k}^{m_{k}}\)

注意满足 \(\sum_{k=1}^{K}m_{k}=N\)

Dirichlet 分布

接下来我们开始研究关于多项式分布的先验分布:Dirichlet 分布。根据之前的多项式分布,我们可以很容易找到一个与多项式分布成比例关系且由超参数向量 \(\mathbb{\alpha}\) 控制的先验分布形式:

\(p(\mathbb{\mu}|\mathbb{\alpha})\propto\prod_{k=1}^{K}\mu_{k}^{\alpha_k-1}\)

注意所有 \(K\) 维度 \(\mu_{k}\) 构成了一个 \(K-1\) 维的单形状因为它们同时满足 \(0\le \mu \le 1\) 和 \(\sum_{k}\mu_{k}=1\). 例如在 \(K=3\) 时 表现了三维空间内的一个二维空间:

加上归一项后,Dirichlet 分布为:

\(Dir(\mathbb{\mu}|\mathbb{\alpha})=\frac{\Gamma(\alpha_{0})}{\Gamma(\alpha_{1})...\Gamma(\alpha_{k})}\prod_{k=1}^{K}\mu_{k}^{\alpha_k-1}\)

其中 \(\alpha_{0}=\sum_{k=1}^{K}\alpha_{k}\)。 在三维情况下,超参数对分布的影响可以参考:

高斯分布

我们定义一维高斯分布为:

\(\mathcal{N}(x|\mu,\sigma^{2})=\frac{1}{(2\pi\sigma^{2})^{1/2}}\exp\bigg\{-\frac{1}{2\sigma^{2}(x^\mu)^{2}}\bigg\}\)

进一步延伸到 \(D\) 维高斯分布:

\(\mathcal{N}(\mathbf{x} |\mathbf{\mu},\mathbf{\Sigma})=\frac{1}{(2\pi)^{D/2}(|\mathbf{\Sigma}|)^{1/2}}\exp\bigg\{-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{T}\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})\bigg\}\)

其中 \(\mathbf{\mu}\)是一个 \(D\) 维均值向量。\(\mathbf{\Sigma}\) 是一个 \(D\times D\) 协方差矩阵。\(|\mathbf{\Sigma}|\) 表示 \(\mathbf{\Sigma}\) 的行列式。

中心极限定理: 大量相互独立的随机变量,其均值的分布以正态分布为极限

接下来我们要开始学习高斯分布的一些重要的性质, 注意这些是后续章节的基础

几何形式

我们首先关注高斯分布的几何形式,在(多维)高斯分布中,\(\mathbf{x}\) 和 \(\mathbf{\mu}\) 之间的马氏距离 (Mahalanobis distance) 定义为:

\(\Delta^{2} =(\mathbf{x}-\mathbf{\mu})^{T}\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})\)

当 \(\mathbf{\Sigma}\) 是单位矩阵时(它同时也必须是一个对称矩阵),马氏距离自动降为欧几里得距离(也就是各个维度之间不相关)。

我们找到矩阵 \(\mathbf{\Sigma}\) 的特征向量方程:

\(\mathbf{\Sigma}u_{i}=\lambda_{i}u_{i}\)

因为特征向量满足 \(u_{i}^{T}u_{j}=I_{ij}\) 其中仅当 \(i=j\) 时 \(I_{ij}=1\) 其余为 0.

这样我们可以用特征向量来表达协方差矩阵:

\(\mathbf{\Sigma}=\sum_{i=1}^{D}\lambda_{i}u_{i}^{T}u_{i}\)
\(\mathbf{\Sigma}^{-1}=\sum_{i=1}^{D}\frac{1}{\lambda_{i}}u_{i}^{T}u_{i}\)

整理得:

\(\Delta^{2}=\sum_{i=1}^{D}\frac{y_{i}^{2}}{\lambda_{i}}\)
\(y_{i}=u_{i}^{T}(\mathbf{x}-\mathbf{\mu})\)
\(\mathbf{y}=\mathbf{U}(\mathbf{x}-\mathbf{\mu})\)

\(\mathbf{U}\) 是一个正交矩阵满足 \(\mathbf{U}^{T}\mathbf{U}=\mathbf{I}\)


举一个二维的例子,当所有特征值为正的时候,高斯分布表示了一个以 \(\mathbf{\mu}\) 为圆心,沿着 \(u_{1}\) 和 \(u_{2}\) 两个坐标轴的椭圆。其在两个坐标轴上的比例系数分别为 \(\lambda_{1}^{1/2}\) 和 \(\lambda_{2}^{1/2}\).

显然对于所有的高斯分布,协方差矩阵的特征值都必须是严格的正数。(正定矩阵) 第12章我们还会介绍半正定协方差矩阵下的高斯分布。

统一变换形式

我们获得了一个以 \(y_{1}\) 和 \(y_{2}\) 为坐标的椭圆,那么如何变换它回 x 坐标呢?

从前面的式子 \(y_{i}=u_{i}^{T}(\mathbf{x}-\mathbf{\mu})\) 我们可以容易得到一个从 \(\mathbf{x}\) 到 \(\mathbf{y}\) 的雅克比矩阵 \(J\), 其每一个元素定义为:

\(J_{ij}=\frac{\partial{x_{i}}}{\partial{y_{j}}}=U_{ji}\)

根据矩阵 \(U\) 的正交性,我们可以得到:

\(|J|^{2}=|U^{T}|^{2}=|U^{T}||U|=|U^{T}U|=|I|=1\).

协方差矩阵的行列式也可以写成相应的特征值连乘:

\(|\mathbf{\Sigma}|^{1/2}=\prod_{j=1}^{D}\lambda_{j}^{1/2}\).

于是乎,在 y 的坐标轴系统中,高斯分布被表达为:

\(p(\mathbf{y})=\prod_{j=1}^{D}\frac{1}{(2\pi\lambda_{j})^{1/2}}\exp{\bigg\{-\frac{y_{j}^{2}}{2\lambda_{j}}\bigg\}}\)

我们可以看到原高斯分布被转化到了一个新的坐标系中。这时候高斯分布的期望可以表示为:

\(\mathbb{E}[\mathbf{x}]=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}}\int\exp\bigg\{ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{T}\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})\bigg\}\mathbf{x}\mathrm{d}\mathbf{x}\)

\(\mathbb{E}[\mathbf{x}]=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}}\int\exp\bigg\{ -\frac{1}{2}\mathbf{z}^{T}\mathbf{\Sigma}^{-1}\mathbf{z}\bigg\}(\mathbf{z}+\mathbf{\mu})\mathrm{d}\mathbf{z}\)

注意指数项目关于 \(\mathbf{z}\) 是一个奇函数,所以积分的结果为\(\mathbb{E}[\mathbf{x}]=\mathbf{\mu}\).

接着我们考虑二阶期望:

\(\mathbb{E}[\mathbf{x}\mathbf{x}^{T}]=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}}\int\exp\bigg\{ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{T}\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})\bigg\}\mathbf{x}\mathbf{x}……{T}\mathrm{d}\mathbf{x}=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}}\int\exp\bigg\{ -\frac{1}{2}\mathbf{z}^{T}\mathbf{\Sigma}^{-1}\mathbf{z}\bigg\}(\mathbf{z}+\mathbf{\mu})(\mathbf{z}+\mathbf{\mu})^{T}\mathrm{d}\mathbf{z}\)

对于积分项目 \(\mathbf{\mu}\mathbf{z}^{T}\) 和 \(\mathbf{z}\mathbf{\mu}^{T}\) 趋于0,\(\mathbf{\mu}\mathbf{\mu}^{T}\) 是常数项。我们只用考虑 \(\mathbf{z}\mathbf{z}^{T}\). 再一次,我们借助特征值方程,令:

\(\mathbf{z}=\sum_{j=1}^{D}y_{j}\mathbf{u}_{j}\)
\(y_{j}=\mathbf{u}_{j}^{T}\mathbf{z}\)

可以得到:

\(\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}}\int\exp\bigg\{ -\frac{1}{2}\mathbf{z}^{T}\mathbf{\Sigma}^{-1}\mathbf{z}\bigg\}\mathbf{z}\mathbf{z}^{T}\mathrm{d}\mathbf{z}=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\mathbf{\Sigma}|^{1/2}}\sum_{i=1}^{D}\sum_{j=1}^{D}\mathbf{u_i}\mathbf{u_j}^{T}\int\exp\bigg\{-\sum_{k=1}^{D}\frac{y_{k}^2}{2\lambda_{k}}\bigg\}y_{i}y_{j}\mathrm{d}\mathbf{y}=\sum_{i=1}^{D}\mathbf{u}_{i}\mathbf{u}_{i}^{T}\lambda_{i}=\mathbf{\Sigma}\)

故我们得到 \(\mathbb{E}[\mathbf{x}\mathbf{x}^{T}]=\mathbf{\mu}\mathbf{\mu}^{T}+\mathbf{\Sigma}\)
可以验证,反向逆推协方差矩阵可以得到 \(cov[\mathbf{x}] = \mathbb{E}\big[(\mathbf{x}-\mathbb{E}[\mathbf{x}])(\mathbf{x}-\mathbb{E}[\mathbf{x}])^{T}\big]=\mathbf{\Sigma}\).

尽管高斯分布被广泛使用,它仍然有着许多限制。首先是分布中的参数数量过大,考虑到一个对称的协方差矩阵将有 \(D(D+1)/2\) 个互不相关的参数,再算上 \(\mathbf{\mu}\) 里另外 \(D\) 个不相关的参数,一共将有 \(D(D+3)/2\) 个参数。这个关于 D 的二次增长,将使得计算变得具有挑战性。虽然我们可以通过限制协方差矩阵为对角阵甚至是单位矩阵与某数的乘积,但这样会降低高斯分布的自由性,限制了其获取数据中有用信息的能力。

另一个限制是高斯分布本质上是一个单峰分布。天然的不能对多峰分布进行好的估计。且高斯分布在参数多的情况下将变得非常敏感。这些问题在后续的章节中都会一定程度上被解决。

条件高斯分布

多维高斯分布的另外一个非常有用的特性是,对于联合分布是高斯分布的概率分布,他的条件分布同样是高斯分布.同时他的边缘概率分布也是高斯分布。

首先我们考虑条件概率分布,假设 \(\mathbf{x}\) 是D维高斯分布 \(\mathcal{N}(\mathbf{x}|\mathbf{\mu},\mathbf{\Sigma})\), 我们将 \(\mathbf{x}\) 分成两个部分 \(\mathbf{x}_{a}\) 和 \(\mathbf{x}_{b}\),其中 \(\mathbf{x}_{a}\) 占据了 M 维,\(\mathbf{x}_{b}\) 是 \(D-M\) 维。区分如下:

\(\left( \begin{array}{ccc}
\mathbf{x}_{a}\\
\mathbf{x}_{b}
\end{array} \right)\) 和相应的均值与协方差矩阵 \(\left( \begin{array}{ccc}
\mathbf{\mu}_{a}\\
\mathbf{\mu}_{b}
\end{array} \right)\)

\(\left( \begin{array}{ccc}
\mathbf{\Sigma}_{aa} & \mathbf{\Sigma}_{ab}\\
\mathbf{\Sigma}_{ba} &
\mathbf{\Sigma}_{bb}\end{array} \right)\)

因为 \(\mathbf{\Sigma}\) 是对称矩阵,所以有 \(\mathbf{\Sigma}_{ba}=\mathbf{\Sigma}_{ab}^{T}\)

为了方便计算,我们定义准度矩阵:

\(\mathbf{\Lambda}\equiv\mathbf{\Sigma}^{-1}\)

同样满足:

\(\mathbf{\Lambda}=\left( \begin{array}{ccc}
\mathbf{\Lambda}_{aa} & \mathbf{\Lambda}_{ab}\\
\mathbf{\Lambda}_{ba} &
\mathbf{\Lambda}_{bb}\end{array} \right)\)

但是这里要注意 \(\mathbf{\Lambda}_{aa} \neq \mathbf{\Sigma}_{aa}^{-1}\)

现在我们已知了一个高斯分布 \(\mathcal{N}(\mathbf{x}|\mathbf{\mu})\),并且可以将其分为 a, b 两部分。 求其条件概率分布就是求 \(p(\mathbf{x}_{a}|\mathbf{x}_{b})\) 从联合分布 \(p(\mathbf{x})=p(\mathbf{x}_{a}, \mathbf{x}_{b})\). 我们首先开始考虑高斯分布中的平方项:

\(-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{T}\mathbf{\Lambda}(\mathbf{x}-\mathbf{\mu})=-\frac{1}{2}(\mathbf{x}_{a}-\mathbf{\mu}_{a})^{T}\mathbf{\Lambda}_{aa}(\mathbf{x}_{a}-\mathbf{\mu}_{a})-\frac{1}{2}(\mathbf{x}_{a}-\mathbf{\mu}_{a})^{T}\mathbf{\Lambda}_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b})-\frac{1}{2}(\mathbf{x}_{b}-\mathbf{\mu}_{b})^{T}\mathbf{\Lambda}_{ba}(\mathbf{x}_{a}-\mathbf{\mu}_{a})-\frac{1}{2}(\mathbf{x}_{b}-\mathbf{\mu}_{b})^{T}\mathbf{\Lambda}_{bb}(\mathbf{x}_{b}-\mathbf{\mu})_{n}\)

现在我们要试图从上面的式子中找出 \(p(\mathbf{x}_{a}|\mathbf{x}_{b})\) 的均值与协方差。首先我们可以将一个不同的高斯分布 \(\mathcal{N}(\mathbf{x}|\mathbf{\mu})\) 写作:

\(-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{T}\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})=-\frac{1}{2}\mathbf{x}^{T}\mathbf{\Sigma}^{-1}\mathbf{x} + \mathbf{x}^{T}\mathbf{\Sigma}^{-1}\mathbf{\mu} + const\)

其中 \(const\) 是与 \(\mathbf{x}\) 无关的项目。我们根据这个式子就可以方便的从联合分布中找到我们需要的成分了。

这时候我们在对比那个拆开了的高斯分布,可以发现对应的二次项目是:

\(-\frac{1}{2}\mathbf{x}_{a}^{T}\mathbf{\Lambda}_{aa}\mathbf{x}_{a}\)

显然我们得到了相对的协方差矩阵:

\(\mathbf{\Sigma}_{a|b}=\mathbf{\Lambda}_{aa}\)

接下来我们检查一次项目 \(\mathbf{x}_{a}^{T}\{\mathbf{\Lambda}_{aa}\mathbf{\mu}_{a}-\mathbf{\Lambda}_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b})\}\)

变形后得到:

\(\mathbf{\mu}_{a|b}=\mathbf{\Sigma}_{a|b}\{\mathbf{\Lambda}_{aa}\mathbf{\mu}_{a}-\mathbf{\Lambda}_{ab}(\mathbf{x}_{b}\mathbf{\mu}_{b})\}=\mathbf{\mu}_{a}-\mathbf{\Lambda}_{aa}^{-1}\mathbf{\Lambda}_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b})\)

使用舒尔补(Schur complement) 我们可以得到表达式:

\(\left( \begin{array}{ccc}
\mathbf{\Sigma}_{aa} & \mathbf{\Sigma}_{ab}\\
\mathbf{\Sigma}_{ba} &
\mathbf{\Sigma}_{bb}\end{array} \right)^{-1}=\left( \begin{array}{ccc}
\mathbf{\Lambda}_{aa} & \mathbf{\Lambda}_{ab}\\
\mathbf{\Lambda}_{ba} &
\mathbf{\Lambda}_{bb}\end{array} \right)\)

\(\mathbf{\Lambda}_{aa}=(\mathbf{\Sigma}_{aa}-\mathbf{\Sigma}_{ab}\mathbf{\Sigma}_{bb}^{-1}\mathbf{\Sigma}_{ba})^{-1}\)
\(\mathbf{\Lambda}_{ab}=-(\mathbf{\Sigma}_{aa}-\mathbf{\Sigma}_{ab}\mathbf{\Sigma}_{bb}^{-1}\mathbf{\Sigma}_{ba})^{-1}\mathbf{\Sigma}_{ab}\mathbf{\Sigma}_{bb}^{-1}\)

进一步有:

\(\mathbf{\mu}_{a|b}=\mathbf{\mu}_{a}-\mathbf{\Lambda}_{aa}^{-1}\mathbf{\Lambda}_{ab}(\mathbf{x}_{b}-\mathbf{\mu}_{b})=\mathbf{\mu}_{a}+\mathbf{\Sigma}_{ab}\mathbf{\Sigma}_{bb}^{-1}(\mathbf{x}_{b}-\mathbf{\mu}_{b})\)
\(\mathbf{\Sigma}_{a|b}=\mathbf{\Lambda}_{aa}=\mathbf{\Sigma}_{aa}-\mathbf{\Sigma}_{ab}\mathbf{\Sigma}_{bb}^{-1}\mathbf{\Sigma}_{ba}\)

注意新的条件分布的均值是关于 \(\mathbf{x}_{b}\) 的线性方程,而方差与 \(\mathbf{x}_{a}\) 不相关。

边缘高斯分布

接着我们考虑边缘分布。即已知 \(p(\mathbf{x}_{a},\mathbf{x}_b)\), 求 \(p(\mathbf{x}_{a})\):

\(p(\mathbf{x}_{a})=\int p(\mathbf{x}_{a},\mathbf{x}_b)\mathrm{d}\mathbf{x}_b\)

边缘分布同样也是一个高斯分布。我们这一节要求边缘分布的均值与协方差矩阵。我们要从联合分布的式子中找到关于 \(\mathbf{x}_b\) 的依赖项:

\(-\frac{1}{2}\mathbf{x}_b^{T}\mathbf{\Lambda}_{bb}\mathbf{x}_b + \mathbf{x}_b^{T}\mathbf{m}=-\frac{1}{2}(\mathbf{x}_b-\mathbf{\Lambda}_{bb}^{-1}\mathbf{m})^{T}\mathbf{\Lambda}_{bb}(\mathbf{x}_b-\mathbf{\Lambda}_{bb}^{-1}\mathbf{m})+\frac{1}{2}\mathbf{m}^{T}\mathbf{\Lambda}_{bb}^{-1}\mathbf{m}\)
\(\mathbf{m}=\mathbf{\Lambda}_{bb}\mathbf{\mu}_{b}-\mathbf{\Lambda}_{ba}(\mathbf{x}_{a}-\mathbf{\mu}_{a})\)

依赖项的前半部分是关于 \(\mathbf{x}_{b}\) 的二次函数,后半部分与 \(\mathbf{x}_{b}\) 无关但与 \(\mathbf{x}_{a}\) 有关。这样对 \(\mathbf{x}_{b}\) 的积分就转化为:

\(\int\exp\bigg\{-\frac{1}{2}(\mathbf{x}_b-\mathbf{\Lambda}_{bb}^{-1}\mathbf{m})^{T}\mathbf{\Lambda}_{bb}(\mathbf{x}_b-\mathbf{\Lambda}_{bb}^{-1}\mathbf{m})\bigg\}\mathrm{d}\mathbf{x}_b\)

该式是一个关于未标准换的高斯分布的积分,显然其结果将其标准化系数相同,这样才能归一。又已知标准化系数与均值无关,只与协方差矩阵有关。故积分后的项目与 \(\mathbf{x}_{b}\) 无关。所以我们只需要关注与 \(\mathbf{x}_{a}\) 相关的项目即可与联合分布中原先仅依赖 \(\mathbf{x}_{a}\) 的项目:

\(\frac{1}{2}[\mathbf{\Lambda}_{bb}\mathbf{\mu}_{b}-\mathbf{\Lambda}_{ba}(\mathbf{x}_{a}-\mathbf{\mu}_{a})]^{T}\mathbf{\Lambda}_{bb}^{-1}[\mathbf{\Lambda}_{bb}\mathbf{\mu}_{b}-\mathbf{\Lambda}_{ba}(\mathbf{x}_{a}-\mathbf{\mu}_{a})]-\frac{1}{2}\mathbf{x}_{a}^{T}\mathbf{\Lambda}_{aa}\mathbf{x}_{a}+\mathbf{x}_{a}^{T}(\mathbf{\Lambda}_{aa}\mathbf{\mu}_{a}+\mathbf{\Lambda}_{ab}\mathbf{\mu}_{b}) + const\)

转化为:

\(-\frac{1}{2}\mathbf{x}_{a}^{T}(\mathbf{\Lambda}_{aa}-\mathbf{\Lambda}_{ab}\mathbf{\Lambda}_{bb}^{-1}\mathbf{\Lambda}_{ba})\mathbf{x}_{a}+\mathbf{x}_{a}^{T}(\mathbf{\Lambda}_{aa}-\mathbf{\Lambda}_{ab}\mathbf{\Lambda}_{bb}^{-1}\mathbf{\Lambda}_{ba}){-1}\mathbf{\mu}_{a} + const\)

显然:

\(\mathbf{\Sigma}_{a}=(\mathbf{\Lambda}_{aa}-\mathbf{\Lambda}_{ab}\mathbf{\Lambda}_{bb}^{-1}\mathbf{\Lambda}_{ba})^{-1}=\mathbf{\Sigma}_{aa}\)
\(\mathbf{\Sigma}_{a}(\mathbf{\Lambda}_{aa}-\mathbf{\Lambda}_{ab}\mathbf{\Lambda}_{bb}^{-1}\mathbf{\Lambda}_{ba})\mathbf{\mu}_{a}=\mathbf{\mu}_{a}\)

\(\mathbf{\mu}_{a}\) 还是原先的。

所以有边缘分布满足:

\(\mathbb{E}[\mathbf{x}_{a}]=\mathbf{\mu}_{a}\)
\(cov[\mathbf{x}_{a}]=\mathbf{\Sigma}_{aa}\)

高斯分布的贝叶斯理论

前面我们分析了在给定一个联合分布的情况下,如何求它的条件分布于边缘分布。现在我们应用贝叶斯理论,在给定边缘分布 \(p(\mathbf{x})\) 和条件分布 \(p(\mathbf{y}| \mathbf{x})\) 的情况下,求另外一组边缘分布 \(p(\mathbf{y})\) 和条件概率分布 \(p(\mathbf{x}| \mathbf{y})\).

我们已知:

\(p(\mathbf{x})=\mathcal{N}(\mathbf{x}|\mathbf{\mu}, \mathbf{\Lambda}^{-1})\)
\(p(\mathbf{y}| \mathbf{x})=\mathcal{N}(\mathbf{y}|\mathbf{A}\mathbf{x}+\mathbf{b}, \mathbf{L}^{-1})\)

首先我们用 \(\mathbf{z}\) 来表示联合分布:

\(\mathbf{z}=\left( \begin{array}{ccc}
\mathbf{x}\\
\mathbf{y}
\end{array} \right)\)

因为联合分布满足:

\(p(\mathbf{y})= p(\mathbf{x})p(\mathbf{y}|\mathbf{x})\)

可以得到

\(\ln p(\mathbf{z})=\ln p(\mathbf{x}) + \ln p(\mathbf{y}|\mathbf{x})=-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{T}\mathbf{\Lambda}(\mathbf{x}-\mathbf{\mu}) -\frac{1}{2}(\mathbf{y}-\mathbf{A}\mathbf{x}-\mathbf{b})^{T}\mathbf{L}(\mathbf{y}-\mathbf{A}\mathbf{x}-\mathbf{b})+ const\)

其中 const 表示与 \(\mathbf{x}\) 和 \(\mathbf{y}\) 无关的项。我们只考虑上式中的二次项目,可以得到:

\(-\frac{1}{2}\mathbf{x}^{T}(\mathbf{\Lambda}+\mathbf{A}^{T}\mathbf{L}\mathbf{A})\mathbf{x}-\frac{1}{2}\mathbf{y}^{T}\mathbf{L}\mathbf{y}+\frac{1}{2}\mathbf{y}^{T}\mathbf{L}\mathbf{A}\mathbf{x} + \frac{1}{2}\mathbf{x}^{T}\mathbf{A}^{T}\mathbf{L}\mathbf{y}\)

\(=-\frac{1}{2}\left( \begin{array}{ccc}
\mathbf{x}\\
\mathbf{y}
\end{array} \right)^{T}
\left( \begin{array}{ccc}
\mathbf{\Lambda}+\mathbf{A}^{T}\mathbf{L}\mathbf{A}& -\mathbf{A}^{T}\mathbf{L}\\
-\mathbf{L}\mathbf{A} &
\mathbf{L}\end{array} \right)\left( \begin{array}{ccc}
\mathbf{x}\\
\mathbf{y}
\end{array} \right)=-\frac{1}{2}\mathbf{z}^{T}\mathbf{R}\mathbf{z}\)

显然我们得到了关于 \(\mathbf{z}\) 的准度矩阵:

\(\mathbf{R}=\left( \begin{array}{ccc}
\mathbf{\Lambda}+\mathbf{A}^{T}\mathbf{L}\mathbf{A}& -\mathbf{A}^{T}\mathbf{L}\\
-\mathbf{L}\mathbf{A} &
\mathbf{L}\end{array} \right)\)

相对应的协方差矩阵为:

\(cov[\mathbf{z}]=\left( \begin{array}{ccc}
\mathbf{\Lambda}^{-1}& \mathbf{\Lambda}^{-1}\mathbf{A}^{T}\\
\mathbf{A}\mathbf{\Lambda}^{-1} &
\mathbf{L}^{-1} + \mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{T}\end{array} \right)\)

使用同样的方法关注一次项目,就可以找到关于\(>\mathbf{z}\) 的期望:

\(\mathbf{x}^{T}\mathbf{\Lambda}\mathbf{\mu}-\mathbf{x}^{T}\mathbf{A}\mathbf{L}\mathbf{b}+\mathbf{y}^{T}\mathbf{L}\mathbf{b}=\left( \begin{array}{ccc}
\mathbf{x}\\
\mathbf{y}
\end{array} \right)^{T}\left( \begin{array}{ccc}
\mathbf{\Lambda}\mathbf{\mu}-\mathbf{A}^{T}\mathbf{L}\mathbf{b}\\
\mathbf{L}\mathbf{b}
\end{array} \right)\)
因为:
\(-\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{T}\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu})=-\frac{1}{2}\mathbf{x}^{T}\mathbf{\Sigma}^{-1}\mathbf{x} + \mathbf{x}^{T}\mathbf{\Sigma}^{-1}\mathbf{\mu} + const\)

所以有:

\(\mathbb{E}(\mathbf{z})=\mathbf{R}^{-1}\left( \begin{array}{ccc}
\mathbf{\Lambda}\mathbf{\mu}-\mathbf{A}^{T}\mathbf{L}\mathbf{b}\\
\mathbf{L}\mathbf{b}
\end{array} \right)=\left( \begin{array}{ccc}
\mathbf{\mu}\\
\mathbf{A}\mathbf{\mu}+\mathbf{b}
\end{array} \right)\)

这时候我们就有了联合分布,就可以方便的进行边缘分布和条件分布了:

\(\mathbb{E}(\mathbf{y})=\mathbf{A}\mathbf{\mu}+\mathbf{b}\)
\(cov[\mathbf{y}]=\mathbf{L}^{-1}+\mathbf{A}\mathbf{\Lambda}^{-1}\mathbf{A}^{T}\)
\(\mathbb{E}(\mathbf{x}|\mathbf{y})=(\mathbf{\Lambda+\mathbf{A}^{T}\mathbf{L}\mathbf{A}})^{-1}\{\mathbf{A}^{T}\mathbf{L}(\mathbf{y}-\mathbf{b})+\mathbf{\Lambda}\mathbf{\mu}\}\)
\(cov[\mathbf{x}|\mathbf{y}]=(\mathbf{\Lambda+\mathbf{A}^{T}\mathbf{L}\mathbf{A}})^{-1}\)

高斯分布的最大似然

待续

Pattern Recognition And Machine Learning (模式识别与机器学习) 笔记 (1)的更多相关文章

  1. Pattern Recognition and Machine Learning 模式识别与机器学习

    模式识别(PR)领域:     关注的是利⽤计算机算法⾃动发现数据中的规律,以及使⽤这些规律采取将数据分类等⾏动. 聚类:目标是发现数据中相似样本的分组. 反馈学习:是在给定的条件下,找到合适的动作, ...

  2. Pattern Recognition And Machine Learning读书会前言

    读书会成立属于偶然,一次群里无聊到极点,有人说Pattern Recognition And Machine Learning这本书不错,加之有好友之前推荐过,便发了封群邮件组织这个读书会,采用轮流讲 ...

  3. Pattern Recognition and Machine Learning (preface translation)

    前言 鉴于机器学习产生自计算机科学,模式识别却起源于工程学.然而,这些活动能被看做同一个领域的两个方面,并且他们同时在这过去的十年间经历了本质上的发展.特别是,当图像模型已经作为一个用来描述和应用概率 ...

  4. 今天开始学习模式识别与机器学习Pattern Recognition and Machine Learning (PRML),章节5.1,Neural Networks神经网络-前向网络。

    话说上一次写这个笔记是13年的事情了···那时候忙着实习,找工作,毕业什么的就没写下去了,现在工作了有半年时间也算稳定了,我会继续把这个笔记写完.其实很多章节都看了,不过还没写出来,先从第5章开始吧, ...

  5. 学习笔记-----《Pattern Recognition and Machine Learning》Christopher M. Bishop

    Preface 模式识别这个词,以前一直不懂是什么意思,直到今年初,才开始打算读这本广为推荐的书,初步了解到,它的大致意思是从数据中发现特征,规律,属于机器学习的一个分支. 在前言中,阐述了什么是模式 ...

  6. Pattern recognition and machine learning 疑难处汇总

    不断更新ing......... p141 para 1. 当一个x对应的t值不止一个时,Gaussian nosie assumption就不合适了.因为Gaussian 是unimodal的,这意 ...

  7. 今天开始学Pattern Recognition and Machine Learning (PRML),章节5.2-5.3,Neural Networks神经网络训练(BP算法)

    转载请注明出处:http://www.cnblogs.com/xbinworld/p/4265530.html 这一篇是整个第五章的精华了,会重点介绍一下Neural Networks的训练方法——反 ...

  8. Pattern Recognition and Machine Learning-01-Preface

    Preface Pattern recognition has its origins in engineering, whereas machine learning grew out of com ...

  9. [Machine Learning & Algorithm]CAML机器学习系列2:深入浅出ML之Entropy-Based家族

    声明:本博客整理自博友@zhouyong计算广告与机器学习-技术共享平台,尊重原创,欢迎感兴趣的博友查看原文. 写在前面 记得在<Pattern Recognition And Machine ...

随机推荐

  1. 说一说windows原生docker及windows Server Container , Hyper Container 之间的关系(学习总结)

    前一段时间学习netcore的时候解除到了docker,感觉真是不错的技术.百度了不少教程.因为我用windows就下载安装了一下试试.但是没有安装成功,才发现 需要安装virtualbox虚拟机,与 ...

  2. linux命令每日一练习 解压命令

    .tar 解包:tar xvf FileName.tar打包:tar cvf FileName.tar DirName(注:tar是打包,不是压缩!)———————————————.gz解压1:gun ...

  3. web开发流程(传智播客-方立勋老师)

    1.搭建开发环境 1.1 导入项目所需的开发包 dom4j-1.6.1.jar jaxen-1.1-beta-6.jar commons-beanutils-1.8.0.jar commons-log ...

  4. byte数据的常用操作函数[转发]

    /// <summary> /// 本类提供了对byte数据的常用操作函数 /// </summary> public class ByteUtil { ','A','B',' ...

  5. XPath

    XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言.XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力. XPath的需要理解的相关概念 ...

  6. JQuery基础总结下

    JQuery动画与特效 show()和hide()方法可以用来显示和隐藏元素,toggle()方法用来切换显示和隐藏. $(selector).hide(speed,[callback]); $(se ...

  7. 使用cocoapods碰到的难题

    -------------报错---------- 1. git clone error: RPC failed; result=56, HTTP code = 200 解决办法: git confi ...

  8. Caliburn.Micro学习笔记目录——li-peng

    Caliburn.Micro学习笔记(一)----引导类和命名匹配规则 Caliburn.Micro学习笔记(二)----Actions Caliburn.Micro学习笔记(三)----事件聚合IE ...

  9. Java SCP copy local file to remote implementation

    最近做的项目中,有一个小需求,需要通过SCP把本地文件copy到远程服务器.查了好多资料,最终解决方案简单快速,分享一下. 在这里,需要用到4个jar包,分别是ant-jsch.jar,ant-lau ...

  10. hibrenate @ManyToOne(fetch = FetchType.EAGER) 和 lazy 区别

    项目中在spring定时器中定时扫描订单想修改订单详细和会员信息时老是报错,说no session...但是在正常的后台操作action中又能用. 对hibernate一直不是很熟悉,只知道用. 如果 ...