指数族分布是一大类分布,基本形式为: T(x)是x的充分统计量(能为相应分布提供足够信息的统计量) 为了满足归一化条件,有: 可以看出,当T(x)=x时,e^A(theta)是h(x)的拉普拉斯变换. 指数族分布的例子: 伯努利分布转换成指数族分布形式: 单变量高斯分布的: 多变量高斯分布的: A(theta)的一阶导: A(theta)的二阶导: 说明A(theta)是凸函数 计算log likehood,然后对theta求导,可得 而A的二次导时大于零的,所以A的一次导是增函数,上述方程最多…
1. exponential family 给定参数 η,关于 x 的指数族分布定义为如下的形式: p(x∣∣η)=h(x)g(η)exp{ηTu(x)} 其中 x 可以为标量也可以为矢量,可以为离散也可是连续.其中 η 被称为分布的自然系数(natural parameters), g(η)∫h(x)exp{ηTu(x)}dx=1 2. 以指数分布的眼光看其他分布 伯努利分布(Bernoulli Distribution,也叫 0-1 分布): 伯努利分布的基本形式为(其中 μ 为事件可能发生…
目录 定义 性质 极大似然估计 最大熵 例子 Bernoulli 指数分布 正态分布 Choi H. I. Lecture 4: Exponential family of distributions and generalized linear model (GLM). 定义 定义: 一个分布具有如下形式的密度函数: \[f_{\theta}(x) = \frac{1}{Z(\theta)} h(x) e^{\langle T(x), \theta \rangle}, \] 则该分布属于指数族…
如果在我们的分类问题中,输入特征xx是连续型随机变量,高斯判别模型(Gaussian Discriminant Analysis,GDA)就可以派上用场了. 以二分类问题为例进行说明,模型建立如下: 样本输入特征为x∈Rnx∈Rn,其类别y∈{0,1}y∈{0,1}: 样本类别yy服从参数为ϕϕ的伯努力分布,即y∼Bernoulli(ϕ)y∼Bernoulli(ϕ): 两类样本分别服从不同的高斯分布,即x|y=0∼N(μ0,Σ),x|y=1∼N(μ1,Σ)x|y=0∼N(μ0,Σ),x|y=1∼…
如果在我们的分类问题中,输入特征$x$是连续型随机变量,高斯判别模型(Gaussian Discriminant Analysis,GDA)就可以派上用场了. 以二分类问题为例进行说明,模型建立如下: 样本输入特征为\(x\in\mathbb{R}^n\),其类别\(y\in\{0,1\}\): 样本类别\(y\)服从参数为\(\phi\)的伯努力分布,即\(y\sim Bernoulli(\phi)\): 两类样本分别服从不同的高斯分布,即\(x|y=0\sim\mathcal{N}(\mu_…
Exponential family(指数分布族)是一个经常出现的概念,但是对其定义并不是特别的清晰,今天好好看了看WIKI上的内容,有了一个大致的了解,先和大家分享下.本文基本是WIKI上部分内容的翻译. 1. 几个问题 什么是指数分布族? 既然是”族“,那么族内的共同特点是什么? 为何指数分布族被广泛应用?是指数分布族选择了我们,还是我们选择了指数分布族?(这个问题没有回答,需要结合具体实例分析) 2. 参考 Exponential family. (2015, February 26).…
PRML Chapter 2. Probability Distributions P68 conjugate priors In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distributionp(θ), the prior and posterior are then called conjugate d…
本博文来自<PRML第二章> 在第一章中说了对于模式识别问题来说,核心角色就是概率论.本章的目的一方面是为了介绍概率分布,另一方面也是为了对后面遇到的那些复杂问题先打下基础.本章关于分布上的一个讨论核心就是如何在给定有限的观测集合基础上对随机变量的概率分布进行建模,这也被称之为密度估计问题.本章中假设数据都是i.i.d 的.这里我们的强调下密度估计问题其实是个病态问题,因为对于某个观测到的有限数据集来说,其实是会有无限个概率分布可以可以如此表示. 什么分布最合适是需要基于模型选择问题上的考虑,…
  之前看MADDPG论文的时候,作者提到在离散的信息交流环境中,使用了Gumbel-Softmax estimator.于是去搜了一下,发现该技巧应用甚广,如深度学习中的各种GAN.强化学习中的A2C和MADDPG算法等等.只要涉及在离散分布上运用重参数技巧时(re-parameterization),都可以试试Gumbel-Softmax Trick.   这篇文章是学习以下链接之后的个人理解,内容也基本出于此,需要深入理解的可以自取. The Humble Gumbel Distribut…
2.1. Binary Variables 1. Bernoulli distribution, p(x = 1|µ) = µ 2.Binomial distribution + 3.beta distribution(Conjugate Prior of Bernoulli distribution) The parameters a and b are often called hyperparameters because they control the distribution of…