一.高斯网络(高斯图模型)总体介绍 概率图模型分为三种:贝叶斯网络,马尔科夫随机场以及高斯网络:而高斯网络又可以根据有向无向细分为高斯贝叶斯网络和高斯马尔科夫随机场 二.高斯贝叶斯网络 1.高斯贝叶斯网络是有向图,x服从高斯分布,y|x服从高斯分布 高斯贝叶斯网络(global model)是基于线性高斯模型(local model)的. 2.HMM与GBN关系 HMM是一种特殊的高斯贝叶斯网络,(他的父节点只有一个) 3.高斯贝叶斯网络的参数求解 三.高斯马尔科夫随机场 1.高斯马尔科夫网络的…
作为一种随机采样方法,马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,以下简称MCMC)在机器学习,深度学习以及自然语言处理等领域都有广泛的应用,是很多复杂算法求解的基础.比如分解机(Factorization Machines)推荐算法,还有前面讲到的受限玻尔兹曼机(RBM)原理总结,都用到了MCMC来做一些复杂运算的近似求解.下面我们就对MCMC的原理做一个总结. 一.MCMC概述 从名字我们可以看出,MCMC由两个MC组成,即蒙特卡罗方法(Monte Carlo Si…
一.高斯(分布)过程(随机过程)是什么? 一维高斯分布 多维高斯分布 无限维高斯分布   高斯网络 高斯过程 简单的说,就是一系列关于连续域(时间或空间)的随机变量的联合,而且针对每一个时间或是空间点上的随机变量都是服从高斯分布的. 举个例子:倘若你人生的每一个时刻看做一个随机变量,且都是满足高斯分布,那么你的人生就可以看做一个高斯过程,既有很多确定的东西,确定的是mean和kernel,如你的人生中你起点决定的你人生的大致范围,又有极大地不确定性,本质还是随机变量的整体,就像你可以凭借自身的努…
一.什么是SVM? SVM(Support Vector Machine)又称为支持向量机,是一种二分类的模型.当然如果进行修改之后也是可以用于多类别问题的分类.支持向量机可以分为线性和非线性两大类.其主要思想为找到空间中的一个更够将所有数据样本划开的超平面,并且使得本集中所有数据到这个超平面的距离最短. 那么,又怎么表示这个“都正确”呢?可以这样考虑:就是让那些“很有可能不正确”的数据点彼此分开得明显一点就可以了.对于其它“不那么可能不正确”或者说“一看就很正确”的数据点,就可以不用管了.这也…
隐含马尔可夫模型并不是俄罗斯数学家马尔可夫发明的,而是美国数学家鲍姆提出的,隐含马尔可夫模型的训练方法(鲍姆-韦尔奇算法)也是以他名字命名的.隐含马尔可夫模型一直被认为是解决大多数自然语言处理问题最为快速.有效的方法. 现实世界中有一类问题具有明显的时序性,比如路口红绿灯.连续几天的天气变化,我们说话的上下文,HMM的基础假设就是,一个连续的时间序列事件,它的状态受且仅受它前面的N个事件决定,对应的时间序列可以成为N阶马尔可夫链. 假设今天是否有雾霾只由前天和昨天决定,于是就构成了一个2阶马尔可…
在学习LDA之前,有必要将其自然语言处理领域的LDA区别开来,在自然语言处理领域, LDA是隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),是一种处理文档的主题模型.本文只讨论线性判别分析,因此后面所有的LDA均指线性判别分析. 线性判别分析 LDA: linear discriminant analysis 一.LDA思想:类间小,类间大 (‘高内聚,松耦合’) LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的,这点和PCA不同…
一.预备知识 减少过拟合的方法有:(1)增加数据 (2)正则化(3)降维 维度灾难:从几何角度看会导致数据的稀疏性 举例1:正方形中有一个内切圆,当维度D趋近于无穷大时,圆内的数据几乎为0,所有的数据集中于球外(空壳) 举例2:圆内有个内圆,当维度D趋近于无穷大时,环形内的数据与外圆的数据比为1,说明所有的数据集中于环中(空壳) 样本均值 & 样本方差的矩阵表示 二.PCA:一个中心 + 两个基本点(最大投影方差.最小重构距离) 1.最大投影方差角度 2.最小重构代价角度 3.SVD角度 主成分…
本文顺序 一.回忆线性回归 线性回归用最小二乘法,转换为极大似然估计求解参数W,但这很容易导致过拟合,由此引入了带正则化的最小二乘法(可证明等价于最大后验概率) 二.什么是贝叶斯回归? 基于上面的讨论,这里就可以引出本文的核心内容:贝叶斯线性回归. 贝叶斯线性回归不仅可以解决极大似然估计中存在的过拟合的问题. 它对数据样本的利用率是100%,仅仅使用训练样本就可以有效而准确的确定模型的复杂度. 在极大似然估计线性回归中我们把参数看成是一个未知的固定值,而贝叶斯学派则把看成是一个随机变量. 贝叶斯…
频率派 贝叶斯派 theta是个未知的常量,X是随机变量, theta是个随机变量,X是随机变量 MLE最大似然估计 MAE最大后验概率 统计机器学习,优化问题 1)建立模型.概率 2)定义损失函数 3)梯度下降/牛顿法求解 概率图模型 求积分(用蒙特卡洛方法取样)…