【ML】概率图模型】的更多相关文章

一.ML方法分类:          产生式模型和判别式模型 假定输入x,类别标签y         -  产生式模型(生成模型)估计联合概率P(x,y),因可以根据联合概率来生成样本:HMMs         - 判别式模型(判别模型)估计条件概率P(y|x),因为没有x的知识,无法生成样本,只能判断分类:SVMs,CRF,MEM 一个举例:   (1,0), (1,0), (2,0), (2, 1) 产生式模型: p(x,y): P(1, 0) = 1/2, P(1, 1) = 0 , P(…
作者:Scofield链接:https://www.zhihu.com/question/35866596/answer/236886066来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. so far till now, 我还没见到过将CRF讲的个明明白白的.一个都没.就不能不抄来抄去吗?我打算搞一个这样的版本,无门槛理解的.——20170927 陆陆续续把调研学习工作完成了,虽然历时有点久,现在put上来.评论里的同学也等不及了时不时催我,所以不敢怠慢啊…… 总…
概率图模型的作业越往后变得越来越有趣了.当然,难度也是指数级别的上涨啊,以至于我用了两个周末才完成秋名山神秘车牌的寻找,啊不,CRF模型的训练. 条件随机场是一种强大的PGM,其可以对各种特征进行建模,同时可以使用随机梯度下降算法进行训练,训练的结果就是PGM中那些定义变量交互方式的参数. 1.LR模型的训练 LR模型可以看作是CRF模型的低配版,在完全不定义随机变量交互,只考虑P(Y|X)的情况下,得到的就是LR模型.其数学表达如下: 这里theta是参数,X是特征也是像素值,该形式成为Log…
除了精确推理之外,我们还有非精确推理的手段来对概率图单个变量的分布进行求解.在很多情况下,概率图无法简化成团树,或者简化成团树后单个团中随机变量数目较多,会导致团树标定的效率低下.以图像分割为例,如果每个像素的label都是随机变量,则图中会有30W个随机变量(30W像素的小型相机).且这30W个随机变量相互之间耦合严重(4邻接,多回环),采用团树算法无法高效的获得单个像素label的可能值.所以,在精确推理之外,我们使用非精确推理的手段对节点的概率分布进行估计. 1.Loopy 置信传播 BP…
在前三周的作业中,我构造了概率图模型并调用第三方的求解器对器进行了求解,最终获得了每个随机变量的分布(有向图),最大后验分布(双向图).本周作业的主要内容就是自行编写概率图模型的求解器.实际上,从根本上来说求解器并不是必要的.其作用只是求取边缘分布或者MAP,在得到联合CPD后,寻找联合CPD的最大值即可获得MAP,对每个变量进行边缘分布求取即可获得边缘分布.但是,这种简单粗暴的方法效率极其低下,对于MAP求取而言,每次得到新的evidance时都要重新搜索CPD,对于单个变量分布而言,更是对每…
前两周的作业主要是关于Factor以及有向图的构造,但是概率图模型中还有一种更强大的武器——双向图(无向图.Markov Network).与有向图不同,双向图可以描述两个var之间相互作用以及联系.描述的方式依旧是factor.本周的作业非常有实际意义——基于马尔科夫模型的图像文字识别系统(OCR) 图像文字识别系统(OCR)在人工智能中有着非常重要的应用.但是受到图像噪声,手写体变形,连笔等影响基于图像的文字识别系统比较复杂.PGM的重要作用就是解决那些测量过程复杂,测量结果不一定对,连续测…
Week2的作业主要是关于概率图模型的构造,主要任务可以分为两个部分:1.构造CPD;2.构造Graph.对于有向图而言,在获得单个节点的CPD之后就可依据图对Combine CPD进行构造.在获得Combine CPD之后则可利用变量的观测来进行问答.此周作业的大背景是对基因型与表现型之间的关系进行探索.在已知表现性的情况下对基因型以及下一代的基因进行推测.这是一个很有实际意义的有向图网络. 1.CPD构造 1.1.基因型与表现型的关系——确定 在孟德尔遗传假说基础上,对双碱基配对的基因推测表…
Talk is cheap, I show you the code 第一章的作业主要是关于PGM的因子操作.实际上,因子是整个概率图的核心.对于有向图而言,因子对应的是CPD(条件分布):对无向图而言,因子对应的是势函数.总而言之,因子是一个映射,将随机变量空间映射到实数空间.因子表现的是对变量之间关系的一种设计.每个因子都编码了一定的信息. 因子的数据结构: phi = struct('var', [3 1 2], 'card', [2 2 2], 'val', ones(1, 8)); 在…
在概率图模型中,有一类很重要的模型称为条件随机场.这种模型广泛的应用于标签—样本(特征)对应问题.与MRF不同,CRF计算的是“条件概率”.故其表达式与MRF在分母上是不一样的. 如图所示,CRF只对 label 进行求和,而不对dataset求和. 1.CRF的likelyhood function 对于给定的数据集以及其对应标记,CRF的 E based on theta 是与 数据集 x[m]有关的,因为x[m]并没有完全被边际掉.也就是说,对数据集中的每个数据x[m],E based o…
之前忘记强调了一个重要差别:条件概率链式法则和贝叶斯网络链式法则的差别 条件概率链式法则 贝叶斯网络链式法则,如图1 图1 乍一看非常easy认为贝叶斯网络链式法则不就是大家曾经学的链式法则么,事实上不然,后面详述. 上一讲谈到了概率分布的因式分解 \begin{array}{l}P\left({X,Y\left| Z \right.} \right) = P\left( {X\left| Z \right.} \right)P\left({Y\left| Z \right.} \right)\…