前两周的作业主要是关于Factor以及有向图的构造,但是概率图模型中还有一种更强大的武器——双向图(无向图.Markov Network).与有向图不同,双向图可以描述两个var之间相互作用以及联系.描述的方式依旧是factor.本周的作业非常有实际意义——基于马尔科夫模型的图像文字识别系统(OCR) 图像文字识别系统(OCR)在人工智能中有着非常重要的应用.但是受到图像噪声,手写体变形,连笔等影响基于图像的文字识别系统比较复杂.PGM的重要作用就是解决那些测量过程复杂,测量结果不一定对,连续测…
概率图模型的作业越往后变得越来越有趣了.当然,难度也是指数级别的上涨啊,以至于我用了两个周末才完成秋名山神秘车牌的寻找,啊不,CRF模型的训练. 条件随机场是一种强大的PGM,其可以对各种特征进行建模,同时可以使用随机梯度下降算法进行训练,训练的结果就是PGM中那些定义变量交互方式的参数. 1.LR模型的训练 LR模型可以看作是CRF模型的低配版,在完全不定义随机变量交互,只考虑P(Y|X)的情况下,得到的就是LR模型.其数学表达如下: 这里theta是参数,X是特征也是像素值,该形式成为Log…
除了精确推理之外,我们还有非精确推理的手段来对概率图单个变量的分布进行求解.在很多情况下,概率图无法简化成团树,或者简化成团树后单个团中随机变量数目较多,会导致团树标定的效率低下.以图像分割为例,如果每个像素的label都是随机变量,则图中会有30W个随机变量(30W像素的小型相机).且这30W个随机变量相互之间耦合严重(4邻接,多回环),采用团树算法无法高效的获得单个像素label的可能值.所以,在精确推理之外,我们使用非精确推理的手段对节点的概率分布进行估计. 1.Loopy 置信传播 BP…
在前三周的作业中,我构造了概率图模型并调用第三方的求解器对器进行了求解,最终获得了每个随机变量的分布(有向图),最大后验分布(双向图).本周作业的主要内容就是自行编写概率图模型的求解器.实际上,从根本上来说求解器并不是必要的.其作用只是求取边缘分布或者MAP,在得到联合CPD后,寻找联合CPD的最大值即可获得MAP,对每个变量进行边缘分布求取即可获得边缘分布.但是,这种简单粗暴的方法效率极其低下,对于MAP求取而言,每次得到新的evidance时都要重新搜索CPD,对于单个变量分布而言,更是对每…
Week2的作业主要是关于概率图模型的构造,主要任务可以分为两个部分:1.构造CPD;2.构造Graph.对于有向图而言,在获得单个节点的CPD之后就可依据图对Combine CPD进行构造.在获得Combine CPD之后则可利用变量的观测来进行问答.此周作业的大背景是对基因型与表现型之间的关系进行探索.在已知表现性的情况下对基因型以及下一代的基因进行推测.这是一个很有实际意义的有向图网络. 1.CPD构造 1.1.基因型与表现型的关系——确定 在孟德尔遗传假说基础上,对双碱基配对的基因推测表…
Talk is cheap, I show you the code 第一章的作业主要是关于PGM的因子操作.实际上,因子是整个概率图的核心.对于有向图而言,因子对应的是CPD(条件分布):对无向图而言,因子对应的是势函数.总而言之,因子是一个映射,将随机变量空间映射到实数空间.因子表现的是对变量之间关系的一种设计.每个因子都编码了一定的信息. 因子的数据结构: phi = struct('var', [3 1 2], 'card', [2 2 2], 'val', ones(1, 8)); 在…
在概率图模型中,有一类很重要的模型称为条件随机场.这种模型广泛的应用于标签—样本(特征)对应问题.与MRF不同,CRF计算的是“条件概率”.故其表达式与MRF在分母上是不一样的. 如图所示,CRF只对 label 进行求和,而不对dataset求和. 1.CRF的likelyhood function 对于给定的数据集以及其对应标记,CRF的 E based on theta 是与 数据集 x[m]有关的,因为x[m]并没有完全被边际掉.也就是说,对数据集中的每个数据x[m],E based o…
概率图的学习真的要接近尾声了啊,了解的越多越发感受到它的强大.这周的作业本质上是data mining.从数据中学习PGM的结构和参数,完全使用数据驱动 —— No structure, No parameters. Data tell us everything 1.识别外星人 如此强大的工具要用来做一件极其逗逼的事情:在给定肢体位姿条件下,从图形中识别外星人...显而易见,地球人只有两手两脚,外星人却有4手2脚!给定的肢体位姿以三坐标的形式出现(y,x, angle),其中x,y 代表肢体的…
CPD是conditional probability distribution的缩写,翻译成中文叫做 条件概率分布.在概率图中,条件概率分布是一个非常重要的概念.因为概率图研究的是随机变量之间的练习,练习就是条件,条件就要求条件概率. 对于简单的条件概率而言,我们可以用一个条件概率表来表达.如图1所示.图1 中表达的是p(g|i,d).幸运的是id都只有两个取值,是一个伯努利分布的函数.但是如果i d 有六个取值呢?比如骰子.那么这张表就会猛然增加到6^2那么长.这是不科学的.并且,常规情况下…
MAP 是最大后验概率的缩写.后验概率指的是当有一定观测结果的情况下,对其他随机变量进行推理.假设随机变量的集合为X ,观察到的变量为 e, W = X-e , AP = P(W|e). 后验概率和联合概率是不同的两个概念.事实上,后验概率更接近推理本身的“意义”,并且被越来越多的用于诊断系统中.在医疗诊断系统中,存在包括病症,症状等许多随机变量,使用VE或者消息传递之类的推理手段确实可以获得每个随机变量的概率以及某些随机变量的联合概率(一个Scope的概率).但实际上,如果面对某些很少出现的症…