循序渐进的学习步骤是:

Markov Chain --> Hidden Markov Chain --> Kalman Filter --> Particle Filter

Markov不仅是一种技术,更是一种人生哲理,能启发我们很多。

一个信息爆炸的时代

一、信息的获取

首先要获得足够多的信息以及训练数据,才能保证所得信息中包含足够有价值的部分。但往往因为“面子”、“理子”、“懒"等原因,在有意无意间削弱了信息的获取能力。

二、信息的提取

信息中包含噪声,噪声中充斥着“有意无意善意恶意的谎言”、"或夸大或残缺的信息碎片”……HMM告诉我们获得“真实”,估计隐变量的必要性和理论依据。

、信息的执行

在数据中提取出feature,获得了有价值的信息,但责任意识、执行力的薄弱往往又成为最后的障碍。

成功的人,在想尽办法获取足够多的信息,分析并提取有用部分,且能加以贯彻实践;

有些人,信息获取能力有限,信息提取能力有限,信息执行能力堪忧。

至少,隐马能唤醒大家对信息提取能力的重视;愿这一系列文章,有助于菜鸡的“信息获取”。


先做个广告,好书一本。

在此介绍一款形似GMM的产品:Mixture of Markov Chains

物理意义可以理解为:不同的主题生成不同的句子 ---- 人说人话,鬼说鬼话。

前后单词会有概率关系,比如:

  • “我爱” --> 以60%的几率后接 --> ”美__”;
  • “我爱” --> 以1%的几率后接 --> ”丑__”。

马尔科夫链是个什么,这里不用多提。既然是“统计学习”,我们首要关注的还是上面这个PGM的边所代表的参数的估计,以及在估参过程中体会统计学习思维。至于模型的详细内容,一般会写在专题中,或在此文中提供亲测的资源链接。

这就是答案截图,为何一股EM的味道。

再谈EM:

但提到Markov Chains怎么也要考虑个二阶形式才感觉对味,加点难度何如。

粘贴second-order Markov Chains丑图一张

然.后.皆.是.套.路.

求我们的大Q。

发现参数θ又可以内部分离:pie与其他参数分离,可独立处理。

到这里,有点小麻烦,因为是二阶马尔科夫,每个节点的父节点有点多,参数表示也就麻烦了点儿。

参数的表示:

φ k = {φ 1 , φ 2 , ... φ D },  k ∈{1, 2, ... , Kz }
Here we add subscript for φ to denote that which z it belongs to, as following.
φ k = {φ k,1 , φ k,2 , ... φ k,D }

这张图充分体现了当年的自己是个整理狂,贴出来晒晒

这里继续对part2进行展开,便得到了接下来EM求导步骤的likelihood。

求导中用到了Lagrange Multiplier,当然,这也是套路的东西,你懂得。

机器学习中涉及的优化理论最多是凸优化,但凸优化其实是一大套很耐啃的理论,其中Lagrange MultiplierJensen's inequality的实用性尤甚。

在此附上结果,主要是用于对比一阶马尔科夫链时的结果,可见,形式是保持一致的。

参数有一坨,计算也繁复,但结果往往简洁漂亮。如果你有体会到这个感觉,恭喜,离坑更近了。

EM迭代公式

以上便是Mixture of Markov Chains,这里主要是换个模型展示EM,至于模型本身,不必留恋。


HMM

Ref: [Scikit-learn] Dynamic Bayesian Network - HMM

关于隐马,这部分对算法分类的概念有点乱,也可能是响应hmm”寻找真实状态“精神的号召,在大量的噪声中搞清楚内在逻辑。

因为篇幅有限,精力有限,这里不会写细节,但希望能把涉及到的概念理清楚,方便菜鸡们自行Google对应的详细讲解,毕竟,online资料有太多,这里仅帮助你搞清楚这些资料到底是在说什么。

建议大家把这些算法都亲自算一算,只能劝你到这里了。

关于隐马,这部分对算法分类的概念有点乱,也可能是响应hmm”寻找真实状态“精神的号召,在大量的噪声中搞清楚内在逻辑。

因为篇幅有限,精力有限,这里不会写细节,但希望能把涉及到的概念理清楚,方便菜鸡们自行Google对应的详细讲解,毕竟,online资料有太多,这里仅帮助你搞清楚这些资料到底是在说什么。

建议大家把这些算法都亲自算一算,只能劝你到这里了。

基本概念:

Transition Distribution

Emission Distribution

Filtering: X1, X2, X3 -->Z3 【滤波,是个很宽泛的概念,可以理解为从噪声信息中提取出真实的部分】

关于估参,We can use any standard inference method in graphical models to solve this problems, e.g. using the Junction Tree Algorithm.

读来如果对这句话仍感到困惑,则说明还未感知到PGM精髓。

迭代过程:

  • Filtering

是个forward过程

  • Smoothing

有熟悉的forward过程,也有一个beta部分。

原来beta是个backward过程

结合起来就是个forward-backward algorithm (or α − β recursions)

那么,这玩意干什么用?之后会提。

  • Prediction

三大问题:

From: https://web.stanford.edu/~jurafsky/slp3/9.pdf

figure 1,三大问题

这里是常见的三大问题,上述也是经常会提及的迭代过程。那么,两者有什么关系?

这里涉及的一些概念的英文命名可能有些混乱,,你若有同感,推荐李航的《统计学习方法》

  

(1)

概率计算问题,对应figure 1中的 Problem 1 (likelihood),其实也叫evaluation问题。

理解要点:不同的状态序列可以产生一样的观测序列,那么所有情况的概率总和会是多少。

涉及到三个算法:

  • 直接计算法【穷举所有可能的状态序列,显然很挫的手法】
  • 前向算法(forward
  • 后向算法(backward

现在再看forward-backward algorithm就明白了,也就是说,通过这些算法:

  • 目前,我们主要是学习了如何计算:【观察值】的概率,【观察值】的likelihood,evaluation on 【观察值】!
  • 然后通过贝叶斯公式,可以再计算:【状态值】的概率,【状态值】的likelihood,evaluation on 【状态值】!

一个问题:这里的状态值计算,指的是某个时间点的状态值,这是否保证了所有状态构成的状态链是最优的呢?也就是概率最大?

希望你能体会到这里我反复强调的苦心,一不留神,就容易迷失。

(2)

学习问题,自然就是”参数学习“,因为是统计机器学习,那么自然而然的又是em算法求参。

这里提到了两种情况:监督,无监督(Baum-Welch algorithm,也就是EM算法)。

  • 前者就是,状态和观察都有了,求参 ---- 直觉看上去,也就是个统计起求bag of words的感觉,没什么意思。【李航 - 10.3.1节】
  • 后者才是重点,毕竟状态就是label,哪有那么多资金去做标注,但我们却可以在无标注的情况下估计出一个近似的,可以接受的参数结果。

这部分学习内容,强烈建议:徐亦达机器学习课程 Hidden Markov Model

不仅讲了Hidden Markov Chain,还有之后的Kalman Filter, Particle Filter。

重要的是,帮助你理清了这三者循序渐进的关系。

(3)

预测问题,呼应了前面的:Prediction: X1, X2, X3 -->Z4

这里还是回到【李航 - 10.4节】

Viterbi Algorithm求的是概率最大路径 based on 动态规划思想。想来也是如此,先保证过去整体状态链的判断是概率最大的,也就是某个算命先生的职业预测成功率是最高的,然后才敢请他预测下一个点。

而所谓的近似算法,也就是(1)概率计算问题中的“计算【状态值】的概率”的思维方式,当然,现在看来这个思维是瑕疵的,解释如下:

读来有点”动态规划“批判”贪心算法“的口吻。

再看如下这三个单词,与三大问题的分类手法相比,其实就是视角不同而已。

这些是”过程式思维“,c语言;而“三大问题”是面向对象的思维,c++。

Filtering: X1, X2, X3 -->Z3

Smoothing: X1, X2, X3 -->Z2

Prediction: X1, X2, X3 -->Z4

[Bayesian] “我是bayesian我怕谁”系列 - Markov and Hidden Markov Models的更多相关文章

  1. [Bayesian] “我是bayesian我怕谁”系列 - Gaussian Process

    科班出身,贝叶斯护体,正本清源,故拿”九阳神功“自比,而非邪气十足的”九阴真经“: 现在看来,此前的八层功力都为这第九层作基础: 本系列第九篇,助/祝你早日hold住神功第九重,加入血统纯正的人工智能 ...

  2. [Bayesian] “我是bayesian我怕谁”系列 - Variational Autoencoders

    本是neural network的内容,但偏偏有个variational打头,那就聊聊.涉及的内容可能比较杂,但终归会 end with VAE. 各个概念的详细解释请点击推荐的链接,本文只是重在理清 ...

  3. Extending Markov to Hidden Markov

    Extending Markov to Hidden Markov a tutorial on hidden markov models, Hidden Markov Models, hidden m ...

  4. [Bayesian] “我是bayesian我怕谁”系列 - Exact Inferences

    要整理这部分内容,一开始我是拒绝的.欣赏贝叶斯的人本就不多,这部分过后恐怕就要成为“从入门到放弃”系列. 但,这部分是基础,不管是Professor Daphne Koller,还是统计学习经典,都有 ...

  5. [Bayesian] “我是bayesian我怕谁”系列 - Exact Inference

    要整理这部分内容,一开始我是拒绝的.欣赏贝叶斯的人本就不多,这部分过后恐怕就要成为“从入门到放弃”系列. 但,这部分是基础,不管是Professor Daphne Koller,还是统计学习经典,都有 ...

  6. [Bayesian] “我是bayesian我怕谁”系列 - Naive Bayes+prior

    先明确一些潜规则: 机器学习是个collection or set of models,一切实践性强的模型都会被归纳到这个领域,没有严格的定义,’有用‘可能就是唯一的共性. 机器学习大概分为三个领域: ...

  7. [Bayesian] “我是bayesian我怕谁”系列 - Variational Inference

    涉及的领域可能有些生僻,骗不了大家点赞.但毕竟是人工智能的主流技术,在园子却成了非主流. 不可否认的是:乃值钱的技术,提高身价的技术,改变世界观的技术. 关于变分,通常的课本思路是: GMM --&g ...

  8. [Bayesian] “我是bayesian我怕谁”系列 - Naive Bayes with Prior

    先明确一些潜规则: 机器学习是个collection or set of models,一切实践性强的模型都会被归纳到这个领域,没有严格的定义,’有用‘可能就是唯一的共性. 机器学习大概分为三个领域: ...

  9. [Bayesian] “我是bayesian我怕谁”系列 - Continuous Latent Variables

    打开prml and mlapp发现这部分目录编排有点小不同,但神奇的是章节序号竟然都为“十二”. prml:pca --> ppca --> fa mlapp:fa --> pca ...

随机推荐

  1. DotNetCore跨平台~linux上还原自主nuget包需要注意的问题

    问题的产生的背景 由于我们使用了jenkins进行部署(jenkins~集群分发功能和职责处理),而对于.net core项目来说又是跨平台的,所以对它的项目拉取,包的还原,项目的编译和项目的发布都是 ...

  2. 记一次Linux下JavaWeb环境的搭建

    今天重装了腾讯云VPS的系统,那么几乎所有运行环境都要重新部署了.过程不难懂,但是也比较繁琐,这次就写下来,方便他人也方便自己日后参考参考. 我采用的是JDK+Tomcat的形式来进行JavaWeb初 ...

  3. 机器学习 数据挖掘 推荐系统机器学习-Random Forest算法简介

    Random Forest是加州大学伯克利分校的Breiman Leo和Adele Cutler于2001年发表的论文中提到的新的机器学习算法,可以用来做分类,聚类,回归,和生存分析,这里只简单介绍该 ...

  4. Easyui后台管理角色权限控制

    最近需要做一个粗略的后台管理的权限,根据用户的等级来加载相应的菜单,控制到子菜单.使用的是Easyui这个框架. 1.我使用的mysql数据库.在这里我就建立四张表,角色表(tb_users),菜单表 ...

  5. Linux常见命令集锦

    这是平常用到的命令在这里做一下总结: 一.python 类1.pip(已安装)pip用来安装来自PyPI(https://www.python.org/)的python所有的依赖包,并且可以选择安装任 ...

  6. 分布式锁的实现(redis)

    1.单机锁 考虑在并发场景并且存在竞态的状况下,我们就要实现同步机制了,最简单的同步机制就是加锁. 加锁可以帮我们锁住资源,如内存中的变量,或者锁住临界区(线程中的一段代码),使得同一个时刻只有一个线 ...

  7. 索引节点inode详解

    Inode(index node),索引节点.Linux系统中,分区要进行格式化,创建文件系统.在每个Linux存储设备或存储设备的分区(可以是硬盘,软盘,U盘等)被格式化为ext3文件系统后,一般分 ...

  8. 初学者易上手的SSH-struts2 04值栈与ognl表达式

    什么是值栈?struts2里面本身提供的一种存储机制,类似于域对象,值栈,可以存值和取值.,特点:先进后出.如果将它当做一个容器的话,而这个容器有两个元素,那么最上面的元素叫做栈顶元素,也就是所说的压 ...

  9. 奥利奥好吃吗?Android 8.0新特性适配测试报告来啦!

    WeTest 导读 谷歌2017 I/O开发者大会上发布了Android 8.0的正式版, 其官方代号为Oreo(奥利奥).网上关于Android8.0新功能特性的介绍已铺天盖地,新功能特性会对程序应 ...

  10. Java IO(Properties/对象序列化/打印流/commons-io)

    Java IO(Properties/对象序列化/打印流/commons-io) Properties Properties 类表示了一个持久的属性集.Properties 可保存在流中或从流中加载. ...