[Bayesian] “我是bayesian我怕谁”系列

科班出身，贝叶斯护体，正本清源，故拿”九阳神功“自比，而非邪气十足的”九阴真经“；

现在看来，此前的八层功力都为这第九层作基础；

本系列第九篇，助/祝你早日hold住神功第九重，加入血统纯正的人工智能队伍。

9. [Bayesian] “我是bayesian我怕谁”系列 - Gaussian Process

8. [Bayesian] “我是bayesian我怕谁”系列 - Variational Autoencoders

7. [Bayesian] “我是bayesian我怕谁”系列 - Boltzmann Distribution

6. [Bayesian] “我是bayesian我怕谁”系列 - Markov and Hidden Markov Models

5. [Bayesian] “我是bayesian我怕谁”系列 - Continuous Latent Variables

4. [Bayesian] “我是bayesian我怕谁”系列 - Variational Inference

3. [Bayesian] “我是bayesian我怕谁”系列 - Latent Variables

2. [Bayesian] “我是bayesian我怕谁”系列 - Exact Inference

1. [Bayesian] “我是bayesian我怕谁”系列 - Naive Bayes with Prior

小喇叭：本系列文章乃自娱自乐，延缓脑细胞衰老；只“雪中送炭”，不提供”全套服务“。

九阳神功第九章《Gaussian Processes for ML》

如果，非统计机器学习是入门，统计机器学习是进阶，那么“高斯过程”就算是机器学习的高级阶段，能发paper。

国内相关的书，没发现。（有数学系的同学给推荐么？）

推荐相关的还算易懂的paper一篇: Generic Inference in Latent Gaussian Process Models

对高斯过程的了解过程中，让我深刻的明白，要发国际paper的同学都有着怎样的学习生涯套路。

菜鸡们来瞧瞧这位，Stanford cs231n 2016的lecturer，语速感人，成就经典。

血统纯正的学习路线：

2011-2015: Stanford Computer Science Ph.D. student Deep Learning, Computer Vision, Natural Language Processing. Adviser: Fei-Fei Li.
Summer 2011: Google Research Internship Large-Scale Unsupervised Deep Learning for Videos
2009-2011: University of British Columbia: MSc Learning Controllers for Physically-simulated Figures. Adviser: Michiel van de Panne
2005-2009: University of Toronto: BSc Double major in Computer Science and Physics

请注意本科时期的double major，which帮助奠定大牛潜质。

学纯数搞人工智能有点纸上谈兵；

学计科高人工智能有点后劲不足；

CS+Physics真乃绝配！

言归正传，基本上学习的路线是：GP for Regression, GP for Classification, Latent Gaussian Process Models。

百度到的东西基本都是GP for Regression，可见广大吃瓜群众基本停留在这套路线的初级阶段，后两者确实需要功力，即使一知半解也不便卖弄风骚。

此处一篇：浅谈高斯过程回归应该是根据youtube视频课程所总结，写得挺好。在此基础上我将在此加一点补充，希望有助理解。

本来想把自己懂的这么一点东西总结于此，但最近release了一门神课，很对味，故正在重点follow中。

Theories of Deep Learning (STATS 385)

高斯过程回归

预测

这篇浅谈高斯过程回归已经将(预测)基本计算过程展现了一遍，这里就不再赘述。读完该链接后，抛出一个问题：

蓝色字体的协方差值是如何给出的？怎么定义会更好？

模型的选择

f是高斯，y也是高斯。根据二元高斯的条件分布计算方法：[Bayes] Why we prefer Gaussian Distribution

直接求得p(f*|y) 【等价 p(f*|X, y, x*)】的预测公式如下：

常见的结论就是：这个预测结果(期望)是个“输入的线性组合”，同时也是个“kernel的线性组合”。

以下求y的边缘分布：【过程略，较复杂】

常见的结论就是：这个能用于hyperparameter learning，也就是θ = {sigma, C}的学习，如下所示。

其实就是相关性的选择问题，学习这个K内部的东西。为何要计较这三部分？

想必也是个“权衡问题”，如下图。

From: http://www.gaussianprocess.org/gpml/chapters/RW5.pdf

适当的选择超参，能获得一个极大的marginal likelood。

这也叫做“model selection”。

高斯过程分类

参考“回归”，学习“分类”。

没有了噪声sigma的概念，f(y|f)变为了sigmoid，故成了non-linear，p(f|X,y)成了恼人的non-gaussian。

那我们就定一个高斯q(f|X,y)来近似p(f|X,y)；自然而然引出Laplace Approximation【暂略】。

一个思考的技巧：

计算时可以暂且将f作为回归中y的角色，那么如下看去就将对应的回归结论中的噪声sigma去掉即可。

但我们终究还是要p(f*|X, y, x*)，也就是需要加入一个“f given y的关系”，即是上述提及的近似高斯技巧。

与“回归”对比，是否感觉总有点复杂？为什么搞复杂了呢？

同样的已知：p(y|f), p(f|x) 但前者已不是高斯。怎么办？
那就暂且不管y，计算还是高斯的这部分，也就是截止到f的地方，这样也就自然的利用了回归时的结论如上，得到了p(f*|X,x*,f)
然后，再考虑f-->y已不再是高斯的问题，便自然地引入了p(f|X,y) <-- p(y|f), p(f|x)。

计算结果如下：

p(f*|X,y,x*) = N(f*| K(x*)^TK^-1b, K(x*,x*)-K(x*)^T[K^-1-K^-1ΣK^-1]K(x*))

预测

接下来就是“预测”问题，通常有两种策略：Average and MAP

可见虽然求出了f*，但依然无法逃避“f* --> y*”这段non-gaussian的过程。

此时，便自然而然得想到用mcmc去估计积分结果。

高斯过程隐变量

这一部分是超高级内容，只是简单聊一聊，仰望一下。

想想PCA，隐变量的意义是压缩，这里将要说的隐变量，也就是inducing variables也是如此。

要计算这个东西，是O(N³)，所以有必要想办法减小计算量。

可采用decomposition的方法，例如使用inducing variables：u。

以上便是原因之一。下图中的f之间用粗线表示“f之间是全连接”。

原理详见原论文（上图标题），如下来个例子瞧瞧。

至少我们知道有了u,z这样的概念，而且维度比Ｎ要低很多。

在Subset of Regressors (SR) approximation中，假设了covariance function:

与标准GP相比，看上去精简了“相关性”的计算。将上式替代到标准GP回归时的结论即可得到如下：

计算过程较复杂，其中会涉及到如下这个公式的运用 from Maxtrix Cookbook：

就到这里，因为inducing variables的引入，展开了一大片坑，可以阅读该链接深入了解：Generic Inference in Latent Gaussian Process Models

本篇写得相当基础，大致写个学习进阶套路，一来确实需要相当的数学功底，二来更想花时间follow (STATS 385)。

再次强调下，本系列不提供“全套服务”，只帮助整理下个人近期的知识体系，如有兴趣，请点击文章中提及的各个亲测的高质量链接。

那么，就到这里吧。