涉及的领域可能有些生僻,骗不了大家点赞.但毕竟是人工智能的主流技术,在园子却成了非主流. 不可否认的是:乃值钱的技术,提高身价的技术,改变世界观的技术. 关于变分,通常的课本思路是: GMM --> EM --> VI --> Variational Bayesian Gaussian Mixture GMM是个好东西,实用的模型,也是讲解收敛算法的一个好载体. 关于这部分内容,如果你懂中文,推荐一个人,徐亦达老师.中文教学,亲手推算公式给读者的视频,是需要珍惜和珍藏的. 因为提供了pp…
本是neural network的内容,但偏偏有个variational打头,那就聊聊.涉及的内容可能比较杂,但终归会 end with VAE. 各个概念的详细解释请点击推荐的链接,本文只是重在理清它们之间的婆媳关系. 无意中打开了:中国科大iGEM项目报告,感慨颇多,尤其是时光,这其中也包含了写这系列文字的目的. 在技术上不得不走了不少弯路,每当无意间回首,对于那些”没机会“走弯路的同学们,是羡慕的:对于不懂得珍惜机会的同学们,也是充满惋惜. 希望,透过这些文字,能唤醒一些东西,助你找到正确…
科班出身,贝叶斯护体,正本清源,故拿”九阳神功“自比,而非邪气十足的”九阴真经“: 现在看来,此前的八层功力都为这第九层作基础: 本系列第九篇,助/祝你早日hold住神功第九重,加入血统纯正的人工智能队伍. 9. [Bayesian] “我是bayesian我怕谁”系列 - Gaussian Process 8. [Bayesian] “我是bayesian我怕谁”系列 - Variational Autoencoders 7. [Bayesian] “我是bayesian我怕谁”系列 - Bo…
要整理这部分内容,一开始我是拒绝的.欣赏贝叶斯的人本就不多,这部分过后恐怕就要成为“从入门到放弃”系列. 但,这部分是基础,不管是Professor Daphne Koller,还是统计学习经典,都有章节focus on这里. 可能这些内容有些“反人类正常逻辑”,故让更多的菜鸡选择了放弃. <MLaPP> 参考<MLaPP>的内容,让我们打开坑,瞧一瞧. 20.2 Belief propagation for treesIn this section, we generalize…
要整理这部分内容,一开始我是拒绝的.欣赏贝叶斯的人本就不多,这部分过后恐怕就要成为“从入门到放弃”系列. 但,这部分是基础,不管是Professor Daphne Koller,还是统计学习经典,都有章节focus on这里. 可能这些内容有些“反人类正常逻辑”,故让更多的菜鸡选择了放弃. <MLaPP> 参考<MLaPP>的内容,让我们打开坑,瞧一瞧. 20.2 Belief propagation for treesIn this section, we generalize…
先明确一些潜规则: 机器学习是个collection or set of models,一切实践性强的模型都会被归纳到这个领域,没有严格的定义,’有用‘可能就是唯一的共性. 机器学习大概分为三个领域: 一般的机器学习模型:没有掺杂太多统计概念,例如决策树,KNN聚类,感知机等. 统计机器学习模型:依赖统计理论,主要是贝叶斯统计,例如SVM,naive bayesian,贝叶斯线性回归,高斯过程等. 神经网络模型:可以简单的理解为感知机的扩展,因为扩展的太猛,单独成立门派咯. 如此定义,有助于菜鸡…
先明确一些潜规则: 机器学习是个collection or set of models,一切实践性强的模型都会被归纳到这个领域,没有严格的定义,’有用‘可能就是唯一的共性. 机器学习大概分为三个领域: 一般的机器学习模型:没有掺杂太多统计概念,例如决策树,KNN聚类,感知机等. 统计机器学习模型:依赖统计理论,主要是贝叶斯统计,例如SVM,naive bayesian,贝叶斯线性回归,高斯过程等. 神经网络模型:可以简单的理解为感知机的扩展,因为扩展的太猛,单独成立门派咯. 如此定义,有助于菜鸡…
打开prml and mlapp发现这部分目录编排有点小不同,但神奇的是章节序号竟然都为“十二”. prml:pca --> ppca --> fa mlapp:fa --> pca --> ppca 这背后又有怎样的隐情?不可告人的秘密又会隐藏多久? 基于先来后到原则,走prml路线. 首先,这部分内容,尤其是pca,都是老掉牙且稳定的技术,既然是统计机器学习,这次的目的就是借概率图来缕一遍思路,以及模型间的内在联系. 我们要建立的是一套完整的知识体系,而非“拿来一用,用完就扔”…
循序渐进的学习步骤是: Markov Chain --> Hidden Markov Chain --> Kalman Filter --> Particle Filter Markov不仅是一种技术,更是一种人生哲理,能启发我们很多. 一个信息爆炸的时代 一.信息的获取 首先要获得足够多的信息以及训练数据,才能保证所得信息中包含足够有价值的部分.但往往因为“面子”.“理子”.“懒"等原因,在有意无意间削弱了信息的获取能力. 二.信息的提取 信息中包含噪声,噪声中充斥着“有意无…
使用Boltzmann distribution还是Gibbs distribution作为题目纠结了一阵子,选择前者可能只是因为听起来“高大上”一些.本章将会聊一些关于信息.能量这方面的东西,体会“交叉学科”的魅力. In statistical mechanics and mathematics, a Boltzmann distribution (also called Gibbs distribution) is a probability distribution, probabili…
下一章有意讲讲EM和变分推断的内容. EM和变分推断的内容能Google到很多,虽然质量乘次不齐,但本文也无意再赘述那么些个细节. 此处记录一些核心思想,帮助菜鸡形成整体上的认识.不过,变分推断也不是一篇博文能讲述通透的技术,希望读者读完此文,至少知道自己将要学一个什么好东西,能用它来做什么. 私以为,变分的理解就是统计机器学习的核心,那么, 不懂变分怎么能说学会了统计机器学习?  P(统计机器学习 | 变分) 不会统计机器学习怎么自诩会机器学习?  P(机器学习 | 统计机器学习) 不懂机器学…
为了世界和平,为了心知肚明,决定手算一次 Variational Inference for Bayesian GMMs 目的就是达到如下的智能效果,扔进去六个高斯,最后拟合结果成了两个高斯,当然,其余四个不是消失了,而是重叠在了一起. 是不是很神奇?! 写出联合分布,利用变分公式求近似. 首先 q*(z) --> p(z|x) 再瞧其他变量. 变为乘积的两部分,变形后发现:又成为了我们熟悉的分布! 这么折腾一圈,就是为了验证如下结论,找到近似各个变量的公式. 当然,是基于一个假设,也就是后验分…
(学习这部分内容大约需要花费1.1小时) 摘要 在我们感兴趣的大多数概率模型中, 计算后验边际或准确计算归一化常数都是很困难的. 变分推断(variational inference)是一个近似计算这两者的框架. 变分推断把推断看作优化问题: 我们尝试根据某种距离度量来寻找一个与真实后验尽可能接近的分布(或者类似分布的表示) 预备知识 学习变分推断需要以下预备知识 多元分布: 边际化(Marginalization)是我们使用变分推断时最常使用的操作 KL散度: KL散度是变分目标函数的一部分.…
目录 概 主要内容 代码 Kingma D., Salimans T., Jozefowicz R., Chen X., Sutskever I. and Welling M. Improved Variational Inference with Inverse Autoregressive Flow. NIPS, 2016. 概 一种较为复杂normalizing flow. 主要内容 IAF的流程是这样的: 由encoder 得到\(\mu, \sigma, h\), 采样\(\epsil…
目录 概 主要内容 一些合适的可逆变换 代码 Rezende D., Mohamed S. Variational Inference with Normalizing Flow. ICML, 2015. 概 VAE的先验分布很重要, 但是后验分布也很重要, 我们常常假设\(q_{\phi}(z|x)\)满足一个高斯分布, 这就大大限制了近似后验分布的逼近的准确性. 这番假设实在是过于强烈了. 本文提出的 normalizing flows的方法可以提高\(q_{\phi}\)的逼近能力. 主要…
2019-05-27 17:52:01 加油!!! 看题时候就要仔细,最后容易忘记%10000 #include <bits/stdc++.h> using namespace std; int main() { int t, n; // cin >> t >> n; scanf("%d", &t); while (t--) { // cin >> n; scanf("%d", &n); ; ,j =…
变分 对于普通的函数f(x),我们可以认为f是一个关于x的一个实数算子,其作用是将实数x映射到实数f(x).那么类比这种模式,假设存在函数算子F,它是关于f(x)的函数算子,可以将f(x)映射成实数F(f(x)) .对于f(x)我们是通过改变x来求出f(x)的极值,而在变分中这个x会被替换成一个函数y(x),我们通过改变x来改变y(x),最后使得F(y(x))求得极值. 变分:指的是泛函的变分.打个比方,从A点到B点有无数条路径,每一条路径都是一个函数吧,这无数条路径,每一条函数(路径)的长度都…
作者:孙九爷链接:https://www.zhihu.com/question/41765860/answer/101915528来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 变分推断其实就是一句话:用简单的分布q去近似复杂的分布p.首先,为什么要选择用变分推断?因为,大多数情况下后验分布很难求啊.如果后验概率好求解的话我们直接EM就搞出来了. 当后验分布难于求解的时候我们就希望选择一些简单的分布来近似这些复杂的后验分布,至于这种简单的分布怎么选,有很多方法比如…
Relevant Readable Links Name Interesting topic Comment Edwin Chen 非参贝叶斯   徐亦达老板 Dirichlet Process 学习目标:Dirichlet Process, HDP, HDP-HMM, IBP, CRM Alex Kendall Geometry and Uncertainty in Deep Learning for Computer Vision 语义分割 colah's blog Feature Visu…
数学似宇宙,韭菜只关心其中实用的部分. scikit-learn (sklearn) 官方文档中文版 scikit-learn Machine Learning in Python 一个新颖的online图书资源集,非常棒. 机器学习原理 Bayesian Machine Learning 9. [Bayesian] “我是bayesian我怕谁”系列 - Gaussian Process[ignore] 随机过程 [Scikit-learn] 1.1 Generalized Linear Mo…
这一部分是个坑,应该对绝大多数菜鸡晕头转向的部分,因为有来自物理学界的问候. Deep learning:十九(RBM简单理解) Deep learning:十八(关于随机采样)    采样方法 [Bayes] runif: Inversion Sampling [Bayes] dchisq: Metropolis-Hastings Algorithm [Bayes] Metroplis Algorithm --> Gibbs Sampling 能量传播 纵观大部分介绍RBM的paper,都会提…
TF-IDF Algorithm From http://www.ruanyifeng.com/blog/2013/03/tf-idf.html Chapter 1, 知道了"词频"(TF)和"逆文档频率"(IDF)以后,将这两个值相乘,就得到了一个词的TF-IDF值.某个词对文章的重要性越高,它的TF-IDF值就越大. (1) 出现次数最多的词是----"的"."是"."在"----这一类最常用的词.它们…
博客内容取材于:http://www.cnblogs.com/tornadomeet/archive/2012/06/24/2560261.html Deep learning:三十五(用NN实现数据降维练习) Deep learning:三十四(用NN实现数据的降维) Deep learning:三十三(ICA模型) Deep learning:三十二(基础知识_3) Deep learning:三十一(数据预处理练习) Deep learning:三十(关于数据预处理的相关技巧) Deep…
Ref: [Link] sklearn各种回归和预测[各线性模型对噪声的反应] Ref: Linear Regression 实战[循序渐进思考过程] Ref: simple linear regression详解[涉及到假设检验] 引申问题,如何拟合sin数据呢? 如果不引入sin这样周期函数,可以使用:scikit learn 高斯过程回归[有官方例子] 参考:[Bayesian] “我是bayesian我怕谁”系列 - Gaussian Process 牛津讲义:An Introducti…
  本文简单介绍什么是贝叶斯深度学习(bayesian deep learning),贝叶斯深度学习如何用来预测,贝叶斯深度学习和深度学习有什么区别.对于贝叶斯深度学习如何训练,本文只能大致给个介绍.(不敢误人子弟)   在介绍贝叶斯深度学习之前,先来回顾一下贝叶斯公式. 贝叶斯公式 \[p(z|x) = \frac{p(x, z)}{p(x)} = \frac{p(x|z)p(z)}{p(x)} \tag{1}\] 其中,\(p(z|x)\) 被称为后验概率(posterior),\(p(x,…
简介: PGMRL: PGMRL就是把RL问题建模成一个概率图模型,如下图所示: 然后通过variational inference的方法进行学习: PGMRL给RL问题的表示给了一个范例,对解决很多RL新问题提供了一种思路和工具. Bayesian RL: 主要是对RL的reward function, transation function引入uncertainty, 引入prior和更新posterior来建模,从而更好地进行探索. 思考:为什么PGMRL推导过程中没有Beyesian R…
From: http://www.cnblogs.com/bayesianML/p/6377588.html#central_problem You can do it: Dirichlet Process, HDP, HDP-HMM, IBP, CRM, etc. 本文目录结构如下: 核心主题 中心问题 参数估计 模型比较 非贝叶斯方法 最大似然 正则化 EM算法 基本推断算法 MAP估计 Gibbs采样 马尔科夫链蒙特卡洛(MCMC) 变分推断(Variational inference)…
from: http://www.metacademy.org/roadmaps/rgrosse/bayesian_machine_learning Created by: Roger Grosse(http://www.cs.toronto.edu/~rgrosse/) Intended for: beginning machine learning researchers, practitioners Bayesian statistics is a branch of statistics…
Microsoft published a paper in ICML 2009 named ‘Web-Scale Bayesian Click-Through Rate Prediction for Sponsored Search Advertising in Microsoft’s Bing Search Engine’, which is claimed won the competition of most accurate and scalable CTR predictor acr…
Bayesian optimisation for smart hyperparameter search Fitting a single classifier does not take long, fitting hundreds takes a while. To find the best hyperparameters you need to fit a lot of classifiers. What to do? This post explores the inner work…