PRML Chapter2】的更多相关文章

参考文献:PRML2 参数方法和非参数方法 机器学习上的方法分为参数方法(根据先验知识假定模型服从某种分布,然后利用训练集估计出模型参数,也就弄清楚了整个模型,例如感知器)和非参数方法(基于记忆训练集,然后根据训练集预测,例如kNN). 参数方法 参数方法根据先验知识假定模型服从某种分布,然后利用训练集估计出模型参数,也就弄清楚了整个模型. 那么,估计模型参数到底是一个客观存在的参数还是一个概率密度分布,这个分歧就引出了贝叶斯学派和非贝叶斯学派的不同之处. 非贝叶斯学派: 非贝叶斯学派认为先验知…
PRML 学习之 第一章 介绍 Introduction #欢迎共同学习和讨论,由于本文将不断修改,谢绝转载 模式识别问题具有重要且久远的历史.比如,16世纪开普勒发现行星运动定律,又如20世纪出发现的原子光谱规律等. 模式识别领域关注通过计算机算法自动发现数据中的规律,并使用这些方法来采取行为如分类数据到不同的类别. 举个例子,识别手写数字问题,每个数字对应28*28(=784)像素.我们用向量x来表示每个像素的值,向量x的长度为784. 我们的目标是实现一个计算机算法,使其以向量x作为输入,…
主讲人 网神 (新浪微博: @豆角茄子麻酱凉面) 网神(66707180) 18:57:18 大家好,今天我们讲一下第14章combining models,这一章是联合模型,通过将多个模型以某种形式结合起来,可以获得比单个模型更好的预测效果.包括这几部分:committees, 训练多个不同的模型,取其平均值作为最终预测值. boosting: 是committees的特殊形式,顺序训练L个模型,每个模型的训练依赖前一个模型的训练结果.决策树:不同模型负责输入变量的不同区间的预测,每个样本选择…
主讲人 张巍 (新浪微博: @张巍_ISCAS) 软件所-张巍<zh3f@qq.com> 19:01:27 我们开始吧,十三章是关于序列数据,现实中很多数据是有前后关系的,例如语音或者DNA序列,例子就不多举了,对于这类数据我们很自然会想到用马尔科夫链来建模: 例如直接假设观测数据之间服从一阶马尔科夫链,这个假设显然太简单了,因为很多数据时明显有高阶相关性的,一个解决方法是用高阶马尔科夫链建模: 但这样并不能完全解决问题 :1.高阶马尔科夫模型参数太多:2.数据间的相关性仍然受阶数限制.一个好…
主讲人 戴玮 (新浪微博: @戴玮_CASIA) Wilbur_中博(1954123) 20:00:49 我今天讲PRML的第十二章,连续隐变量.既然有连续隐变量,一定也有离散隐变量,那么离散隐变量是什么?我们可能还记得之前尼采兄讲过的9.2节的高斯混合模型.它有一个K维二值隐变量z,不仅只能取0-1两个值,而且K维中只能有1维为1.其他维必须为0,表示我们观察到的x属于K类中的哪一类.显然,这里的隐变量z就是个离散隐变量.不过我们容易想到,隐变量未必像kmeans或GMM这种聚类算法那样,非此…
主讲人 网络上的尼采 (新浪微博: @Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:05:00  今天的主要内容:Markov Chain Monte Carlo,Metropolis-Hastings,Gibbs Sampling,Slice Sampling,Hybrid Monte Carlo. 上一章讲到的平均场是统计物理学中常用的一种思想,将无法处理的复杂多体问题分解成可以处理的单体问题来近似,变分推断便是在平均场的假设约束下求泛函L(Q)极值的最优化…
主讲人 戴玮 (新浪微博: @戴玮_CASIA) Wilbur_中博(1954123) 20:02:04 我们在前面看到,概率推断的核心任务就是计算某分布下的某个函数的期望.或者计算边缘概率分布.条件概率分布等等. 比如前面在第九章尼采兄讲EM时,我们就计算了对数似然函数在隐变量后验分布下的期望.这些任务往往需要积分或求和操作. 但在很多情况下,计算这些东西往往不那么容易.因为首先,我们积分中涉及的分布可能有很复杂的形式,这样就无法直接得到解析解,而我们当然希望分布是类似指数族分布这样具有共轭分…
主讲人 网络上的尼采 (新浪微博: @Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:10:56 今天的主要内容有k-means.混合高斯模型. EM算法.对于k-means大家都不会陌生,非常经典的一个聚类算法,已经50多年了,关于clustering推荐一篇不错的survey: Data clustering: 50 years beyond K-means.k-means表达的思想非常经典,就是对于复杂问题分解成两步不停的迭代进行逼近,并且每一步相对于前一步…
主讲人 网神 (新浪微博: @豆角茄子麻酱凉面) 网神(66707180) 18:52:10 今天的内容主要是: 1.贝叶斯网络和马尔科夫随机场的概念,联合概率分解,条件独立表示:2.图的概率推断inference. 图模型是用图的方式表示概率推理 ,将概率模型可视化,方便展示变量之间的关系,概率图分为有向图和无向图.有向图主要是贝叶斯网络,无向图主要是马尔科夫随机场.对两类图,prml都讲了如何将联合概率分解为条件概率,以及如何表示和判断条件依赖. 先说贝叶斯网络,贝叶斯网络是有向图,用节点表…
主讲人 网神 (新浪微博: @豆角茄子麻酱凉面) 网神(66707180) 18:59:22  大家好,今天一起交流下PRML第7章.第六章核函数里提到,有一类机器学习算法,不是对参数做点估计或求其分布,而是保留训练样本,在预测阶段,计算待预测样本跟训练样本的相似性来做预测,例如KNN方法. 将线性模型转换成对偶形式,就可以利用核函数来计算相似性,同时避免了直接做高维度的向量内积运算.本章是稀疏向量机,同样基于核函数,用训练样本直接对新样本做预测,而且只使用了少量训练样本,所以具有稀疏性,叫sp…
主讲人 网络上的尼采 (新浪微博:@Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:16:05 今天的主要内容:Kernel的基本知识,高斯过程.边思考边打字,有点慢,各位稍安勿躁. 机器学习里面对待训练数据有的是训练完得到参数后就可以抛弃了,比如神经网络:有的是还需要原来的训练数据比如KNN,SVM也需要保留一部分数据--支持向量.很多线性参数模型都可以通过dual representation的形式表达为核函数的形式.所谓线性参数模型是通过非线性的基函数的线性…
主讲人 网神 (新浪微博:@豆角茄子麻酱凉面) 网神(66707180) 18:55:06 那我们开始了啊,前面第3,4章讲了回归和分类问题,他们应用的主要限制是维度灾难问题.今天的第5章神经网络的内容:1. 神经网络的定义2. 训练方法:error函数,梯度下降,后向传导3. 正则化:几种主要方法,重点讲卷积网络 书上提到的这些内容今天先不讲了,以后有时间再讲:BP在Jacobian和Hessian矩阵中求导的应用:混合密度网络:贝叶斯解释神经网络. 首先是神经网络的定义,先看一个最简单的神经…
主讲人 常象宇 大家好,我是likrain,本来我和网神说的是我可以作为机动,大家不想讲哪里我可以试试,结果大家不想讲第一章.估计都是大神觉得第一章比较简单,所以就由我来吧.我的背景是统计与数学,稍懂些计算机,大家以后有问题可以讨论. 今天我们来讲一下PRML第一章,这一章的内容是基于一些简单的例子对于机器学习中的基本概念给与介绍.这是为后续章节的介绍给一个铺垫.我今天讲的内容包括以下几个部分: 把书上的知识点做了个总结大概.首先我们来看一下,我个人理解的机器学习的定义:机器学习的分类有很多种,…
主讲人 网络上的尼采 (新浪微博: @Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:11:56 开始吧,先不要发言了,先讲PRML第二章Probability Distributions.今天的内容比较多,还是边思考边打字,会比较慢,大家不要着急,上午讲不完下午会接着讲. 顾名思义,PRML第二章Probability Distributions的主要内容有:伯努利分布. 二项式 –beta共轭分布.多项式分布 -狄利克雷共轭分布 .高斯分布 .频率派和贝叶斯派…
主讲人 planktonli planktonli(1027753147) 18:58:12  大家好,我负责给大家讲讲 PRML的第3讲 linear regression的内容,请大家多多指教,群主让我们每个主讲人介绍下自己,赫赫,我也说两句,我是 applied mathematics + computer science的,有问题大家可以直接指出,互相学习.大家有兴趣的话可以看看我的博客: http://t.qq.com/keepuphero/mine,当然我给大家推荐一个好朋友的,他对…
主讲人 planktonli planktonli(1027753147) 19:52:28 现在我们就开始讲第四章,第四章的内容是关于 线性分类模型,主要内容有四点:1) Fisher准则的分类,以及它和最小二乘分类的关系 (Fisher分类是最小二乘分类的特例)2) 概率生成模型的分类模型3) 概率判别模型的分类模型4) 全贝叶斯概率的Laplace近似 需要注意的是,有三种形式的贝叶斯:1) 全贝叶斯2) 经验贝叶斯3) MAP贝叶斯我们大家熟知的是 MAP贝叶斯 MAP(poor man…
The Dirichlet Distribution 狄利克雷分布 (PRML 2.2.1) Dirichlet分布可以看做是分布之上的分布.如何理解这句话,我们可以先举个例子:假设我们有一个骰子,其有六面,分别为{1,2,3,4,5,6}.现在我们做了10000次投掷的实验,得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次,如果用每一面出现的次数与试验总数的比值估计这个面出现的概率,则我们得到六面出现的概率,分别为{0.2,0.2,0.2,0.2,…
PRML Chapter 2. Probability Distributions P68 conjugate priors In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distributionp(θ), the prior and posterior are then called conjugate d…
PRML Chapter 1. Introduction 为了防止忘记,要把每章的重要内容都记下来,从第一章开始 2012@3@28 今天又回去稍微翻了一下第一章内容,发现第一次看的时候没有看透,每次翻都能翻出新的内容和感悟来.这主要得益于后面其他书里看到的一些内容后,再来看前面的某些话,就知道这些话不是白写的了,而是每一句都有一些深层的意义. 因此对于PRML这样的书,看一两遍是不够的,有空要多回翻 P 2 generalization的定义:The ability to categorize…
Pro PHP and jQuery Chapter2 总结 1.理解jQuery脚本的基本行为 jQuery事实上沿用了JavaScript的那一套东西,几乎所有方法都支持链式调用,也就是说方法可以一个接一个地执行. $('p') .addClass('new-class') .text("I'm a paragraph!") .appendTo('body'); 要记住: 链式调用过后返回的还是jQuery对象本身. 2.常用的jQuery选择器方法 2.1遍历DOM元素 遍历,就…
Chapter 1.6 : Information Theory     Chapter 1.6 : Information Theory Christopher M. Bishop, PRML, Chapter 1 Introdcution 1. Information h(x) Given a random variable and we ask how much information is received when we observe a specific value for thi…
点击查看Evernote原文. #@author: gr #@date: 2014-09-15 #@email: forgerui@gmail.com Chapter2 vector和string Topic 15: 注意string实现的多样性 string可能有多种不同的实现.文中介绍了四种,由于采用不同的实现,使用sizeof(string)计算会得到不同的值. 在这四种实现中,string对象的大小可以是一个char*指针大小的1到7倍.并且,各种实现的动态内存分配也不尽相同,可能需要1…
A data contract describes how CLR types map to XSD schema definitions. Data contracts are the preferred way to enable serialization of complex types included in operation signatures as parameters or return values. You create a data contract by applyi…
A service contract describes the operations supported by a service,the message exchange pattern they use,and the format of each message. The service contract is also the main driver for generating a service description. A valid WCF service implements…
一起啃PRML - 1.2.4 The Gaussian distribution 高斯分布 正态分布 @copyright 转载请注明出处 http://www.cnblogs.com/chxer/ 我们将用整个第二章来研究各种各样的概率分布以及它们的性质.然而,在这里介绍连续变量一种最重要的概率分布是很方便的.这种分布就是正态分布(normal distribution)或者高斯分布(Gaussian distribution).在其余章节中(事实上在整本书中),我们将会经常用到这种分布.…
一起啃PRML - 1.2.3 Bayesian probabilities 贝叶斯概率 @copyright 转载请注明出处 http://www.cnblogs.com/chxer/ 这一节简单讲了最大似然. 回顾贝叶斯公式,我们可以把p(D)用积分的形式表示: 至于最大似然,我在这一章里其实并没有了解什么,那我摘一些大牛的博客吧. 这一篇我觉得至少我懂了. 最大似然法是要解决这样一个问题:给定一组数据和一个参数待定的模型,如何确定模型的参数,使得这个确定参数后的模型在所有模型中产生已知数据…
一起啃PRML - 1.2.2 Expectations and covariances 期望和协方差 @copyright 转载请注明出处 http://www.cnblogs.com/chxer/ 涉及到概率的一个重要的操作是寻找函数的加权平均值.在概率分布p(x)下,函数f(x)的平均值被称为f(x)的期望(expectation),记作E[f].对于一个离散变量,它的定义为: 因此平均值根据x的不同值的相对概率加权.在连续变量的情形下,期望以对应的概率密度的积分的形式表示: 类似的,我们…
一起啃PRML - 1.2.1 Probability densities @copyright 转载请注明出处 http://www.cnblogs.com/chxer/ 我们之前一直在讨论“谁取到什么”这样的概率问题,现在我们不妨来研究“谁取到哪个范围内”这样的概率问题. x位于区间(a, b)的概率由下式给出: 由于概率是非负的,并且x的值一定位于实数轴上得某个位置,因此概率密度一定满足下面两个条件: 位于区间(−∞, z)的x的概率由累积分布函数(cumulative distribut…
一起啃PRML - 1.2 Probability Theory @copyright 转载请注明出处 http://www.cnblogs.com/chxer/ A key concept in the field of pattern recognition is that of uncertainty. 可以看出概率论在模式识别显然是非常重要的一大块. 读其他书的时候在概率这方面就也很纠结过. 我们也还是通过一个例子来理解一下Probability Theory里面一些重要的概念. Ima…
一起啃PRML - 1.1 Example: Polynomial Curve Fitting @copyright 转载请注明出处 http://www.cnblogs.com/chxer/ 前言:真是太糟糕了,本地的公式和图片粘上来全都喂汪了... We begin by introducing a simple regression problem, 用一个例子穿起这些零碎的知识点. 回顾最前面的Mathematical Notation: A superscript T denotes…