PRML读书会第三章 Linear Models for Regression(线性基函数模型、正则化方法、贝叶斯线性回归等)

主讲人 planktonli

planktonli(1027753147) 18:58:12
大家好，我负责给大家讲讲 PRML的第3讲 linear regression的内容，请大家多多指教，群主让我们每个主讲人介绍下自己，赫赫,我也说两句，我是 applied mathematics + computer science的，有问题大家可以直接指出，互相学习。大家有兴趣的话可以看看我的博客: http://t.qq.com/keepuphero/mine，当然我给大家推荐一个好朋友的，他对计算机发展还是很有心得的,他的网页http://www.zhizhihu.com/ 对machine learning的东西有深刻的了解。

好,下面言归正传，开讲第3章，第3章的名字是 linear regression，首先需要考虑的是: 为什么在讲完 introduction、probability distributions 之后就直讲 linear regression? machine learning的essence是什么?

机器学习的本质问题: 我个人理解,就是通过数据集学习未知的最佳逼近函数，学习的收敛性\界等等都是描述这个学习到的function到底它的性能如何。但是,从数学角度出发,函数是多样的，线性\非线性\跳跃\连续\非光滑，你可以组合出无数的函数,那么这些函数就组成了函数空间，在这些函数中寻找到一个满足你要求的最佳逼近函数,无疑大海捞针。我们再来回顾下第一章的曲线拟和问题：

需要逼近的函数是: ，M阶的曲线函数可以逼近么？这是我们值得思考的问题。

要曲线拟和, 那么拟和的标准是什么?这里用了2范数定义,也就是误差的欧式距离，当然,你可以用 L1,L无穷，等等了，只是objective不同罢了。现在的疑问是: 为什么要用Polynomial Fitting?有数学依据么，这里牵扯到范函的问题，就是函数所张成的空间，举一个简单的例子，大家还都记得 talyor展式吧：

这表明任意一个函数可以表示成 x的次方之和，也就是任意一个函数可以放到所张成的函数空间，如果是有限个基的话就称为欧式空间，无穷的话就是 Hilbert空间，其实傅里叶变换也是这样的一个例子，既然已经明白了任意函数可以用Polynomial Fitting，那么下面就是什么样的 Polynomial是最好的。
Wilbur_中博(1954123) 19:28:26
泰勒展开是局部的、x0周围的，而函数拟合是全局的，似乎不太一样吧？
planktonli(1027753147) 19:29:21
恩,泰勒展开是局部的，他是在 x0 点周围的一个表达，函数拟合是全局的,我这里只是用一个简单的例子说明函数表达的问题。
Wilbur_中博(1954123) 19:30:41

planktonli(1027753147) 19:31:03
其实,要真正解释这个问题是需要范函的东西的。
Wilbur_中博(1954123) 19:31:45
抱歉，打断了一下，因为我觉得这个问题留到讨论就不太好了，呵呵。了解了，请继续吧。
planktonli(1027753147) 19:31:51
由于大多数群友未学过这个课程,我只是想说下这个思想，呵呵,没事，讨论才能深刻理解问题，其实,wavelet这些,包括 kernel construcion这些东西都牵扯到范函。
Bishop用上面这个例子说明：
1) 可以用 Polynomial Fitting 拟和 sin类的函数 2) 存在过拟和问题
而且这里的 Polynomial Fitting 是一个线性model，这里Model是w的函数,w是线性的：

是线性的么，肯定不是，那么让我们再来分析下研究的问题
中的是1维的

上面的X 变成了
，非常有意思的是: 维数升高了，同时这个model具有了表达非线性东西的能力。这里的思想,可以说贯穿在 NN,SVM这些东西里，也就是说,线性的model如果应用得当的话,可以表达非线性的东西。与其在所有函数空间盲目的寻找,还不如从一个可行的简单model开始，这就是为什么Bishop在讲完基础后直接切入 Linear regression的原因，当然这个线性model怎么构造,是单层的 linear model,还是多层的 linear model 一直争论不休，BP否定了 perceptron 的model，SVM 否定了 BP model
现在deep learning 又质疑 SVM 的shallow model，或许这就是machine learning还能前进的动力。
让咱们再回来看看linear regression 的模型，这里从标准形式到扩展形式，也就是引入基函数后,Linear regression的模型可以表达非线性的东西了，因为基函数可能是非线性的：

基函数的形式，这些基函数都是非线性的：

在Gaussian 零均值情况下,Linear model从频率主义出发的MLE就是 Least square：

最小2乘的解就是广义逆矩阵乘输出值：

Gaussian的precision也可以计算出来：

最小2乘的解可以看成到基张成空间的投影：

频率主义会导致过拟和，加入正则,得到的最小2乘解：

正则参数对model结果的影响：

消除过拟和，正则的几何解释：

正则方法不同,就会出现很多model,例如 lasso, ridge regression。LASSO的解是稀疏的，例如:sparse coding,Compressed sensing 是从 L0--> L1sparse的问题，现在也很热的。

下面看 Bias-Variance Decoposition，正则就是在训练数据的模型上加一个惩罚项，shrink 模型的参数,让它不要学习的太过，这里是对训练数据学习到的模型,是学习到的参数的惩罚模型

上面这么多PPT无非就是说，学习到的模型和真实的模型的期望由2部分组成：

1--> Bias 2--> Variance。Bias表示的是学习到的模型和真实模型的偏离程度,Variance表示的是学习到的模型和它自己的期望的偏离程度。从这里可以看到正则项在控制 Bias 和 Variance：

Wilbur_中博(1954123) 20:33:07
这个是关键，呵呵
planktonli(1027753147) 20:33:25
Variance小的情况下,Bias就大，Variance大的情况下,Bias就小，我们就要tradeoff它们。

从这张图可以看到 Bias和 Variance的关系：

这个Bias-Variance Decoposition 其实没有太大的实用价值，它只能起一个指导作用。
下面看看 Bayesian Linear Regression：

从Bayesian出发,关注的不是参数的获取,而更多的是新预测的值，通过后验均值可以得到 linear model和核函数的联系，当然也可以建立 gaussian process这些东西。
Wilbur_中博(1954123) 20:51:25
这里可以讲细一点么，如何建立联系？
planktonli(1027753147) 20:54:44

这里就可以看到了啊，看到了么，Wilbur?
Wilbur_中博(1954123) 20:57:24
在看
planktonli(1027753147) 20:58:08
如果共扼先验是 0均值情况下,linear model就可以变成 kernel了：

最后讲了bayesain model比较：

选择最大信任的model来作为模型选择，而非用交叉验证，信任近似：

固定基存在缺陷为 NN,SVM做铺垫，NN,SVM都是变化基，BP是梯度下降error,固定基，RBF是聚类寻找基，SVM是2次凸优化寻找基。好了,就讲到这里吧，肯定还有讲的不对,或者不足的地方，请大家一起讨论和补充，谢谢。

============================讨论=================================

Wilbur_中博(1954123) 21:08:29
RBF不是固定径向基找系数的么，SVM也是固定基的吧，这里寻找基是什么意思？
planktonli(1027753147) 21:09:01
SVM是寻找那些系数不为0的作为基，RBF,我说的是RBF神经网络，不是RBF基函数，呵呵
Wilbur_中博(1954123) 21:11:07
嗯，但咱们现在这一章，比如多项式基，也可以说是寻找系数不为0的x^k吧，SVM也仍然是固定了某一种核，比如多项式核或者高斯核。嗯，我知道是说RBF网络。
planktonli(1027753147) 21:11:40
恩,可以这么说

Wilbur_中博(1954123) 21:12:35
还有就是，固定一组基的话，也有很多选择，有多项式、也有高斯、logisitic等等，那我们应该怎么选择用什么基去做回归呢？这一章讲得大多都是有了基以后怎么选择w，但怎么选择基这一点有没有什么说法。
planktonli(1027753147) 21:13:37
我说的固定指的是,SVM不知道基是谁，而是通过优化获取的。
Wilbur_中博(1954123) 21:13:41
或者小波傅里叶什么的。。好多基
planktonli(1027753147) 21:14:03
这里提出了固定基的问题，基的选择要看样本的几何形状，一般都是选择 gaussian，当然也可以一个个测试着弄。
Wilbur_中博(1954123) 21:15:55
SVM里有个叫multiple kernel learning的，感觉像是更广泛的变化基的解决方案。嗯，就是说大多是经验性的是吧，选基这个还是蛮有趣的，我觉得。
planktonli(1027753147) 21:16:45
恩,MK是多个kernel的组合，尝试用多个几何形状的kernl去寻找一个更power的。
Wilbur_中博(1954123) 21:17:05
嗯，呵呵
planktonli(1027753147) 21:17:16
恩,kernel construction是ML的主要研究内容之一
Wilbur_中博(1954123) 21:18:14
好的，我没什么问题了，谢谢，以后多交流。看其他朋友还有什么问题。
planktonli(1027753147) 21:50:29
本次的讲义有些内容是群共享里的 Linear1.pdf
下次的linear classification主要讲的内容在群共享中为Linear2.pdf

PRML读书会讲稿PDF版本以及更多资源下载地址：http://vdisk.weibo.com/u/1841149974

PRML读书会第三章 Linear Models for Regression(线性基函数模型、正则化方法、贝叶斯线性回归等)的更多相关文章

PRML读书会第四章 Linear Models for Classification(贝叶斯marginalization、Fisher线性判别、感知机、概率生成和判别模型、逻辑回归)
主讲人 planktonli planktonli(1027753147) 19:52:28 现在我们就开始讲第四章,第四章的内容是关于线性分类模型,主要内容有四点:1) Fisher准则的分类,以 ...
PRML读书会第六章 Kernel Methods（核函数，线性回归的Dual Representations，高斯过程，Gaussian Processes）
主讲人网络上的尼采 (新浪微博:@Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:16:05 今天的主要内容:Kernel的基本知识,高斯过程.边思考边打字,有点慢, ...
贝叶斯线性回归（Bayesian Linear Regression）
贝叶斯线性回归(Bayesian Linear Regression) 2016年06月21日 09:50:40 Duanxx 阅读数 54254更多分类专栏: 监督学习版权声明:本文为博主原 ...
PRML读书会第十三章 Sequential Data（Hidden Markov Models，HMM）
主讲人张巍 (新浪微博: @张巍_ISCAS) 软件所-张巍<zh3f@qq.com> 19:01:27 我们开始吧,十三章是关于序列数据,现实中很多数据是有前后关系的,例如语音或者DN ...
PRML读书会第七章 Sparse Kernel Machines（支持向量机， support vector machine ，KKT条件，RVM）
主讲人网神 (新浪微博: @豆角茄子麻酱凉面) 网神(66707180) 18:59:22 大家好,今天一起交流下PRML第7章.第六章核函数里提到,有一类机器学习算法,不是对参数做点估计或求其分 ...
PRML读书会第十一章 Sampling Methods（MCMC， Markov Chain Monte Carlo，细致平稳条件，Metropolis-Hastings，Gibbs Sampling，Slice Sampling，Hamiltonian MCMC）
主讲人网络上的尼采 (新浪微博: @Nietzsche_复杂网络机器学习) 网络上的尼采(813394698) 9:05:00 今天的主要内容:Markov Chain Monte Carlo,M ...
PRML读书会第五章 Neural Networks（神经网络、BP误差后向传播链式求导法则、正则化、卷积网络）
主讲人网神 (新浪微博:@豆角茄子麻酱凉面) 网神(66707180) 18:55:06 那我们开始了啊,前面第3,4章讲了回归和分类问题,他们应用的主要限制是维度灾难问题.今天的第5章神经网络的内 ...
[Scikit-learn] 1.1 Generalized Linear Models - Logistic regression & Softmax
二分类:Logistic regression 多分类:Softmax分类函数对于损失函数,我们求其最小值, 对于似然函数,我们求其最大值. Logistic是loss function,即: 在逻 ...
PRML读书笔记——3 Linear Models for Regression
Linear Basis Function Models 线性模型的一个关键属性是它是参数的一个线性函数,形式如下: w是参数,x可以是原始的数据,也可以是关于原始数据的一个函数值,这个函数就叫bas ...

随机推荐

Effective Java 61 Throw exceptions appropriate to the abstraction
Exception translation: higher layers should catch lower-level exceptions and, in their place, throw ...
【MySQL】MySQL忘记root密码解决方案
转眼间从实习到现在已经快两年了.两年的工作做遇到过很多很多的拦路虎,大部分也通过搜索引擎找到了解决的方案.奈何大脑不是硬盘,偶尔有的问题第二次遇到还是有点抓蒙...所以决定把这些东西记录在博客上.这样 ...
Linux之存储及文件系统管理
一.存储管理 1.各种存储设备在Linux系统中对应的文件名 2.硬盘结构及分区 1).硬盘结构 2) .为什么要进行硬盘分区: a) 更容易管理和控制系统,因为相关的文件和目录都放在一个分区中. b ...
oracle表连接——处理连接过程中另外一张表没有相关数据不显示问题
一个数据表基本上很难满足我们的查询要求,同时,将所有的数据都保存在一个表格中显然也不是一种好的数据库设计,为了避免数据的冗余,删除.更新异常,我们通常需要建立一张外键表,通过表连接,来获取我们自己想要 ...
java 15- 5 List集合
需求 1:List集合存储字符串并遍历.(步骤跟Collection集合一样,只是最初创建集合对象中的集合类改变了,Collection变成List) List集合的特点: 有序(存储和取出的元素一致 ...
16进制色值转换成RGB
#51147f 转换成RGB ,5*16+1 ,1*16+4,7*16+15 #A9A9A9 转换成RGB ,A*16+9 ,A*16+9,A*16+9
System.Net.Sockets.Socket SendAsync System.ObjectDisposedException: Cannot access a disposed object.
发生未处理的域异常! System.ObjectDisposedException: Cannot access a disposed object. Object name: 'System.Net ...
vue2.0 transition -- demo实践填坑
前言 vue1.0版本和2.0版本的过渡系统改变还是蛮彻底的,具体请自行详看文档介绍:https://vuefe.cn/v2/guide/migration.html#过渡.在使用2.0版本做过渡效果 ...
zepto的tap事件的穿透分析
首先是什么情况下会发生zepto(tap)的事件穿透: 当一个弹出层用tap点击之后这个层隐藏或者是移走,都会触发下面对应位置的点击事件(click)和一些标签的默认行为(a标签的跳转.input获取 ...
RDLC系列之四常见错误
解决 RDLC 报表自动分页表头显示问题原文:http://www.th7.cn/Program/net/201207/85445.shtml RDLC是用XML来描述一个报表相关的一切,只需要在& ...

PRML读书会第三章 Linear Models for Regression(线性基函数模型、正则化方法、贝叶斯线性回归等)

PRML读书会第三章 Linear Models for Regression(线性基函数模型、正则化方法、贝叶斯线性回归等)的更多相关文章

随机推荐

热门专题