PRML读书会第十四章 Combining Models(committees,Boosting,AdaBoost,决策树,条件混合模型)
主讲人 网神
(新浪微博: @豆角茄子麻酱凉面)
网神(66707180) 18:57:18
大家好,今天我们讲一下第14章combining models,这一章是联合模型,通过将多个模型以某种形式结合起来,可以获得比单个模型更好的预测效果。包括这几部分:
committees, 训练多个不同的模型,取其平均值作为最终预测值。
boosting: 是committees的特殊形式,顺序训练L个模型,每个模型的训练依赖前一个模型的训练结果。
决策树:不同模型负责输入变量的不同区间的预测,每个样本选择一个模型来预测,选择过程就像在树结构中从顶到叶子的遍历。
conditional mixture model条件混合模型:引入概率机制来选择不同模型对某个样本做预测,相比决策树的硬性选择,要有很多优势。
本章主要介绍了这几种混合模型。讲之前,先明确一下混合模型与Bayesian model averaging的区别,贝叶斯模型平均是这样的:假设有H个不同模型h,每个模型的先验概率是p(h),一个数据集的分布是:
整个数据集X是由一个模型生成的,关于h的概率仅仅表示是由哪个模型来生成的 这件事的不确定性。而本章要讲的混合模型是数据集中,不同的数据点可能由不同模型生成。看后面讲到的内容就明白了。
首先看committes,committes是一大类,包括boosting,首先将最简单的形式,就是讲多个模型的预测的平均值作为最后的预测。主要讲这么做的合理性,为什么这么做会提高预测性能。从频率角度的概念,bias-variance trade-off可以解释,这个理论在3.5节讲过,我们把这个经典的图copy过来:
这个图大家都记得吧,左边一列是对多组数据分别训练得到一个模型,对应一条sin曲线,看左下角这个图,正则参数lamda取得比较小,得到一个bias很小,variance很大的一个模型 。每条线的variance都很大,这样模型预测的错误就比较大,但是把这么多条曲线取一个平均值,得到右下角图上的红色线,红色线跟真实sin曲线也就是蓝色线 基本拟合。所以用平均之后模型来预测,variance准确率就提高了很多,这是直观上来看,接下里从数学公式推导看下:
有一个数据集,用bootstrap方法构造M个不同的训练集bootstrap方法就是从数据集中随机选N个放到训练集中,做M次,就得到M个训练集,M个训练集训练的到M个模型,用表示,那么用committees方法,对于某个x,最终预测值是:
我们来看这个预测值是如何比单个预测值准确的,假设准确的预测模型是h(x),那么训练得到的y(x)跟h(x)的关系是:
后面那一项是模型的error
ZealotMaster(850458544) 19:24:34
能使error趋近于0嘛?
网神(66707180) 19:25:13
模型越好越趋近于0,但很难等于0,这里committes方法就比单个模型更趋近于0
ZealotMaster(850458544) 19:25:28
求证明
网神(66707180) 19:25:39
正在证明,平均平方和错误如下:
也就是单个模型的期望error是:
如果用M个模型分别做预测,其平均错误是:
而如果用committes的结果来做预测,其期望错误是:
这个跑到了平方的里面,如果假设不同模型的error都是0均值,并且互不相关,也就是:
就可以得到:
在不同模型error互不相关的假设的下,committes错误是单个模型error的1/M,但实际上,不同模型的error通常是相关的,因此error不会减少这么多,但肯定是小于单个模型的error,接下来讲boosting,可以不考虑那个假设,取得实质的提高.boosting应该是有不同的变种,其中最出名的就是AdaBoost, adaptive boosting. 它可以将多个弱分类器结合,取得很好的预测效果,所谓弱分类器就是,只要比随即预测强一点,大概就是只要准确率超50%就行吧,这是我的理解。
boosting的思想是依次预测每个分类器,每个分类器训练时,对每个数据点加一个权重。训练完一个分类器模型,该模型分错的,再下一个模型训练时,增大权重;分对的,减少权重,具体的算法如下,我把整个算法帖出来,再逐步解释:
大家看下面这个图比较形象:
第一步,初始化每个数据点的权重为1/N.接下来依次训练M个分类器,每个分类器训练时,最小化加权的错误函数(14.15),错误函数看上面贴的算法,从这个错误函数可以看出,权重相同时,尽量让更多的x分类正确,权重不同时,优先让权重大的x分类正确,训练完一个模型后,式(14.16)计算,既分类错误的样本的加权比例. 然后式(14.17)计算:
只要分类器准确率大于50%,就小于0.5,
就大于0。而且
越小(既对应的分类器准确率越高),
就越大,然后用
更新每个数据点的权重,即式(14.18):
可以看出,对于分类错误的数据点,大于0,所以exp(a)就大于1,所以权重变大。但是从这个式子看不出,对于分类正确的样本,权重变小。这个式子表明,分类正确的样本,其权重不变 ,因为exp(0)=1.这是个疑问。如此循环,训练完所有模型,最后用式(14.19)做预测:
从上面过程可以看出,如果训练集合中某个样本在逐步训练每个模型时,一直被分错,他的权重就会一直变大,最后对应的也越来越大,下面看一个图例:
图中有蓝红两类样本 ,分类器是单个的平行于轴线的阈值 ,第一个分类器(m=1)把大部分点分对了,但有2个蓝点,3个红点不对,m=2时,这几个错的就变大了,圈越大,对应其权重越大 ,后面的分类器似乎是专门为了这个几个错分点而在努力工作,经过150个分类器,右下角那个图的分割线已经很乱了,看不出到底对不对 ,应该是都已经分对了吧。
网神(66707180) 19:59:59
@ZealotMaster 不知道是否明白点了,大家有啥问题?
ZealotMaster(850458544) 20:00:14
嗯,清晰一些了,这个也涉及over fitting嘛?感觉m=150好乱……
苦瓜炒鸡蛋(852383636) 20:02:23
是过拟合
网神(66707180) 20:02:25
不同的分割线,也就是不同的模型,是主要针对不同的点的,针对哪些点,由模型组合时的系数来影响。
苦瓜炒鸡蛋(852383636) 20:04:50
这是韩家炜 那个数据挖掘书的那一段:网神(66707180) 20:04:56
嗯,这章后面也讲到了boosting对某些错分的样本反应太大,一些异常点会对模型造成很大的影响。
================================================================
接下来讲boosting的错误函数,我们仔细看下对boosting错误函数的分析,boosting最初用统计学习理论来分析器泛化错误的边界bound,但后来发现这个bound太松,没有意义。实际性能比这个理论边界好得多,后来用指数错误函数来表示。从优化指数损失函数来解释adaboost比较直观,每次固定其他分类器和系数将常量分出来,能推出单分类器的损失函数及系数,再根据常量的形式能得出下一步数据权重的更新方式。指数错误函数如下:
其中N是N个样本点,是多个线性分类器的线性组合:
是分类的目标值。我们的目标是训练系数
和分类器
的参数,使E最小。
最小化E的方法,是先只针对一个分类器进行最小化,而固定其他分类器的参数,例如我们固定和其系数
,只针对
做优化,这样错误函数E可以改写为:
也就是把固定的分类器的部分都当做一个常量:,只保留
相关的部分。我们用
表示
分对的数据集,
表示分错的数据集,E又可以写成如下形式:
上式中,因为将数据分成两部分,也就确定了
个
是否相等,所以消去了这两个变量
看起来清爽点了:
这里面后一项是常量,前一项就跟前面boosting的算法里所用的错误函数:形式一样了。
上面是将:对
做最小化得出的结论,即指数错误函数就是boosting里求单个模型时所用的错误函数.类似,也可以得到指数错误函数里的
就是boosting里的
,确定了
根据
以及
可以得到,更新w的方法:
又因为有:
这又跟boosting里更新数据点权重的方法以一致。
总之,就是想说明,用指数错误函数可以描述boosting的error分析,接下来看看指数错误函数的性质,再贴一下指数错误函数的形式:
其期望error是:
然后最所有的y(x)做variational minimization,得到:
这是half the log-odds ,看下指数错误函数的图形:
绿色的线是指数错误函数可以看到,对于分错的情况,既z<0时,绿色的线呈指数趋势上升,所以异常点会对训练结果的影响很大。图中红色的线是corss-entropy 错误,是逻辑分类中用的错误函数,对分错的情况,随错误变大,其函数值基本是线性增加的,蓝色线是svm用的错误函数,叫hinge 函数。
PRML读书会讲稿PDF版本以及更多资源下载地址:http://vdisk.weibo.com/u/1841149974
PRML读书会第十四章 Combining Models(committees,Boosting,AdaBoost,决策树,条件混合模型)的更多相关文章
- PRML读书会第十二章 Continuous Latent Variables(PCA,Principal Component Analysis,PPCA,核PCA,Autoencoder,非线性流形)
主讲人 戴玮 (新浪微博: @戴玮_CASIA) Wilbur_中博(1954123) 20:00:49 我今天讲PRML的第十二章,连续隐变量.既然有连续隐变量,一定也有离散隐变量,那么离散隐变量是 ...
- 第十四章——循环神经网络(Recurrent Neural Networks)(第二部分)
本章共两部分,这是第二部分: 第十四章--循环神经网络(Recurrent Neural Networks)(第一部分) 第十四章--循环神经网络(Recurrent Neural Networks) ...
- 20190827 On Java8 第十四章 流式编程
第十四章 流式编程 流的一个核心好处是,它使得程序更加短小并且更易理解.当 Lambda 表达式和方法引用(method references)和流一起使用的时候会让人感觉自成一体.流使得 Java ...
- 【odoo14】第十四章、CMS网站开发
第十四章.CMS网站开发** Odoo有一个功能齐全的内容管理系统(CMS).通过拖放功能,你的最终用户可以在几分钟内设计一个页面,但是在Odoo CMS中开发一个新功能或构建块就不是那么简单了.在本 ...
- 《Linux命令行与shell脚本编程大全》 第十四章 学习笔记
第十四章:呈现数据 理解输入与输出 标准文件描述符 文件描述符 缩写 描述 0 STDIN 标准输入 1 STDOUT 标准输出 2 STDERR 标准错误 1.STDIN 代表标准输入.对于终端界面 ...
- perl 第十四章 Perl5的包和模块
第十四章 Perl5的包和模块 by flamephoenix 一.require函数 1.require函数和子程序库 2.用require指定Perl版本二.包 1.包的定义 2.在包间切 ...
- Gradle 1.12 翻译——第十四章. 教程 - 杂七杂八
有关其它已翻译的章节请关注Github上的项目:https://github.com/msdx/gradledoc/tree/1.12,或訪问:http://gradledoc.qiniudn.com ...
- C和指针 (pointers on C)——第十四章:预处理器
第十四章 预处理器 我跳过了先进的指针主题的章节. 太多的技巧,太学科不适合今天的我.但我真的读,读懂.假设谁读了私下能够交流一下.有的小技巧还是非常有意思. 预处理器这一章的内容.大家肯定都用过.什 ...
- CSS3秘笈复习:十三章&十四章&十五章&十六章&十七章
第十三章 1.在使用浮动时,源代码的顺序非常重要.浮动元素的HTML必须处在要包围它的元素的HTML之前. 2.清楚浮动: (1).在外围div的底部添加一个清除元素:clear属性可以防止元素包围浮 ...
随机推荐
- SQL挑战——如何高效生成编码
有这样一个需求:需要根据输入的编码(这个编码值来自于数据库的一个表)生成下一个编码,编码规则如下所示(我们暂且不关心这个逻辑是否合理,只关心如何实现): 1: 最小值为A0000, 最大值为ZZZZZ ...
- CentOS 6.2编译安装Nginx1.2.0+MySQL5.5.25+PHP5.3.13
CentOS 6.2编译安装Nginx1.2.0+MySQL5.5.25+PHP5.3.132013-10-24 15:31:12标签:服务器 防火墙 file 配置文件 written 一.配置好I ...
- 编写Java应用程序,定义Animal类,此类中有动物的属性:名称 name,腿的数量legs,统计动物的数量 count;方法:设置动物腿数量的方法 void setLegs(),获得腿数量的方法 getLegs(),设置动物名称的方法 setKind(),获得动物名称的方法 getKind(),获得动物数量的方法 getCount()。定义Fish类,是Animal类的子类,统计鱼的数量 co
package com.hanqi.test; public class Animal { private String name; private int legs; private int cou ...
- jQuery简单入门(四)
4.表单应用 表单是HTML的重要组成部分,在采集.提交用户输入的信息和显示列表数据等需求中有重要作用 表单应用 一个简单的表单HTML示例: <form action=”url” method ...
- Runtime.exec() sucks!!!!
自己项目中使用到了 Runtime rt = Runtime.getRuntime(); Process p = rt.exec("query session");p.waitFo ...
- PHP用mb_string函数库处理与windows相关中文字符
昨天想批处理以前下载的一堆文件,把文件里的关键内容用正则匹配出来,集中处理.在操作文件时遇到一个问题,就是windows操作系统中的编码问题. 我们都知道windows中(当然是中文版),文件名和文件 ...
- 烂泥:nginx同时支持asp.net与php
本文由秀依林枫提供友情赞助,首发于烂泥行天下. 经过两天的实验,终于让nginx同时支持asp.net与php了.下面就把具体的配置过程记录如下. 注意:本次实验OS:centos6 64bit. 尽 ...
- Linux运行等级,根目录,文件类型etc
Linux的Runlevel Linux默认有6个Terminal(Ctrl+Alt+F1~F6)和1个X window(Ctrl+Alt+F7,图形化界面)让用户登录 Linux的runlevel一 ...
- 基于vitamio的网络电视直播源码
这个项目是基于vitamio的网络电视直播源码,也是一个使用了vitamio的基于安卓的网络直播项目源码,可能现在网上已经有很多类似这样的视频播放应用了,不过这个还是相对来说比较完整的,希望这个案例能 ...
- PowerShell命令卸载Win10内置应用
Windows10系统预装了大批的应用,开始菜单右侧的磁贴即显示了其中的大部分,包括:人脉.日历.邮件.资讯.Xbox.Groove音乐.Camera相机.电影和电视.照片.手机助手.天气.OneNo ...