【Decision Tree】林轩田机器学习技法
首先沿着上节课的AdaBoost-Stump的思路,介绍了Decision Tree的路数:
AdaBoost和Decision Tree都是对弱分类器的组合:
1)AdaBoost是分类的时候,让所有的弱分类器同时发挥作用
2)Decision Tree是每次根据condition让某个弱分类器发挥作用
林强调了一点,Decision Tree很多套路都是前人的insights,觉得这用好就这样处理了,没有那么完备的理论保证。
从递回的角度,可以这样看Decision Tree:
Decision Tree = Σ分支条件.子树
根据如上的递回思路,可以写出Decision Tree的算法的大概思路:
有点儿像dfs的代码模板:
输入:N个样本点
终止条件:达到base hypothesis gt(x)
dfs步骤:
1)获得分支条件
2)根据分支条件,将数据切分成C份
3)由这C份数据生成C棵子树
4)将C棵子树 & 分支判断条件 合在一起return
其中很关键的一个步骤就是如何划分输入样本D成C分,这里介绍一种C&RT的方法。
这个方法的特点是每次只产生2一个判断条件,将数据分成两份(即binary tree)
选择判断条件的准则是:经过判断条件的划分后数据更纯了。
这里的“纯”还做了一个处理,就是“加权纯”,如果样本量大的那一堆数据更纯,认为划分的效果更好。
到这里需要停顿一下,整理下思路:b(x)是根据x划分分支条件的函数,跟定一个x就产生一种分支,即对数据产生一种划分。
接下来要考虑,划分出来的每组数据的impuirity如何计算呢?
根据需求不同impurify有两种计算套路:
1)如果是regression的:就可以用均方差来衡量
2)如果是classification的:就可以用Gini index来衡量(想象一个极端情况,如果数据D都属于一类了,那么Gini index就是0了,即不纯度是0)
接下来,看这种算法迭代的终止条件:
有两种强行终止条件:
1)如果impurity=0了,即只剩一类数据了,就不用再划分了
2)如果xn全部相同了,也没法划分了,因为b(x)的输出只有一个
完整的C&RT算法如上图,非常neat的算法。
但是上述的算法隐含问题,就是overfitting的问题。
可以通过剪枝来处理这个问题,一个可行的算法就是,每次除去叶子节点i,保证除去某个叶子节点后Ein(i)能最小。
另外,考虑pratical场景,有可能有枚举类型(categorical features)特征,对于这样的特征C&RT模型也可以轻易的处理。
如果有missing feature怎么办?
其中一个办法就是surrogate branch,简单来说,就是如果某种属性缺失了,可以找到其替代品。
最后林对比了Decision Tree和AdaBoost-Stump两种算法:
区别:
1)C&RT可以conditional的切,切的效率可能更高
2)AdaBoost-Stump只能完全横刀或完全竖刀来切,有可能没有Decision Tree切的效率高
最后,林总结了Decision Tree的优势:
真是居家旅行必备...
【Decision Tree】林轩田机器学习技法的更多相关文章
- 【Random Forest】林轩田机器学习技法
总体来说,林对于random forest的讲解主要是算法概况上的:某种程度上说,更注重insights. 林分别列举了Bagging和Decision Tree的各自特点: Random Fores ...
- 【Matrix Factorization】林轩田机器学习技法
在NNet这个系列中讲了Matrix Factorization感觉上怪怪的,但是听完第一小节课程就明白了. 林首先介绍了机器学习里面比较困难的一种问题:categorical features 这种 ...
- 【Deep Learning】林轩田机器学习技法
这节课的题目是Deep learning,个人以为说的跟Deep learning比较浅,跟autoencoder和PCA这块内容比较紧密. 林介绍了deep learning近年来受到了很大的关注: ...
- 【Radial Basis Function Network】林轩田机器学习技法
这节课主要讲述了RBF这类的神经网络+Kmeans聚类算法,以及二者的结合使用. 首先回归的了Gaussian SVM这个模型: 其中的Gaussian kernel又叫做Radial Basis F ...
- 【Neural Network】林轩田机器学习技法
首先从单层神经网络开始介绍 最简单的单层神经网络可以看成是多个Perception的线性组合,这种简单的组合可以达到一些复杂的boundary. 比如,最简单的逻辑运算AND OR NOT都可以由多 ...
- 【Adaptive Boosting】林轩田机器学习技法
首先用一个形象的例子来说明AdaBoost的过程: 1. 每次产生一个弱的分类器,把本轮错的样本增加权重丢入下一轮 2. 下一轮对上一轮分错的样本再加重学习,获得另一个弱分类器 经过T轮之后,学得了T ...
- 【Linear Support Vector Machine】林轩田机器学习技法
首先从介绍了Large_margin Separating Hyperplane的概念. (在linear separable的前提下)找到largest-margin的分界面,即最胖的那条分界线.下 ...
- 【Support Vector Regression】林轩田机器学习技法
上节课讲了Kernel的技巧如何应用到Logistic Regression中.核心是L2 regularized的error形式的linear model是可以应用Kernel技巧的. 这一节,继续 ...
- 【Dual Support Vector Machine】林轩田机器学习技法
这节课内容介绍了SVM的核心. 首先,既然SVM都可以转化为二次规划问题了,为啥还有有Dual啥的呢?原因如下: 如果x进行non-linear transform后,二次规划算法需要面对的是d`+1 ...
随机推荐
- 【CSS古话今说】-- 01.神奇的CSS-BFC在实战中的应用
文章首发于掘金 BFC(Block Formatting Context)是Web页面中盒模型布局的CSS渲染模式.它的定位体系属于常规文档流. 想要实现一个BFC布局需要满足以下条件之一: 1.fl ...
- POJ-3067 Japan---树状数组逆序对变形
题目链接: https://vjudge.net/problem/POJ-3067 题目大意: 日本岛东海岸与西海岸分别有N和M个城市,现在修高速公路连接东西海岸的城市,求交点个数. 解题思路: 记每 ...
- DP之背包问题详解及案例
0-1背包 题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2602 #include <stdio.h> #include <stri ...
- Netbackup:nbu常见错误及故障解决
Veritas Netbackup 提供了强大的故障响应功能, 能够有效及时的处理 各种备份故障.主要有备份状态码(status) .错误信息.报告信息及调试日志.下面我们主要针对备份状态码讲解下各种 ...
- php图像处理插件imagick安装(仅适用于86位,php5.4非安全环境-16px)
phpImageMagick-6.7.7-5-Q16-windows-dll(加测试代码,经测试,仅适用于86位,php5.4安全环境-16px) 下载地址:http://pan.baidu.com/ ...
- CUDA中多维数组以及多维纹理内存的使用
纹理存储器(texture memory)是一种只读存储器,由GPU用于纹理渲染的图形专用单元发展而来,因此也提供了一些特殊功能.纹理存储器中的数据位于显存,但可以通过纹理缓存加速读取.在纹理存储器中 ...
- 瓣呀,一个基于豆瓣api仿网易云音乐的开源项目
整体采用material design 风格,本人是网易云音乐的粉丝,所以界面模仿了网页云音乐,另外,项目中尽量使用了5.0之后的新控件. 项目整体采用mvp+rxjava+retrofit 框架,使 ...
- JT796、JT808、JT809、JT1076、JT1077、JT1078部标平台过检道路运输车辆卫星定位系统企业视频监控平台检测登记表
道路运输车辆卫星定位系统企业视频监控平台检测登记表的具体格式如下: 报名检测需要以下材料: 0检测报名须知.doc 点击下载 1检测意向单.doc 点击下载 2-1道路运输车辆卫星定位系统企业 ...
- jquery ajax参数
//默认请求参数 var _options = { url: null, // 请求连接地址 type: 'GET', // 请求类型(get,post) data: null, // post时请求 ...
- CSU 1216异或最大值 (0-1 trie树)
Description 给定一些数,求这些数中两个数的异或值最大的那个值 Input 多组数据.第一行为数字个数n,1 <= n <= 10 ^ 5.接下来n行每行一个32位有符号非负整数 ...