台大《机器学习基石》课程感受和总结---Part 2 （转）

转自：http://blog.sina.com.cn/s/blog_641289eb0101e2ld.html

Part 2总结一下一个粗略的建模过程：

首先，弄清楚问题是什么，能不能用机器学习的思路去考虑：
1. 是否有pattern？
2. 是否规则不明确？
3. 是否有数据？
如果可以用，那么考虑，问题的学习目标是什么，有多少feature，有多少数据，应该用什么error measure（Learning from data 有一节专门讲这个，客户能提供吗？如果不能，我们找一个能说服自己的，或者找一个容易做的。具体参考课件）
1. 数据和feature之间的关系，practical来说是N大于等于10倍的自由度。
2. 这个error measure或者说performance measure是否有个baseline我们可以比较呢？
选定算法，从简单的到复杂的都要考虑：
1. 一般来说，如果有足够多的数据，简答的算法不一定比复杂的差。
2. 要考虑用户的需求，是否需要最后的模型能够被人理解，还是说一个黑盒子就可以了。
分割数据为Training和Testing （这一点一定要在做任何数据处理前完成！处理，只应该在train上做，确定方案后在运用到test上去）
对train数据进行清理，分析什么的（重要Update: 这里的数据清理和分析必须是和数据中的class variable没有任何联系！如果有任何联系，都请放到Single Validation或者Cross validation里面去做！一个经常出现的错误就是在这一步进行特征选择，然后在选择完成后的数据集上进行Cross Validation，这样做通常会得到over-optimistic的结果。具体文献可以参考Statistical Learning里面的Cross Validation那一个小节）。
在Training上进行建模学习：
1. 我们有很多Model可以选择，而一个Model下面又可以有很多参数可以调试，或者feature可以选择。这就需要我们通过Single Validation或者Cross Validation来看看这些Model在不同的参数下表现如何。
2. 这样，我们从一个Model中选出其中Eval最好的那个组合，作为该模型的代表h。
3. 对于另一个模型，重复第二步，直到全部模型都考虑了。
4. 对比所有的这些代表，找出其中Ecv最好的那个h对应的Model M。
5. 用所有的训练数据（Model Selection by Best Eval--Learning from Data），用M和它的最优参数训练一得到一个g*，最为最终的选择，同时我们做一下实验得到g*的training error--Etraiin。
在Testing上用g*进行测试。完成以后和baseline进行比较。如果好过baseline，那OK。继续试试更多算法看能不能提高。如果低于Baseline，那要进行以下考虑：
1. 如果Etesting >> Etrain, 那么我们遇到了overfitting，那么我们可能需要：
  1. 更多的训练数据
  2. 或者更小的feature set
2. 反之，如果Etesting于Etrain差别不大，那么我们遇到了underfitting，那么我们可能需要更多的feature（获取更多，或者在现有的基础上创建新的，比如polynomial features）
调整后，重新建模，直到满足条件为止。

上面提到的Validation可以是Single Validation，也可以是Cross Validation.如果计算量允许，就用cross validation（通常是5或者10 fold）。

===============================================================================================

这里插一些Andrew Ng在斯坦福的机器学习里提到的东西：

上面的建模部分，如果一开始就用较多较复杂的算法来做，可能会耗时间比较多。建议选用一个简单的算法，先用上面的步骤试试，看看结果怎样？是有overfitting还是underfitting，这需要判断Etesting和Etrain之间的gap是不是很大。不过，多大算大呢...

一个方法是画一下Learning Curve，即Eval, Etrain vs Training size的曲线，具体内容可以去看课程的课件，大概就是说如果是overfitting，随着Training size的增加，Eval和Etrain之间的gap会逐渐的减小，而如果是underfitting，就不会。

构建learning curve的方法是，随机的从training set中抽取i个数据的subset，在上面进行建模，然后将模型用在这个subset和整个validation set上进行验证得到Etrain和Eval，这个过程重复20到50次，最后的平均作为i个数据的代表。之后测试i+1，i+2.....

不过，这貌似只适用于single validation，cross validation的情况下要怎么做还不清楚。不过，也许也没必要在这个问题上考虑cross validation，毕竟这只是一个dirty approach，看看大概是怎么个情况。

===================================================================

另一个问题，如果是需要对数据集（已经是分割过的数据集train-test split中的train）做Sampling来处理imbalanced data的情况下做cross validation,那么应该做如下的处理（假设是5 fold）：

1、选出一个fold做validation set，剩下的四个set做training

2、对training做sampling的处理，训练并得到一个hypothesis

3、在validation上测试效果。

4、换一组，重复以上步骤。最后求平均。

这个东西貌似很容易就做成了错误的方法：拿着整个train数据集做了Sampling，再去做cross validation。不对哦！！！简而言之，如果是要对数据分布做变化的操作，都要小心这个问题。

以上。

台大《机器学习基石》课程感受和总结---Part 2 （转）的更多相关文章

Coursera台大机器学习基础课程学习笔记1 -- 机器学习定义及PLA算法
最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正. 一机器学习是什么? 感觉和 Tom M. Mitchell的定义几乎一致, A computer program ...
Coursera台大机器学习基础课程学习笔记2 -- 机器学习的分类
总体思路: 各种类型的机器学习分类按照输出空间类型分Y 按照数据标记类型分yn 按照不同目标函数类型分f 按照不同的输入空间类型分X 按照输出空间类型Y,可以分为二元分类,多元分类,回归分析以及结构 ...
Coursera台大机器学习基础课程1
Coursera台大机器学习基础课程学习笔记 -- 1 最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正. 一机器学习是什么? 感觉和 Tom M. Mitche ...
Coursera台大机器学习技法课程笔记01-linear hard SVM
极其淡腾的一学期终于过去了,暑假打算学下台大的这门机器学习技法. 第一课是对SVM的介绍,虽然之前也学过,但听了一次感觉还是很有收获的.这位博主总结了个大概,具体细节还是要听课:http://www ...
Coursera台大机器学习技法课程笔记14-Radial Basis Function Network
将Radial Basis Function与Network相结合.实际上衡量两个点的相似性:距离越近,值越大. 将神经元换为与距离有关的函数,就是RBF Network: 可以用kernel和RBF ...
Coursera台大机器学习技法课程笔记03-Kernel Support Vector Machine
这一节讲的是核化的SVM,Andrew Ng的那篇讲义也讲过,讲的也不错. 首先讲的是kernel trick,为了简化将低维特征映射高维特征后的计算,使用了核技巧.讲义中还讲了核函数的判定,即什么样 ...
Coursera台大机器学习技法课程笔记11-Gradient Boosted Decision Tree
将Adaboost和decision tree相结合,需要注意的地主是,训练时adaboost需要改变资料的权重,如何将有权重的资料和decision tree相结合呢?方法很类似于前面讲过的bag ...
Coursera台大机器学习技法课程笔记10-Random forest
随机森林就是要将这我们之前学的两个算法进行结合:bagging能减少variance(通过g们投票),而decision tree的variance很大,资料不同,生成的树也不同. 为了得到不同的g, ...
Coursera台大机器学习技法课程笔记04-Soft-Margin Support Vector Machine
之前的SVM非常的hard,要求每个点都要被正确的划分,这就有可能overfit,为此引入了Soft SVM,即允许存在被错分的点,将犯的错放在目标函数中进行优化,非常类似于正则化. 将Soft S ...
Coursera台大机器学习技法课程笔记02-Dual Support Vector Machine
这节课讲的是SVM的对偶问题,比较精彩的部分:为何要使用拉格朗日乘子以及如何进行对偶变换. 参考:http://www.cnblogs.com/bourneli/p/4199990.html http ...

随机推荐

正确对待bug
正确对待bug 2016-10-09 公众号:一只程序媛以前我一直以为bug是代码的天敌,我以为好的程序媛写出来的代码是应该没有bug的,零bug是终极奋斗目标. 后来,看到一句话"上帝创 ...
[AaronYang]C#人爱学不学[2]
1. 记事本写C#,脱离vs 新建记事本,名字为 helloworld.cs using System; namespace Hello{ public class HelloWorldSay{ st ...
每天一个linux命令（22）:chgrp命令
在 lunix系统里,文件或目录的权限的掌控以拥有者及所诉群组来管理.可以使用chgrp指令取变更文件与目录所属群组,这种方式采用群组名称或群组识别码都可以.Chgrp命令就是change grou ...
logic标签用法
logic  <logic:iterate> <% Dog dog1=new Dog(); dog1.setAge(2); dog1.setName("xiaoming& ...
【Matplotlib】标注一些点
相关的文档: Annotating axis annotate() command 标注的代码如下: ... t = 2 * np.pi / 3 plt.plot([t, t], [0, np.cos ...
BZOJ-1061 志愿者招募线性规划转最小费用最大流+数学模型建模
本来一眼建模,以为傻逼题,然后发现自己傻逼...根本没想到神奇的数学模型..... 1061: [Noi2008]志愿者招募 Time Limit: 20 Sec Memory Limit: 162 ...
JSP 九个隐含JSP对象
输入输出对象:request.response.out. 作用域通信对象:session.application.pageContext servlet对象:page.config 错误对象:exce ...
Apple的App Analytics统计平台你必须知道的Q&A整理与翻译
Apple的App Analytics统计平台你必须知道的Q&A整理与翻译 Apple最近在iTunesConnect里最新发布了App Analytics统计平台,提供了现有友盟统计平台和自 ...
过滤器在Web开发应用------解决中文乱码
src/com/Encoding.java package com; import java.io.IOException; import javax.servlet.Filter; import j ...
python 入门
bool t, f = True, False print type(t) # Prints "<type 'bool'>" 字符串 hello = 'hello' ...

台大《机器学习基石》课程感受和总结---Part 2 （转）

台大《机器学习基石》课程感受和总结---Part 2 （转）的更多相关文章

随机推荐

热门专题