Andrew Ng机器学习课程10补充

ZhangPYi 2024-11-06 06:33:57 原文

Andrew Ng机器学习课程10补充

VC dimension

讲到了如果通过最小化训练误差，使用一个具有d个参数的hypothesis class进行学习，为了学习好，一般需要参数d的线性关系个训练样本。到这里需要指出一点，这个结果是基于empirical risk minimization得到的，而对于那些大部分的discriminative的学习算法采用的通过最小化training error或者training error的近似值，前面推导的结论并不总是可以用，而对于non_ERM 学习，给出好的理论保证仍然是一个活跃的研究领域。

In other words, the number of training examples needed to learn “well” using H is linear in the VC dimension of H.而对于大部分的hypothesis classes，VC dimension粗略的等于参数的个数。

model selection

How can we automatically select a model that represents a good tradeoff between the twin evils of bias and variance？

最直观的方法：直接选择最smallest training error的hypothesis

这种方法不行，比如多项式的阶数，这种方法总会选择得到high-variance，high-degree polynomial model。

hold-out cross validation

随机把S分为训练集和验证集，在训练集上训练hypothesis model，在验证集上获取hypothesis，然后选择最小验证误差的hypothesis，之后再用全部的数据进行训练。但是对于那些对初始条件或者初始数据比较敏感的算法，最好不要再进行retraining，因为在训练集上表现好的model，并不一定意味着在验证集上也表现好。这种hold-out cross validation的方法主要的缺点就是waste样本数据，即使是采用了retraining。

k-fold cross validation

随机将S分割为大小相同的k份，每次在k-1份上进行训练，而在另外一份上进行validation，循环k次，将每次得到的误差进行平均作为estimated generalization error，然后挑选最低的model，最后retraining这个model在整个S上。一般选择k为10。

leave-one-out cross validation

上一个方法中，将k=样本数量m，就叫做leave-one-out cross validation。

上面两种方法进行cross validation都会有计算量的问题，实际上当样本数量足够多时，可以采用hold-out cross validation，样本数量不足而计算能力达到要求时，可以采用k-fold或者leave one out的cross validation。

Feature Selection

Feature Selection是model selection的一种特殊和重要的案例，主要有两种方法：前向搜索和后向搜索，前向搜索是从空集开始逐个添加剩余最好的进来，而后向搜索是从满集开始，逐个剔除其中最差的出去。这两种方法的缺点就是计算量大。

还有一种是filter feature selection，采用启发式的选择，计算量相比上面两种要小，主要的思想是计算xi与y的相关度，或者是互信息等。

Andrew Ng机器学习课程10补充的更多相关文章

Andrew Ng机器学习课程10
Andrew Ng机器学习课程10 a example 如果hypothesis set中的hypothesis是由d个real number决定的,那么用64位的计算机数据表示的话,那么模型的个数一 ...
Andrew Ng机器学习课程笔记（五）之应用机器学习的建议
Andrew Ng机器学习课程笔记(五)之应用机器学习的建议版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7368472.h ...
Andrew Ng机器学习课程笔记（四）之神经网络
Andrew Ng机器学习课程笔记(四)之神经网络版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7365730.html 前言 ...
Andrew Ng机器学习课程笔记（一）之线性回归
Andrew Ng机器学习课程笔记(一)之线性回归版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7364598.html 前言 ...
Andrew Ng机器学习课程13
Andrew Ng机器学习课程13 声明:引用请注明出处http://blog.csdn.net/lg1259156776/ 引言:主要从一般的角度介绍EM算法及其思想,并推导了EM算法的收敛性.最后 ...
Andrew Ng机器学习课程12
Andrew Ng机器学习课程12 声明:引用请注明出处http://blog.csdn.net/lg1259156776/ 引言:主要讲述了batch learning和online learnin ...
Andrew Ng机器学习课程笔记--week1（机器学习介绍及线性回归）
title: Andrew Ng机器学习课程笔记--week1(机器学习介绍及线性回归) tags: 机器学习, 学习笔记 grammar_cjkRuby: true --- 之前看过一遍,但是总是模 ...
Andrew Ng机器学习课程笔记--汇总
笔记总结,各章节主要内容已总结在标题之中 Andrew Ng机器学习课程笔记–week1(机器学习简介&线性回归模型) Andrew Ng机器学习课程笔记--week2(多元线性回归& ...
Andrew Ng机器学习课程笔记（六）之机器学习系统的设计
Andrew Ng机器学习课程笔记(六)之机器学习系统的设计版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7392408.h ...

随机推荐

PHP-FPM 的工作整理
1.php-fpm的配置文件根据命令找到路径修改配置文件 ps -ef|grep php-fpm vim /home/php/etc/php-fpm.conf ;;;;;;;;;;;;;;;;;; ...
shell脚本之字符串运算的使用
字符串运算符下表列出了常用的字符串运算符,假定变量 a 为 "abc",变量 b 为 "efg": 运算符说明举例 = 检测两个字符串是否相等,相等返回 ...
leetcode解题报告（27）：Reverse Linked List
描述 Reverse a singly linked list. 分析一开始写的时候总感觉没抓到要点,然后想起上数据结构课的教材上有这道题,翻开书一看完就回忆起来了,感觉解法挺巧妙的,不比讨论区的答 ...
P4568 飞行路线分层图最短路
P4568 飞行路线分层图最短路分层图最短路问题模型求最短路时,可有\(k\)次更改边权(减为0) 思路在普通求\(Dijkstra\)基础上,\(dis[x][j]\)多开一维\(j\)以 ...
Codevs 1500 后缀排序(后缀数组)
1500 后缀排序时间限制: 1 s 空间限制: 128000 KB 题目等级 : 大师 Master 题目描述 Description 天凯是MIT的新生.Prof. HandsomeG给了他一个 ...
Spark设置自定义的InputFormat读取HDFS文件
本文通过MetaWeblog自动发布,原文及更新链接:https://extendswind.top/posts/technical/problem_spark_reading_hdfs_serial ...
SpringBoot整合ElasticSearch：基于SpringDataElasticSearch
0.注意事项 SpringDataElasticSearch可能和远程的ElasticSearch版本不匹配,会宝座版本适配说明:https://github.com/spring-projects ...
[代码审计]php反序列化漏洞
0x01 php面向对象简介对象:可以对其做事情的一些东西.一个对象有状态.行为和标识三种属性. 类:一个共享相同结构和行为的对象的集合. 每个类的定义都以关键字class开头,后面跟着类的名字. ...
【转】利用Python将多个PDF合并为一个
本脚本用来合并pdf文件,输出的pdf文件按输入的pdf文件名生成书签使用示例如下: python pdfmerge.py -p "D:\pdf-files" -o " ...
[转]Myeclipse四种方式发布项目
原文链接: myeclipse四种方式发布项目