Andrew Ng机器学习课程9

首先以一个工匠为例，说明要成为一个出色的工匠，就需要掌握各种工具的使用，才能知道在具体的任务中选择什么工具来做。所以今天要讲的就是机器学习的理论部分。

bias variance trade off，以线性回归为例，underfitting对应high的bias（偏差），overfitting对应high的variance（方差），主要是拟合出了一些奇怪的特性。同样的对于分类问题，复杂的分类边界（decision boundary）也可能出现high variance，而简单的分类边界出现high bias。

training data set：(x(i),y(i))独立同分布，定义了一个简单的训练误差为犯错误的个数所占样本数的比例，叫做经验风险最小化（ERM）。这样的话是一个非凸优化问题，比较困难，通常采用其近似形似进行。利用e^作为对generalization error的估计，我们最关心的还是prediction error，也就是在实际使用中的error，叫做generalization error。跟台大机器学习课程一样，引入了霍弗丁不等式（hoffeding）来说明一个upper bound，独立同分布的变量的观测值的均值估计的量与真实的量之间的差大于某一个值得概率要小于某一个与差值相关的概率，说明一个非常有意义的事情，当观测的样本数量逐渐增加，这个概率的upper bound将指数下降。

ϕ^=1m∑xi

p(|ϕ−ϕ^|>γ)≤2exp(−2γ2m)

下面主要说明在何种条件下能够通过training error作为一个generalization error的很好估计，通过hoffeding不等式建立一个upper bound的关系，有利于推出如何的训练条件能够保证是好的估计。最后得到了如下形式的联系：

p(|e(hj)−e^(hj)|>γ)≤2exp(−2γ2m)

这是对于一个hypothesis hj来说的，后面要推广到对于hypothesis set中的k个都成立，然后得到了如下形式的泛化指标：

p(在hypothesis　set中不存在|e(hj)−e^(hj)|>γ)≥1−2k×exp(−2γ2m)

上式说明了一个一致性收敛问题，就是说在hypothesis　set中至少以概率为1−2k×exp(−2γ2m)得到的训练误差的估计e^(h)与generalization error e(h)之间的差值在γ内，这就是uniform convergence 的结果。

后面又引入了sample complexity即样本复杂度bound，说明的是为了达到对误差的一定bound或需要多少训练样本。公式中可以看出，log选项说明对于增加模型复杂度即Hypothesis的数量k，而在保证同样的error bound时，样本数量不用增加太多，因为log是增长速度最慢的一个函数了。

training error会随着hypothesis model complexity的增加而下降，而generalization error随之下降后增加，对应着high bias到high variance，即underfitting到overfitting

2015-9-10 艺少

Andrew Ng机器学习课程9的更多相关文章

Andrew Ng机器学习课程笔记（五）之应用机器学习的建议
Andrew Ng机器学习课程笔记(五)之应用机器学习的建议版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7368472.h ...
Andrew Ng机器学习课程笔记--week1（机器学习介绍及线性回归）
title: Andrew Ng机器学习课程笔记--week1(机器学习介绍及线性回归) tags: 机器学习, 学习笔记 grammar_cjkRuby: true --- 之前看过一遍,但是总是模 ...
Andrew Ng机器学习课程笔记--汇总
笔记总结,各章节主要内容已总结在标题之中 Andrew Ng机器学习课程笔记–week1(机器学习简介&线性回归模型) Andrew Ng机器学习课程笔记--week2(多元线性回归& ...
Andrew Ng机器学习课程笔记（六）之机器学习系统的设计
Andrew Ng机器学习课程笔记(六)之机器学习系统的设计版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7392408.h ...
Andrew Ng机器学习课程笔记（四）之神经网络
Andrew Ng机器学习课程笔记(四)之神经网络版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7365730.html 前言 ...
Andrew Ng机器学习课程笔记（三）之正则化
Andrew Ng机器学习课程笔记(三)之正则化版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7365475.html 前言 ...
Andrew Ng机器学习课程笔记（二）之逻辑回归
Andrew Ng机器学习课程笔记(二)之逻辑回归版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7364636.html 前言 ...
Andrew Ng机器学习课程笔记（一）之线性回归
Andrew Ng机器学习课程笔记(一)之线性回归版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7364598.html 前言 ...
Andrew Ng机器学习课程6
Andrew Ng机器学习课程6 说明在前面尾随者台大机器学习基石课程和机器学习技法课程的设置,对机器学习所涉及到的大部分的知识有了一个较为全面的了解,可是对于没有动手敲代码并加以使用的情况,基本上 ...
Andrew Ng机器学习课程10补充
Andrew Ng机器学习课程10补充 VC dimension 讲到了如果通过最小化训练误差,使用一个具有d个参数的hypothesis class进行学习,为了学习好,一般需要参数d的线性关系个训 ...

随机推荐

面对对大体量矢量数据ArcGIS的优化方法
大数据量矢量数据的可视化需要解决的问题,就是如何在可接受的短时间内,能展示大数据量的矢量地图. 解决方案一:采用预先渲染的切片进行展示切片是预先渲染的数据集,也是响应最快的展示方式.目前ArcGIS ...
UOJ46 【清华集训2014】玄学【时间线段树】
题目链接:UOJ 这题的时间线段树非常的妙. 对时间建立线段树,修改的时候在后面加,每当填满一个节点之后就合并进它的父亲. 对于一个节点维护序列,发现这是一个分段函数,合并就是归并排序.于是就形成了差 ...
数据结构实验之查找六：顺序查找（SDUT 3378）
(不知道为啥开个数组就 TLE .QAQ) #include <stdio.h> #include <stdlib.h> #include <string.h> / ...
day25 内置常用模块(四): 模块和包
阅读目录: 模块 import from xxx import xxx 包 import from xxx import xxx from xxx import * __init__.p ...
os 模块常用方法
os.remove()删除文件 os.rename()重命名文件 os.walk()生成目录树下的所有文件名 os.chdir()改变目录 os.mkdir/makedirs创建目录/多层目录 os. ...
spark的一些基本概念和模型
Application application和Hadoop MapReduce类似,都是指用户编写的spark应用程序,其中包含了一个driver功能的代码和分布在集群中多个节点运行的executo ...
<c:choose>
备注一下属性 DIV没有VALUE属性 <c:choose> <c:when test="${yggModel.type=='0'}">食品< ...
Docker理论简答
Docker理论简答: 1. 介绍对docker的认识(10分) Docker是容器,容器不是docker Dockers就是一个文件夹,它欺骗操作系统说自己是一个操作系统,然后把所需要 ...
Spring Boot|监控-Actuator
Spring Boot 为我们提供了一个生产级特性-Actuator,包含很多实际有用的API,下面我们就一起来看看这些API. 一.Actuator 首先在程序中引入Actuator <!-- ...
ciscn2019华北赛区半决赛day1web5CyberPunk
刚比赛完的一段时间期末考试云集,没有时间复现题目.趁着假期,争取多复现几道题. 复现平台 buuoj.cn 解题过程首先进入题目页面看起来没有什么特别的,就是一个可以提交信息的页面.查看响应报文也 ...

Andrew Ng机器学习课程9

Andrew Ng机器学习课程9

Andrew Ng机器学习课程9的更多相关文章

随机推荐

热门专题