理解机器为什么可以学习（一）---Feasibility of learning

futurehau 2024-08-29 00:01:52 原文

主要讲解内容来自机器学习基石课程。主要就是基于Hoeffding不等式来从理论上描述使用训练误差Ein代替期望误差Eout的合理性。

PAC : probably approximately correct

一方面：根据PAC,针对一个h,Ein与Eout的差距很大的概率是很小的

另一方面：不能说直接选定一个h,需要从许多h中选择一个Ein较小的，可能出现某一些坏数据在某些h上的表现很差，但是坏数据在所有h上表现都差的概率很小。

1. Hoeffding 不等式

用频率代替概率，如果抽样的数目很大的话，频率和概率的差别不会很大。也就是（频率 PAC 概率）

2.Connection to Meachine Learning

描述了Ein PAC Eout，所以h在资料上的表现就可以用来估计h在所有资料上的表现。

所以，我们的学习问题就变为：

Hoeffding形式：

上述由Hoeffding不等式说明了N很大的时候，用Ein和Eout是差不多大概是一样的。但是上述说明的是某一个特定的h，这时候的Ein可能是很大的，Ein和Eout很接近,但是g和f差别很大。所以需要验证某个g好不好。

3. h可以自由选择

那么接下来就论述假如有很多h呢？

Hoeffding说明了对一个资料，不好的资料（Ein 和 Eout差别很大）很少。在演算法不能自由选择，可能会踩到雷。

所以，现在如果让演算法可以自由选择，那么：

所以，对于有限的假设，如果演算法可以自由选择，资料量大，这样一定可以选择到一个g，使得Ein和Eout是接近的。所以，选择Ein最小的是有道理的。

好了，现在证明了有有限个h的时候，如果演算法可以找到一个小的Ein的时候，演算法还是可行的，那么如果有无限个h呢？

接下来继续讨论。http://www.cnblogs.com/futurehau/p/6246784.html

理解机器为什么可以学习（一）---Feasibility of learning的更多相关文章

理解机器为什么可以学习（四）---VC Dimension
前面一节我们通过引入增长函数的上限的上限,一个多项式,来把Ein 和 Eout 的差Bound住,这一节引入VC Bound进一步说明这个问题. 前边我们得到,如果一个hypethesis集是有bre ...
理解机器为什么可以学习（三）---Theory of Generalization
前边讨论了我们介绍了成长函数和break point,现在继续讨论m是否成长很慢,是否能够取代M. 成长函数就是二分类的排列组合的数量.break point是第一个不能shatter(覆盖所有情形) ...
理解机器为什么可以学习（二）---Training versus Testing
前边由Hoeffding出发讨论了为什么机器可以学习,主要就是在N很大的时候Ein PAC Eout,选择较小的Ein,这样的Eout也较小,但是当时还有一个问题没有解决,就是当时的假设的h的集合是个 ...
理解机器为什么可以学习（五）---Noise and Error
之前我们讨论了VC Dimension,最终得到结论,如果我们的hypetheset的VC Dimension是有限的,并且有足够的资料,演算法能够找到一个hypethesis,它的Ein很低的话,那 ...
《深入理解计算机系统V2》学习指导
<深入理解计算机系统V2>学习指导目录图书简况学习指导第一章计算机系统漫游第二章信息的表示和处理第三章程序的机器级表示第四章处理器体系结构第五章优化程序性能第六 ...
Java虚拟机内存溢出异常--《深入理解Java虚拟机》学习笔记及个人理解(三)
Java虚拟机内存溢出异常--<深入理解Java虚拟机>学习笔记及个人理解(三) 书上P39 1. 堆内存溢出不断地创建对象, 而且保证创建的这些对象不会被回收即可(让GC Root可达 ...
Java四种引用--《深入理解Java虚拟机》学习笔记及个人理解(四)
Java四种引用--<深入理解Java虚拟机>学习笔记及个人理解(四) 书上P65. StrongReference(强引用) 类似Object obj = new Object() 这类 ...
【Java】「深入理解Java虚拟机」学习笔记（1） - Java语言发展趋势
0.前言从这篇随笔开始记录Java虚拟机的内容,以前只是对Java的应用,聚焦的是业务,了解的只是语言层面,现在想深入学习一下. 对JVM的学习肯定不是看一遍书就能掌握的,在今后的学习和实践中如果有 ...
Deep learning for visual understanding: A review 视觉理解中的深度学习：回顾之一
Deep learning for visual understanding: A review 视觉理解中的深度学习:回顾 ABSTRACT: Deep learning algorithms ar ...

随机推荐

有些其他程序设置为从 Outlook 下载并删除邮件。为防止发生此意外情况，我们将这些邮件放入一个特殊的 POP 文件夹中
最近使用FOXMAIL接收MSN邮件时,发现有一些邮件收取不到,进到WEB页面,页面下方提示“你的邮件位于 POP 文件夹中!有些其他程序设置为从 Outlook 下载并删除邮件.为防止发生此意外情况 ...
ssh登录卡住问题
使用ssh登录远程centos服务器,卡住不动系统centos 7 加-v查看登录过程,一直卡在这里解决:我的是mtu问题将eth0 mtu 默认1500修改为1200就可以了 ifconfig ...
【server 安全】更改本地安全策略及禁用部分服务以进一步增强windows server的安全性
本地安全策略以上内容的备份注册表路径: System\CurrentControlSet\Control\ProductOptionsSystem\CurrentControlSet\Contro ...
window.onload中调用函数报错的问题
今天练习js,忽然遇到了一个问题,就是window.onload加载完成后,调用其中的函数会报错, 上一段简单的代码: 报错信息: 报错原因: 当window.onload加载完成后,第一个alert ...
Sonar服务器搭建
Sonar服务器搭建 Sonar概述 Sonar 是一个用于代码质量管理的开放平台.通过插件机制,Sonar 可以集成不同的测试工具,代码分析工具,以及持续集成工具.与持续集成工具(例如 Hudson ...
Linux I/O调度
一) I/O调度程序的总结 1) 当向设备写入数据块或是从设备读出数据块时,请求都被安置在一个队列中等待完成. 2) 每个块设备都有它自己的队列. 3) I/O调度程序负责维护这些队列的顺 ...
2018.7.2 如何用js实现点击图片切换为另一图片，再次点击恢复到原图片
<!DOCTYPE html> <html lang="zh"> <head> <meta charset="UTF-8&quo ...
交叉验证(Cross Validation)方法思想简介
以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train ...
Bootstrap 历练实例-轮播(carousel)插件方法
方法下面是一些轮播(Carousel)插件中有用的方法: 方法描述实例 .carousel(options) 初始化轮播为可选的 options 对象,并开始循环项目. $('#identifi ...
Mycat高可用解决方案三（读写分离）
Mycat高可用解决方案三(读写分离) 一.系统部署规划名称 IP 主机名称配置 192.168.199.112 mycat01 2核/2G Mysql主节点 192.168.199.110 my ...