机器学习基石笔记：07 The VC Dimension

当N大于等于2，k大于等于3时，

易得：m_H(N)被N^k-1给bound住。

VC维：最小断点值-1/H能shatter的最大k值。

这里的k指的是存在k个输入能被H给shatter，不是任意k个输入都能被H给shatter。

如：2维感知机能shatter平面上呈三角形排列的3个样本点，却shatter不了平面上呈直线排列的3个样本点，

因为当另外2个点标签值一致时，中间那个点无法取与它们相反的标签值。

若无断点，则该H下，VC维为无穷。

所以，存在断点------>有限VC维。

d维感知器算法下，VC维=d+1。

证明：

D，大小为d+1------>矩阵X，易得X是(d+1)*(d+1)的矩阵，X的秩小于等于d+1，

所以存在X，行向量之间线性无关，每一行向量可取任意标签值，

所以H能shatter这个X对应的d+1个样本点，即VC维>=d+1;

D，大小为d+2------>矩阵X，易得X是(d+2)*(d+1)的矩阵，X的秩小于d+2，

所以任意X，总有一行与其他行向量线性相关，该行的标签值收到限制，

所以H不能shatter这个X对应的d+2个样本点，即VC维<=d+1;

所以，VC维=d+1。

VC维，反映的是H的自由度，可粗略认为是自由参数的个数（不总是）。

VC维增大，E_in减小，模型复杂度增大；

VC维减小，E_in增大，模型复杂度减小。

给定差异容忍度epsilon，概率容忍度delta，VC维，求满足条件需要多少样本。

理论上，N约等于10000倍的VC维，

实际上，N取10倍的VC维就足够了。

可见，VC维是十分松弛的，

1.使用霍夫丁不等式，不管f、输入分布P；

2.使用成长函数，不管具体的D；

3.使用N的多项式，不管H(VC维相同)；

4.使用联合bound，不管A。

之所以使用VC维是为了定性分析VC维里包含的信息，

而且它对所有模型都近似松弛。

机器学习基石笔记：07 The VC Dimension的更多相关文章

机器学习基石：07 The VC Dimension
当N大于等于2,k大于等于3时, 易得:mH(N)被Nk-1给bound住. VC维:最小断点值-1/H能shatter的最大k值. 这里的k指的是存在k个输入能被H给shatter,不是任意k个输入 ...
Coursera台大机器学习课程笔记6 -- The VC Dimension
本章的思路在于揭示VC Dimension的意义,简单来说就是假设的自由度,或者假设包含的feature vector的个数(一般情况下),同时进一步说明了Dvc和,Eout,Ein以及Model C ...
【机器学习基石笔记】七、vc Dimension
vc demension定义: breakPoint - 1 N > vc dimension, 任意的N个,就不能任意划分 N <= vc dimension,存在N个,可以任意划分只 ...
【机器学习基石笔记】九、LinearRegression
[一] 线性回归直觉上的解释得到Ein = mean(y - wx)^2 [二] w的推导 Ein = 1/N || xw - y||^2 连续.可微.凸函数在各个方向的偏微分都是0 Ein = ...
07 The VC Dimension
当N大于等于2,k大于等于3时, 易得:mH(N)被Nk-1给bound住. VC维:最小断点值-1/H能shatter的最大k值. 这里的k指的是存在k个输入能被H给shatter,不是任意k个输入 ...
机器学习基石笔记：01 The Learning Problem
原文地址:https://www.jianshu.com/p/bd7cb6c78e5e 什么时候适合用机器学习算法? 存在某种规则/模式,能够使性能提升,比如准确率: 这种规则难以程序化定义,人难以给 ...
机器学习基石笔记：04 Feasibility of Learning
原文地址:https://www.jianshu.com/p/f2f4d509060e 机器学习是设计算法\(A\),在假设集合\(H\)里,根据给定数据集\(D\),选出与实际模式\(f\)最为相近 ...
机器学习基石笔记：08 Noise and Error
噪声:误标.对同一数据点的标注不一致.数据点信息不准确...... 噪声是针对整个输入空间的. 存在噪声的情况下,VC bound依旧有用: 存在噪声,就是f------>p(y|x),f是p的 ...
机器学习基石笔记：13 Hazard of Overfitting
泛化能力差和过拟合: 引起过拟合的原因: 1)过度VC维(模型复杂度高)------确定性噪声: 2)随机噪声: 3)有限的样本数量N. 具体实验来看模型复杂度Qf/确定性噪声.随机噪声sigma2. ...

随机推荐

R语言-散点图阵
1.pairs()函数 > pairs(iris[,1:4]) #取iris数据集的第一列到第四列两两作图 2.plot()函数 > plot(iris[,1:4], + main=&qu ...
Windows Server 2008中使用计划任务定时执行BAT bat进行PHP脚本的执行
Windows Server 2008中使用计划任务定时执行BAT bat进行PHP脚本的执行 2016年01月03日 17:36:00 持之以恒阅读数:5520 标签: windows定时任务.b ...
循环TRUNCATE表，再ENABLE约束索引等
CREATE OR REPLACE PROCEDURE STG.FP_REMOVE_MST_OLD_DATA (EXITCODE OUT NUMBER) IS /******************* ...
properties文件读写工具类
java代码: import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; ...
Oracle 基本语法、触发器、视图
参考文章:https://www.cnblogs.com/linjiqin/category/349944.html 数据库分类 1.小型数据库:access.foxbase 2.中型数据库:inor ...
python--第九天总结
python 多进程和多线程多线程可以共享全局变量,多进程不能.多线程中,所有子线程的进程号相同:多进程中,不同的子进程进程号不同. [多进程] Python在2.6引入了多进程的机制,并提供了丰富 ...
亿级 ELK 日志平台构建部署实践
本篇主要讲工作中的真实经历,我们怎么打造亿级日志平台,同时手把手教大家建立起这样一套亿级 ELK 系统.日志平台具体发展历程可以参考上篇「从 ELK 到 EFK 演进」废话不多说,老司机们座好了, ...
Python的基本用法
---恢复内容开始--- 一.函数 1.1 默认参数想要计算一个数x的n次方,可以定义如下的函数.但是有时候我们仅仅只需要计算x^2,所以只想使用一个参数即power(x),这时如果仍用如下代码会报 ...
boost学习内嵌类型检测与 any 的代码练习
本文是学习 boost源码的一些练习参考文章来自刘未鹏 C++的罗浮宫(http://blog.csdn.net/pongba) 目录 http://blog.csdn.net/pongba/ar ...
谷歌发布了 T2T（Tensor2Tensor）深度学习开源系统
谷歌开源T2T模型库,深度学习系统进入模块化时代! 谷歌大脑颠覆深度学习混乱现状,要用单一模型学会多项任务 https://github.com/tensorflow/models https://g ...

机器学习基石笔记：07 The VC Dimension

机器学习基石笔记：07 The VC Dimension的更多相关文章

随机推荐

热门专题