VC维的来龙去脉(转)】的更多相关文章

本文转载自 火光摇曳 原文链接:VC维的来龙去脉 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hypotheses Growth Function Break Point与Shatter VC Bound VC dimension 深度学习与VC维 小结 参考文献 VC维在机器学习领域是一个很基础的概念,它给诸多机器学习方法的可学习性提供了坚实的理论基础,但有时候,特别是对我们工程师而言…
VC维的来龙去脉——转载自“火光摇曳” 在研究VC维的过程中,发现一篇写的很不错的VC维的来龙去脉的文章,以此转载进行学习. 原文链接,有兴趣的可以参考原文进行研究学习 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hypotheses Growth Function Break Point与Shatter VC Bound VC dimension 深度学习与VC维 小结 参考文献 VC…
本文转自VC维的来龙去脉 本文为直接复制原文内容,建议阅读原文,原文排版更清晰,且原网站有很多有意思的文章. 阅读总结: 文章几乎为台大林老师网课“机器学习可行性”部分串联总结,是一个很好的总结. Hoeffding不等式 -> 学习可行的两个核心条件 -> 有效假设 -> 成长函数 -> VC维 以下为原文: 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hypothese…
原文链接:解读机器学习基础概念:VC维来去 作者:vincentyao 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hypotheses Growth Function Break Point与Shatter VC Bound VC dimension 深度学习与VC维 小结 参考文献 VC维在机器学习领域是一个很基础的概念,它给诸多机器学习方法的可学习性提供了坚实的理论基础,但有时候,…
1 VC维的定义 VC维其实就是第一个break point的之前的样本容量.标准定义是:对一个假设空间,如果存在N个样本能够被假设空间中的h按所有可能的2的N次方种形式分开,则称该假设空间能够把N个样本打散:假设空间的VC维就是它能打散的最大样本数目N.若对任意数目的样本都有函数能将它们打散,则函数集的VC维是无穷大: 几种假设空间的VC维如下: 2 感知机的VC维 d维感知机的vc维是d+1.(证明略) 3 VC维的物理意义 VC维表示的是做二分类时假设空间的自由度,是把数据集打散的能力.…
VC维含义的个人理解 有关于VC维可以在很多机器学习的理论中见到,它是一个重要的概念.在读<神经网络原理>的时候对一个实例不是很明白,通过这段时间观看斯坦福的机器学习公开课及相关补充材料,又参考了一些网络上的资料(主要是这篇,不过个人感觉仍然没有抓住重点),重新思考了一下,终于理解了这个定义所要传达的思想. 先要介绍分散(shatter)的概念:对于一个给定集合S={x1, ... ,xd},如果一个假设类H能够实现集合S中所有元素的任意一种标记方式,则称H能够分散S. 这样之后才有VC维的定…
原文:http://blog.csdn.net/keith0812/article/details/8901113 “支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上” 结构化风险 结构化风险 = 经验风险 + 置信风险 经验风险 =  分类器在给定样本上的误差 置信风险 = 分类器在未知文本上分类的结果的误差 置信风险因素: 样本数量,给定的样本数量越大,学习结果越有可能正确,此时置信风险越小: 分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大. 提高样本…
vc理论(Vapnik–Chervonenkis theory )是由 Vladimir Vapnik 和 Alexey Chervonenkis发明的.该理论试图从统计学的角度解释学习的过程.而VC维是VC理论中一个很重要的部分. 定义:对一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的 种形式分开,则称函数集能够把h个样本打散;函数集的VC维就是它能打散的最大样本数目h.若对任意数目的样本都有函数能将它们打散,则函数集的VC维是无穷大. VC维反映了函数集的学习能力,VC维越…
有关于VC维可以在很多机器学习的理论中见到,它是一个重要的概念.在读<神经网络原理>的时候对一个实例不是很明白,通过这段时间观看斯坦福的机器学习公开课及相关补充材料,又参考了一些网络上的资料(主要是这篇,不过个人感觉仍然没有抓住重点),重新思考了一下,终于理解了这个定义所要传达的思想. 先要介绍分散(shatter)的概念:对于一个给定集合S={x1, ... ,xd},如果一个假设类H能够实现集合S中所有元素的任意一种标记方式,则称H能够分散S. 这样之后才有VC维的定义:H的VC维表示为V…
以下文章转载自http://blog.sina.com.cn/s/blog_7103b28a0102w9tr.html 如有侵权,请留言,立即删除. 1 VC维的描述和理解 给定一个集合S={x1,x2,...xd},如果一个假设类H(hypothesis h ∈ H)能够实现集合S中所有元素的任意一种标记方式,则称H能够打散S.有了打散的定义,就得到VC维的定义:H的VC维表示能够被H打散的最大集合的大小.若H能分散任意大小的集合,那么VC(H)为无穷大. ​VC维反应的是hypothesis…
参考<机器学习导论> 假设我们有一个数据集,包含N个点.这N个点可以用2N种方法标记为正例和负例.因此,N个数据点可以定义2N种不同的学习问题.如果对于这些问题中的任何一个,我们都能够找到一个假设h属于H,将正例和负例分开,那么我们就称H散列N个点.也就是说,可以用N个点定义的任何学习问题都能够用一个从H中抽取的假设无误差地学习.可以被H散列的点的最大数量称为H的VC维,记为VC(H),它度量假设类H的学习能力. 通常我更喜欢用自由度来近似表达假设类的学习能力. 通常,在实际生活中,世界是平滑…
学习理论——VC维的定义以及一些例子 本文主要介绍一些学习理论上的东西.首先,我们得明确,从训练集上学习出来的分类器的最终目标是用于预测未知的样本,那么我们在训练的时候该用多少的样本才能使产生的分类器的效果尽可能的好呢?这些就是VC-理论要解决的问题.在介绍这个理论之前,我们得先介绍一个比较抽象的概念——VC维.这个指标是用与衡量假设空间的复杂程度.为了能更好的理解VC维,本文还会举一些例子来加深理解. (一)由一个例子引出的动机 为了更好的说明为什么我们要定义这个VC维,我们先来看一个例子.假…
在做svm的时候我们碰到了结构风险最小化的问题,结构风险等于经验风险+vc置信范围,当中的vc置信范围又跟样本的数量和模型的vc维有关,所以我们看一下什么是vc维 首先看一下vc维的定义:对一个指标函数集,假设存在H个样本可以被函数集中的函数按全部可能的2的H次方种形式分开,则称函数集可以把H个样本打散:函数集的VC维就是它能打散的最大样本数目H 比如有个样本,一个函数可以将这h个样本打散,打散指的是样本最后被分类的情况有2^h种可能.则这个函数可以打散的最大样本数就是vc维 例如以下图所看到的…
1 VC维的定义 VC维其实就是第一个break point的之前的样本容量.标准定义是:对一个假设空间,如果存在N个样本能够被假设空间中的h按所有可能的2的N次方种形式分开,则称该假设空间能够把N个样本打散:假设空间的VC维就是它能打散的最大样本数目N.若对任意N,总存在一组样本使得假设空间能将它们打散,则函数集的VC维是无穷大: 几种假设空间的VC维如下: 2 推导d维感知机的VC维 这里将证明,d维感知机的vc维是d+1. 第一步,证明 dvc >= d + 1. 要证明 dvc >=…
假设空间H(Hypothesis Set) 输入空间D(X1...Xn) 1.增长函数(grown function) 是关于输入空间尺寸n的函数 假设空间对于D中所有实例实现分类(赋予标记)的分类方式的最大种数(有多少种分类方式) 最大值为2^n,但是很多增长函数都达不到最大值. 2.对分(dichotomies) H对D的一种分类方式就是一种对分 3.打散(shatter) H能实现D上全部n个实例的全部对分,就是打散,不能实现就是不打散. 4.Break Point 当n增大到一个值m时,…
第五讲 Training versus Testing 一.问题的提出 \(P_{\mathcal{D}}\left [ BAD   \mathcal{D} \right ]  \leq 2M \cdot exp(-2\epsilon^2N)\) \(\Leftrightarrow  P_{\mathfrak{D}}\left [ \left | E_{out} - E_{in} \right | > \epsilon \right ]  \leq 2M \cdot exp(-2\epsilon…
对于d维的数据集,vc = d+1 证明: $vc \geq d+1$  :  存在d+1个点可以被H shatter 构造矩阵(注意加上$w_0$对应的$x_0$) 注意x可逆,构造$w=X^{-1}y$,有$Xw=y-----sign(Xw)=y$ $vc \leq d+1$  :  任意d+2个点不能被H shatter 注意x向量是d+1维的(注意还有$x_0$),所以对与第d+2各向量, 一定可以表示为前面d+1各向量的线性组合 取w使,$sign(x_iw)=a_i$,则此时 即不能…
第六讲 第五讲主要讲了机器学习可能性,两个问题,(1)\(E_{in} 要和 E_{out}\) 有很接近,(2)\(E_{in}\)要足够小. 对于第一个假设,根据Hoefding's Inequality 可以得到,\( P[|E_{in} - E_{out}| > \epsilon] < 2Mexp(-2\epsilon^2N)\) 对于上述的\(M\)来说,如果 \(M < \infty\),则当\(N\)足够大时,\(P\)会比较小,也就是坏事情出现的概率比较小,机器学习是可能…
vc约等于可调节参数的个数 来自为知笔记(Wiz)…
第四讲 机器学习的可行性 一.Hoeffding's Inequality \(P[\left | \nu -\mu  \right |>\epsilon ] \leq 2exp(-2\epsilon^{2}N)\) (1) in-sample error, 也就是在样本里出现的error,\(E_{in}\) is probably close to out-of-sample error \(E_{out}\) (within \(\epsilon\)) 推出一个类似的公式: \(P[\le…
<Deep Learning> Ian Goodfellow Yoshua Bengio Aaron Courvill 关于此书Part One重难点的个人阅读笔记. 2.7 Eigendecomposition we decompose a matrix into a set of eigenvectors and eigenvalues. 特征值与特征向量: 应用非常广泛: 图像处理中的PCA方法,选取特征值最高的k个特征向量来表示一个矩阵,从而达到降维分析+特征显示的方法, 还有图像压缩…
主讲人 常象宇 大家好,我是likrain,本来我和网神说的是我可以作为机动,大家不想讲哪里我可以试试,结果大家不想讲第一章.估计都是大神觉得第一章比较简单,所以就由我来吧.我的背景是统计与数学,稍懂些计算机,大家以后有问题可以讨论. 今天我们来讲一下PRML第一章,这一章的内容是基于一些简单的例子对于机器学习中的基本概念给与介绍.这是为后续章节的介绍给一个铺垫.我今天讲的内容包括以下几个部分: 把书上的知识点做了个总结大概.首先我们来看一下,我个人理解的机器学习的定义:机器学习的分类有很多种,…
VC定理的证明 本文讨论VC理论的证明,其主要内容就是证明VC理论的两个定理,所以内容非常的枯燥,但对于充实一下自己的理论知识也是有帮助的.另外,VC理论属于比较难也比较抽象的知识,所以我总结的这些证明难免会有一些错误,希望各位能够帮我指出. (一)简单版本的VC理论. 给定一个集合系统$(U,\mathcal{S})$,VC理论可以解决以下问题.对于一个在$U$上的分布$P$,那么至少需要选择多少个样本(根据分布$P$选择),才能使对每个$S\in\mathcal{S}$,用样本估计出来的值以…
​由vc bound可以知道: $P(\exists h\in H~s.t~|E_{in}(h)-E_{out}(h)|>\epsilon)\\ \leq 4M_H(2N)exp(-\frac{1}{8}\epsilon^2N)\\ \leq 4(2N)^{k-1}exp(-\frac{1}{8}\epsilon^2N)~~~if~~\exists k$ 当break point存在时,以上公式成立:1.好的H,存在break point,$M_H(N)$ 有限2.好的D,N够大3.好的算法A,…
当N大于等于2,k大于等于3时, 易得:mH(N)被Nk-1给bound住. VC维:最小断点值-1/H能shatter的最大k值. 这里的k指的是存在k个输入能被H给shatter,不是任意k个输入都能被H给shatter. 如:2维感知机能shatter平面上呈三角形排列的3个样本点,却shatter不了平面上呈直线排列的3个样本点, 因为当另外2个点标签值一致时,中间那个点无法取与它们相反的标签值. 若无断点,则该H下,VC维为无穷. 所以,存在断点--->有限VC维. d维感知器算法下,…
当N大于等于2,k大于等于3时, 易得:mH(N)被Nk-1给bound住. VC维:最小断点值-1/H能shatter的最大k值. 这里的k指的是存在k个输入能被H给shatter,不是任意k个输入都能被H给shatter. 如:2维感知机能shatter平面上呈三角形排列的3个样本点,却shatter不了平面上呈直线排列的3个样本点, 因为当另外2个点标签值一致时,中间那个点无法取与它们相反的标签值. 若无断点,则该H下,VC维为无穷. 所以,存在断点------>有限VC维. d维感知器算…
前言: 经历过文本的特征提取,使用LibSvm工具包进行了测试,Svm算法的效果还是很好的.于是开始逐一的去了解SVM的原理. SVM 是在建立在结构风险最小化和VC维理论的基础上.所以这篇只介绍关于SVM的理论基础.参考this paper: https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/svmtutorial.pdf 目录: 文本分类学习(一)开篇 文本分类学习(二)文本表示 文本分类学习(三)特征权重…
当N大于等于2,k大于等于3时, 易得:mH(N)被Nk-1给bound住. VC维:最小断点值-1/H能shatter的最大k值. 这里的k指的是存在k个输入能被H给shatter,不是任意k个输入都能被H给shatter. 如:2维感知机能shatter平面上呈三角形排列的3个样本点,却shatter不了平面上呈直线排列的3个样本点, 因为当另外2个点标签值一致时,中间那个点无法取与它们相反的标签值. 若无断点,则该H下,VC维为无穷. 所以,存在断点------>有限VC维. d维感知器算…
VC维在有限的训练样本情况下,当样本数 n 固定时.此时学习机器的 VC 维越高学习机器的复杂性越高. VC 维反映了函数集的学习能力,VC 维越大则学习机器越复杂(容量越大). 所谓的结构风险最小化就是在保证分类精度(经验风险)的同一时候,减少学习机器的 VC 维,能够使学习机器在整个样本集上的期望风险得到控制. 经验风险和实际风险之间的关系,注意引入这个原因是什么? 由于训练误差再小也就是在这个训练集合上,实际的推广能力不行就会引起过拟合问题. 所以说要引入置信范围也就是经验误差和实际期望误…