第六讲 第五讲主要讲了机器学习可能性,两个问题,(1)\(E_{in} 要和 E_{out}\) 有很接近,(2)\(E_{in}\)要足够小. 对于第一个假设,根据Hoefding's Inequality 可以得到,\( P[|E_{in} - E_{out}| > \epsilon] < 2Mexp(-2\epsilon^2N)\) 对于上述的\(M\)来说,如果 \(M < \infty\),则当\(N\)足够大时,\(P\)会比较小,也就是坏事情出现的概率比较小,机器学习是可能…
第五讲 Training versus Testing 一.问题的提出 \(P_{\mathcal{D}}\left [ BAD   \mathcal{D} \right ]  \leq 2M \cdot exp(-2\epsilon^2N)\) \(\Leftrightarrow  P_{\mathfrak{D}}\left [ \left | E_{out} - E_{in} \right | > \epsilon \right ]  \leq 2M \cdot exp(-2\epsilon…
第四讲 机器学习的可行性 一.Hoeffding's Inequality \(P[\left | \nu -\mu  \right |>\epsilon ] \leq 2exp(-2\epsilon^{2}N)\) (1) in-sample error, 也就是在样本里出现的error,\(E_{in}\) is probably close to out-of-sample error \(E_{out}\) (within \(\epsilon\)) 推出一个类似的公式: \(P[\le…
当N大于等于2,k大于等于3时, 易得:mH(N)被Nk-1给bound住. VC维:最小断点值-1/H能shatter的最大k值. 这里的k指的是存在k个输入能被H给shatter,不是任意k个输入都能被H给shatter. 如:2维感知机能shatter平面上呈三角形排列的3个样本点,却shatter不了平面上呈直线排列的3个样本点, 因为当另外2个点标签值一致时,中间那个点无法取与它们相反的标签值. 若无断点,则该H下,VC维为无穷. 所以,存在断点------>有限VC维. d维感知器算…
vc demension定义: breakPoint - 1 N > vc dimension, 任意的N个,就不能任意划分 N <= vc dimension,存在N个,可以任意划分 只要vc dimension是finite,那么H就比较好. Perceptron Learning Algo 多维度也行么?vc dimension是多少么?d维的, Dvc = d + 1 要证明! Dvc >= d+1, 存在d+1个点,可以被shatter. 原点,加上每个分量为1, 加上常数项,…
1 VC维的定义 VC维其实就是第一个break point的之前的样本容量.标准定义是:对一个假设空间,如果存在N个样本能够被假设空间中的h按所有可能的2的N次方种形式分开,则称该假设空间能够把N个样本打散:假设空间的VC维就是它能打散的最大样本数目N.若对任意N,总存在一组样本使得假设空间能将它们打散,则函数集的VC维是无穷大: 几种假设空间的VC维如下: 2 推导d维感知机的VC维 这里将证明,d维感知机的vc维是d+1. 第一步,证明 dvc >= d + 1. 要证明 dvc >=…
注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 前几节课着重介绍了机器能够学习的条件并做了详细的推导和解释.机器能够学习必须满足两个条件: 当假设空间\(\mathcal{H}\)的Size M是有限的时候,则\(N\)足够大的时候,对于假设空间中任意一个假设\(g\),都有\(E_{out}\approx E_{in}\) . 利用算法A从假设空间\(\mathcal{H}\)中,挑选一个\(g\),使\(E_{in}(g)\ap…
当N大于等于2,k大于等于3时, 易得:mH(N)被Nk-1给bound住. VC维:最小断点值-1/H能shatter的最大k值. 这里的k指的是存在k个输入能被H给shatter,不是任意k个输入都能被H给shatter. 如:2维感知机能shatter平面上呈三角形排列的3个样本点,却shatter不了平面上呈直线排列的3个样本点, 因为当另外2个点标签值一致时,中间那个点无法取与它们相反的标签值. 若无断点,则该H下,VC维为无穷. 所以,存在断点------>有限VC维. d维感知器算…
本文转载自 火光摇曳 原文链接:VC维的来龙去脉 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hypotheses Growth Function Break Point与Shatter VC Bound VC dimension 深度学习与VC维 小结 参考文献 VC维在机器学习领域是一个很基础的概念,它给诸多机器学习方法的可学习性提供了坚实的理论基础,但有时候,特别是对我们工程师而言…
注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 上一节课介绍了分类问题的三种线性模型,可以用来解决binary classification和multiclass classification问题.本节课主要介绍非线性的模型来解决分类问题. 一.Quadratic Hypothesis 之前介绍的线性模型,在2D平面上是一条直线,在3D空间中是一个平面.数学上,我们用线性得分函数\(s\)来表示:\(s=w^Tx\) .其中,\(x…
注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 上节课,主要介绍了在有noise的情况下,VC Bound理论仍然是成立的.同时,介绍了不同的error measure方法.本节课介绍机器学习最常见的一种算法:Linear Regression. 一.线性回归问题 在之前的Linear Classification课程中,讲了信用卡发放的例子,利用机器学习来决定是否给用户发放信用卡.本节课仍然引入信用卡的例子,来解决给用户发放信用卡…
VC维的来龙去脉——转载自“火光摇曳” 在研究VC维的过程中,发现一篇写的很不错的VC维的来龙去脉的文章,以此转载进行学习. 原文链接,有兴趣的可以参考原文进行研究学习 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hypotheses Growth Function Break Point与Shatter VC Bound VC dimension 深度学习与VC维 小结 参考文献 VC…
本文转自VC维的来龙去脉 本文为直接复制原文内容,建议阅读原文,原文排版更清晰,且原网站有很多有意思的文章. 阅读总结: 文章几乎为台大林老师网课“机器学习可行性”部分串联总结,是一个很好的总结. Hoeffding不等式 -> 学习可行的两个核心条件 -> 有效假设 -> 成长函数 -> VC维 以下为原文: 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hypothese…
原文链接:解读机器学习基础概念:VC维来去 作者:vincentyao 目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hypotheses Growth Function Break Point与Shatter VC Bound VC dimension 深度学习与VC维 小结 参考文献 VC维在机器学习领域是一个很基础的概念,它给诸多机器学习方法的可学习性提供了坚实的理论基础,但有时候,…
原文:http://blog.csdn.net/keith0812/article/details/8901113 “支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上” 结构化风险 结构化风险 = 经验风险 + 置信风险 经验风险 =  分类器在给定样本上的误差 置信风险 = 分类器在未知文本上分类的结果的误差 置信风险因素: 样本数量,给定的样本数量越大,学习结果越有可能正确,此时置信风险越小: 分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大. 提高样本…
1 VC维的定义 VC维其实就是第一个break point的之前的样本容量.标准定义是:对一个假设空间,如果存在N个样本能够被假设空间中的h按所有可能的2的N次方种形式分开,则称该假设空间能够把N个样本打散:假设空间的VC维就是它能打散的最大样本数目N.若对任意数目的样本都有函数能将它们打散,则函数集的VC维是无穷大: 几种假设空间的VC维如下: 2 感知机的VC维 d维感知机的vc维是d+1.(证明略) 3 VC维的物理意义 VC维表示的是做二分类时假设空间的自由度,是把数据集打散的能力.…
VC维含义的个人理解 有关于VC维可以在很多机器学习的理论中见到,它是一个重要的概念.在读<神经网络原理>的时候对一个实例不是很明白,通过这段时间观看斯坦福的机器学习公开课及相关补充材料,又参考了一些网络上的资料(主要是这篇,不过个人感觉仍然没有抓住重点),重新思考了一下,终于理解了这个定义所要传达的思想. 先要介绍分散(shatter)的概念:对于一个给定集合S={x1, ... ,xd},如果一个假设类H能够实现集合S中所有元素的任意一种标记方式,则称H能够分散S. 这样之后才有VC维的定…
机器学习基石 4 Feasibility of Learning Learning is Impossible? 机器学习:通过现有的训练集 \(D\) 学习,得到预测函数 \(h(x)\) 使得它接近于目标函数 \(f(x)\). 问题:这种预测是可能的么?其泛化性的本质是什么?是什么保证了 \(h(x) \approx f(x)\) ? Probability to the Rescue 情景:有一个装有很多很多珠子的罐子,珠子的颜色是橙色和绿色,那么我们可以通过抽样的方法来估计橙色珠子的比…
有关于VC维可以在很多机器学习的理论中见到,它是一个重要的概念.在读<神经网络原理>的时候对一个实例不是很明白,通过这段时间观看斯坦福的机器学习公开课及相关补充材料,又参考了一些网络上的资料(主要是这篇,不过个人感觉仍然没有抓住重点),重新思考了一下,终于理解了这个定义所要传达的思想. 先要介绍分散(shatter)的概念:对于一个给定集合S={x1, ... ,xd},如果一个假设类H能够实现集合S中所有元素的任意一种标记方式,则称H能够分散S. 这样之后才有VC维的定义:H的VC维表示为V…
泛化能力差和过拟合: 引起过拟合的原因: 1)过度VC维(模型复杂度高)------确定性噪声: 2)随机噪声: 3)有限的样本数量N. 具体实验来看模型复杂度Qf/确定性噪声.随机噪声sigma2.样本数量N对过拟合的影响: 尽量避免过拟合: 1)从简单模型开始:降低模型复杂度: 2)data cleaning/data pruning:去noise: 3)data hinting(线索):增加样本数量: 4)regularization:正则化: 5)validation:验证.…
注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 上一节课,我们介绍了Logistic Regression问题,建立cross-entropy error,并提出使用梯度下降算法gradient descent来获得最好的logistic hypothesis.本节课继续介绍使用线性模型来解决分类问题. 一.Linear Models for Binary Classification 之前介绍的几种线性模型都有一个共同点,就是都有…
注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 上一节课,我们主要介绍了VC Dimension的概念.如果Hypotheses set的VC Dimension是有限的,且有足够多的资料\(N\),同时能够找到一个hypothesis使它的\(E_{in}\approx 0\),那么就能说明机器学习是可行的.本节课主要讨论数据集有Noise的情况下,是否能够进行机器学习,并且介绍了假设空间H下演算法\(\mathcal{A}\)的…
泛化能力差和过拟合: 引起过拟合的原因: 1)过度VC维(模型复杂度高)------确定性噪声: 2)随机噪声: 3)有限的样本数量N. 具体实验来看模型复杂度Qf/确定性噪声.随机噪声sigma2.样本数量N对过拟合的影响: 尽量避免过拟合: 1)从简单模型开始:降低模型复杂度: 2)data cleaning/data pruning:去noise: 3)data hinting(线索):增加样本数量: 4)regularization:正则化: 5)validation:验证.…
以下文章转载自http://blog.sina.com.cn/s/blog_7103b28a0102w9tr.html 如有侵权,请留言,立即删除. 1 VC维的描述和理解 给定一个集合S={x1,x2,...xd},如果一个假设类H(hypothesis h ∈ H)能够实现集合S中所有元素的任意一种标记方式,则称H能够打散S.有了打散的定义,就得到VC维的定义:H的VC维表示能够被H打散的最大集合的大小.若H能分散任意大小的集合,那么VC(H)为无穷大. ​VC维反应的是hypothesis…
参考<机器学习导论> 假设我们有一个数据集,包含N个点.这N个点可以用2N种方法标记为正例和负例.因此,N个数据点可以定义2N种不同的学习问题.如果对于这些问题中的任何一个,我们都能够找到一个假设h属于H,将正例和负例分开,那么我们就称H散列N个点.也就是说,可以用N个点定义的任何学习问题都能够用一个从H中抽取的假设无误差地学习.可以被H散列的点的最大数量称为H的VC维,记为VC(H),它度量假设类H的学习能力. 通常我更喜欢用自由度来近似表达假设类的学习能力. 通常,在实际生活中,世界是平滑…
vc理论(Vapnik–Chervonenkis theory )是由 Vladimir Vapnik 和 Alexey Chervonenkis发明的.该理论试图从统计学的角度解释学习的过程.而VC维是VC理论中一个很重要的部分. 定义:对一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的 种形式分开,则称函数集能够把h个样本打散;函数集的VC维就是它能打散的最大样本数目h.若对任意数目的样本都有函数能将它们打散,则函数集的VC维是无穷大. VC维反映了函数集的学习能力,VC维越…
机器学习基石 5 Training versus Testing Recap and Preview 回顾一下机器学习的流程图: 机器学习可以理解为寻找到 \(g\),使得 \(g \approx f\),也就是 \(E_{out}(g) \approx 0\) 的过程.为了完成这件事情,有两个关键的步骤,一个是保证 \(E_{out}(g) \approx E_{in}(g)\),另一个是保证 \(E_{in}(g) \approx 0\) (这两件事情通常由 "训练" 以及 &qu…
机器学习基石 3 Types of Learning Learning with Different Output Space Learning with Different Data Label Learning with Different Protocol Learning with Different Input Space…
机器学习基石 2 Learning to Answer Yes/No Perceptron Hypothesis Set 对于一个线性可分的二分类问题,我们可以采用感知器 (Perceptron)这种假设集. 这种模型可以用下面的表达式表示出来: 其中不同的向量 \(w\) 代表了不同的假设函数 \(h(x)\),我们的目标是使用一些算法调整 \(w\) 的值,使得假设函数 \(h(x)\) 与我们要预测的函数 \(f(x)\) 尽可能的接近. 我们的想法是:如果 \(h(x)\) 与 \(f(…
机器学习基石 1 The Learning Problem Introduction 什么是机器学习 机器学习是计算机通过数据和计算获得一定技巧的过程. 为什么需要机器学习 1 人无法获取数据或者数据信息量特别大: 2 人的处理满足不了需求. 使用机器学习的三个关键要素 1 存在一个模式可以让我们对它进行改进: 2 规则不容易定义: 3 需要有数据. Components of Machine Learning Machine Learning and Other Fields ML VS DM…