机器学习基石7-The VC Dimension】的更多相关文章

注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 前几节课着重介绍了机器能够学习的条件并做了详细的推导和解释.机器能够学习必须满足两个条件: 当假设空间\(\mathcal{H}\)的Size M是有限的时候,则\(N\)足够大的时候,对于假设空间中任意一个假设\(g\),都有\(E_{out}\approx E_{in}\) . 利用算法A从假设空间\(\mathcal{H}\)中,挑选一个\(g\),使\(E_{in}(g)\ap…
首先回顾上节课末尾引出来的VC Bound概念,对于机器学习来说,VC dimension理论到底有啥用. 三点: 1. 如果有Break Point证明是一个好的假设集合 2. 如果N足够大,那么Ein跟Eout的表现会比较接近 3. 如果算法A选的g足够好(Ein很小),则可能从数据中学到了东西 ================================================== 现在正式引出VC Dimension的概念:啥叫VC Dimension: VC Dimensi…
vc demension定义: breakPoint - 1 N > vc dimension, 任意的N个,就不能任意划分 N <= vc dimension,存在N个,可以任意划分 只要vc dimension是finite,那么H就比较好. Perceptron Learning Algo 多维度也行么?vc dimension是多少么?d维的, Dvc = d + 1 要证明! Dvc >= d+1, 存在d+1个点,可以被shatter. 原点,加上每个分量为1, 加上常数项,…
本章的思路在于揭示VC Dimension的意义,简单来说就是假设的自由度,或者假设包含的feature vector的个数(一般情况下),同时进一步说明了Dvc和,Eout,Ein以及Model Complexity Penalty的关系. 一回顾 由函数B(N,k)的定义,可以得到比较松的不等式mh(N)小于等于N^(k-1)(取第一项). 这样就可以把不等式转化为仅仅只和VC Dimension和N相关了,从而得出如下结论: 1 mh(N)有break point k,那么其就是多项式级别…
注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 上一节课介绍了分类问题的三种线性模型,可以用来解决binary classification和multiclass classification问题.本节课主要介绍非线性的模型来解决分类问题. 一.Quadratic Hypothesis 之前介绍的线性模型,在2D平面上是一条直线,在3D空间中是一个平面.数学上,我们用线性得分函数\(s\)来表示:\(s=w^Tx\) .其中,\(x…
注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 上一节课,我们主要介绍了VC Dimension的概念.如果Hypotheses set的VC Dimension是有限的,且有足够多的资料\(N\),同时能够找到一个hypothesis使它的\(E_{in}\approx 0\),那么就能说明机器学习是可行的.本节课主要讨论数据集有Noise的情况下,是否能够进行机器学习,并且介绍了假设空间H下演算法\(\mathcal{A}\)的…
注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 上一节课,我们介绍了Logistic Regression问题,建立cross-entropy error,并提出使用梯度下降算法gradient descent来获得最好的logistic hypothesis.本节课继续介绍使用线性模型来解决分类问题. 一.Linear Models for Binary Classification 之前介绍的几种线性模型都有一个共同点,就是都有…
注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 上节课,主要介绍了在有noise的情况下,VC Bound理论仍然是成立的.同时,介绍了不同的error measure方法.本节课介绍机器学习最常见的一种算法:Linear Regression. 一.线性回归问题 在之前的Linear Classification课程中,讲了信用卡发放的例子,利用机器学习来决定是否给用户发放信用卡.本节课仍然引入信用卡的例子,来解决给用户发放信用卡…
紧接上一讲的Break Point of H.有一个非常intuition的结论,如果break point在k取到了,那么k+1, k+2,... 都是break point. 那么除此之外,我们还能获得那些讯息? 这里举了一些例子,核心就是说下面的事情 简言之,如果H有Break Point k,那么当N大于k的时候,mH(N)会大大地缩减(对于binary classification来说是pow(2, N) ). 按照这个思路,自然就想知道,既然mH(N)会大大缩减,能缩减到啥程度?(如…
(1)定义VC Dimension: dichotomies数量的上限是成长函数,成长函数的上限是边界函数: 所以VC Bound可以改写成: 下面我们定义VC Dimension: 对于某个备选函数集H,VC Dimension就是它所能shatter的最大数据个数N.VC Dimension = minimum break point - 1.所以在VC Bound中,(2N)^(k-1)可以替换为(2N)^(VC Dimension).VC Dimension与学习算法A,输入分布P,目标…