机器学习基石：08 Noise and Error

【机器学习基石：08 Noise and Error】的更多相关文章

机器学习基石：08 Noise and Error

噪声:误标.对同一数据点的标注不一致.数据点信息不准确...... 噪声是针对整个输入空间的. 存在噪声的情况下,VC bound依旧有用: 存在噪声,就是f------>p(y|x),f是p的特殊情况:如p(0|x)=1,p(1|x)=0. VC bound本身就不管f的. 其实,推VC bound的时候第3步使用的是不放回的霍夫丁不等式,不要求独立同分布. 参照口袋算法,可以表明存在噪声情况下,VC bound依旧有用. 错误/代价:分类常用0/1错误,回归常用均方误差. false pos…

机器学习基石笔记：08 Noise and Error

噪声:误标.对同一数据点的标注不一致.数据点信息不准确...... 噪声是针对整个输入空间的. 存在噪声的情况下,VC bound依旧有用: 存在噪声,就是f------>p(y|x),f是p的特殊情况:如p(0|x)=1,p(1|x)=0. VC bound本身就不管f的. 其实,推VC bound的时候第3步使用的是不放回的霍夫丁不等式,不要求独立同分布. 参照口袋算法,可以表明存在噪声情况下,VC bound依旧有用. 错误/代价:分类常用0/1错误,回归常用均方误差. false pos…

08 Noise and Error

噪声:误标.对同一数据点的标注不一致.数据点信息不准确... 噪声是针对整个输入空间的. 存在噪声的情况下,VC bound依旧有用: 存在噪声,就是f--->p(y|x),f是p的特殊情况:如p(O|x)=1,p(X|x)=0. VC bound本身就不管f的. 其实,推VC bound的时候第3步使用的是不放回的霍夫丁不等式,不要求独立同分布. 参照口袋算法,可以表明存在噪声情况下,VC bound依旧有用. 错误/代价:分类常用0/1错误,回归常用均方误差. false positive/…

机器学习基石8-Noise and Error

注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头微信公众号:AI有道上一节课,我们主要介绍了VC Dimension的概念.如果Hypotheses set的VC Dimension是有限的,且有足够多的资料\(N\),同时能够找到一个hypothesis使它的\(E_{in}\approx 0\),那么就能说明机器学习是可行的.本节课主要讨论数据集有Noise的情况下,是否能够进行机器学习,并且介绍了假设空间H下演算法\(\mathcal{A}\)的…

机器学习基石9-Linear Regression

注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头微信公众号:AI有道上节课,主要介绍了在有noise的情况下,VC Bound理论仍然是成立的.同时,介绍了不同的error measure方法.本节课介绍机器学习最常见的一种算法:Linear Regression. 一.线性回归问题在之前的Linear Classification课程中,讲了信用卡发放的例子,利用机器学习来决定是否给用户发放信用卡.本节课仍然引入信用卡的例子,来解决给用户发放信用卡…

关于Noise and Error主题的一些小知识

(一)Noise会不会对VC bound产生影响? 此笔记源于台湾大学林轩田老师<机器学习基石><机器学习技法> 答案是不会. 当信号中加入了Noise,其实对我们之前学过的内容不产生任何本质上的影响. 之前<机器学习真的起作用吗?>中的分析是基于:training dataset D的来源是:(x,f(x)).其中x从服从某一概率分布P. 现在noise对数据产生了什么影响?之前,f(x)是确定的.现在f(x)不确定了.因为Noise的存在会影响f(x)的值.此时y更…

机器学习基石11-Linear Models for Classification

注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头微信公众号:AI有道上一节课,我们介绍了Logistic Regression问题,建立cross-entropy error,并提出使用梯度下降算法gradient descent来获得最好的logistic hypothesis.本节课继续介绍使用线性模型来解决分类问题. 一.Linear Models for Binary Classification 之前介绍的几种线性模型都有一个共同点,就是都有…

机器学习基石10-Logistic Regression

注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头微信公众号:AI有道上一节课介绍了Linear Regression线性回归,用均方误差来寻找最佳的权重向量\(w\),获得最好的线性预测.本节课将介绍Logistic Regression逻辑回归问题. 一.Logistic Regression Problem 一个心脏病预测的问题:根据患者的年龄.血压.体重等信息,来预测患者是否会有心脏病.很明显这是一个二分类问题,其输出\(y\)只有\({0,1}…

机器学习基石 5 Training versus Testing

机器学习基石 5 Training versus Testing Recap and Preview 回顾一下机器学习的流程图: 机器学习可以理解为寻找到 \(g\),使得 \(g \approx f\),也就是 \(E_{out}(g) \approx 0\) 的过程.为了完成这件事情,有两个关键的步骤,一个是保证 \(E_{out}(g) \approx E_{in}(g)\),另一个是保证 \(E_{in}(g) \approx 0\) (这两件事情通常由 "训练" 以及 &qu…

机器学习基石 4 Feasibility of Learning

机器学习基石 4 Feasibility of Learning Learning is Impossible? 机器学习:通过现有的训练集 \(D\) 学习,得到预测函数 \(h(x)\) 使得它接近于目标函数 \(f(x)\). 问题:这种预测是可能的么?其泛化性的本质是什么?是什么保证了 \(h(x) \approx f(x)\) ? Probability to the Rescue 情景:有一个装有很多很多珠子的罐子,珠子的颜色是橙色和绿色,那么我们可以通过抽样的方法来估计橙色珠子的比…