机器学习基石 1 The Learning Problem Introduction 什么是机器学习 机器学习是计算机通过数据和计算获得一定技巧的过程. 为什么需要机器学习 1 人无法获取数据或者数据信息量特别大: 2 人的处理满足不了需求. 使用机器学习的三个关键要素 1 存在一个模式可以让我们对它进行改进: 2 规则不容易定义: 3 需要有数据. Components of Machine Learning Machine Learning and Other Fields ML VS DM…
机器学习的整个过程:根据模型H,使用演算法A,在训练样本D上进行训练,得到最好的h,其对应的g就是我们最后需要的机器学习的模型函数,一般g接近于目标函数f.本节课将继续深入探讨机器学习问题,介绍感知机Perceptron模型,并推导课程的第一个机器学习算法:Perceptron Learning Algorithm(PLA). 一.Perceptron Hypothesis Set 某银行要根据用户的年龄.性别.年收入等情况来判断是否给该用户发信用卡.现在有训练样本D,即之前用户的信息和是否发了…
三个理论上界: 三个线性模型: 三个关键工具: 三条学习规则: 1.奥卡姆剃刀定律 先从简单模型开始, 训练后出现欠拟合, 再尝试复杂点模型. 2.采样误差 训练.验证.测试数据尽量同分布. 3.数据偷看 找到折中方法.…
三个理论上界: 三个线性模型: 三个关键工具: 三条学习规则: 1.奥卡姆剃刀定律 先从简单模型开始, 训练后出现欠拟合, 再尝试复杂点模型. 2.采样误差 训练.验证.测试数据尽量同分布. 3.数据偷看 找到折中方法.…
Perceptron Learning Algorithm 感知器算法, 本质是二元线性分类算法,即用一条线/一个面/一个超平面将1,2维/3维/4维及以上数据集根据标签的不同一分为二. 算法确定后,根据W取值的不同形成不同的h,构成假设集合H. 如2维感知器算法,根据w0,w1,w2的不同取值,构成了不同的h,这些h最终构成H.注意为了方便表示,将阈值的相反数记为w0,对应的数据点增加一维x0,恒为1. 而算法就是根据给定数据集D从H中选出与目标模式f最为相似的g. 更新规则/学习过程, 遍历…
由于前面分享的几篇博客已经把其他题的解决方法给出了链接,而这道题并没有,于是这里分享一下: 原题: 这题说白了就是求一个二维平面上的数据用决策树来分开,这就是说平面上的点只能画横竖两个线就要把所有的点SATTER掉,先给出四个点的情况,如下: 第一种分割方式: 第二种分割方式 第三种分割方式   为第一种的  上下导致. 第四种分割方式   为第二种的  上下导致. 第 5 6 7 8 分别为  第1 2 3 4 种中正负点的互换, 以此方式,我们可以画出  16种,这里不全部给出了. 由此可以…
这里写的是  习题1 中的    18 , 19, 20 题的解答. Packet 方法,我这里是这样认为的,它所指的贪心算法是不管权重更新是否会对train data有改进都进行修正,因为这里面没有区分是否可以线性分割,如果线性可分那么每次的更新都注定是要使train data的分割效果得到提升,但是如果不是线性可分的,那么并不是每次的权重修正都可以使效果得到提升. 这时候的贪心算法是指不考虑每次权重的修正是否可以使优化效果得到提升,有错误的分割则进行一次权重修正.这种情况下我们不能保证一定会…
(转载)林轩田机器学习基石课程学习笔记1 - The Learning Problem When Can Machine Learn? Why Can Machine Learn? How Can Machine Learn? How Can Machine Learn Better? 每个部分由四节课组成,总共有16节课.那么,从这篇开始,我们将连续对这门课做课程笔记,共16篇,希望能对正在看这们课的童鞋有所帮助.下面开始第一节课的笔记:The Learning Problem. 一.What…
机器学习基石 4 Feasibility of Learning Learning is Impossible? 机器学习:通过现有的训练集 \(D\) 学习,得到预测函数 \(h(x)\) 使得它接近于目标函数 \(f(x)\). 问题:这种预测是可能的么?其泛化性的本质是什么?是什么保证了 \(h(x) \approx f(x)\) ? Probability to the Rescue 情景:有一个装有很多很多珠子的罐子,珠子的颜色是橙色和绿色,那么我们可以通过抽样的方法来估计橙色珠子的比…
机器学习基石 3 Types of Learning Learning with Different Output Space Learning with Different Data Label Learning with Different Protocol Learning with Different Input Space…