本文主要解说局部加权(线性)回归。在解说局部加权线性回归之前，先解说两个概念：欠拟合、过拟合。由此引出局部加权线性回归算法。

欠拟合、过拟合

例如以下图中三个拟合模型。第一个是一个线性模型。对训练数据拟合不够好，损失函数取值较大。如图中第二个模型，假设我们在线性模型上加一个新特征

x%5E%7B2%7D" alt="" style="border:0px">项，拟合结果就会好一些。

图中第三个是一个包括5阶多项式的模型，对训练数据差点儿完美拟合。

模型一没有非常好的拟合训练数据，在训练数据以及在測试数据上都存在较大误差。这样的情况称之为欠拟合（underfitting）。

模型三对训练数据拟合的非常不错，可是在測试数据上的精确度并不理想。这样的对训练数据拟合较好。而在測试数据上精确度较低的情况称之为过拟合（overfitting）。

局部加权线性回归（Locally weighted linear regression，LWR）

从上面欠拟合和过拟合的样例中我们能够体会到，在回归预測模型中。预測模型的精确度特别依赖于特征的选择。特征选择不合适。往往会导致预測结果的天差地别。局部加权线性回归非常好的攻克了这个问题，它的预測性能不太依赖于选择的特征，又能非常好的避免欠拟合和过拟合的风险。

在理解局部加权线性回归前，先回顾一下线性回归。

线性回归的损失函数把训练数据中的样本看做是平等的，并没有权重的概念。

线性回归的具体请參考《线性回归、梯度下降》，它的主要思想为：

而局部加权线性回归，在构造损失函数时增加了权重w，对距离预測点较近的训练样本给以较高的权重，距离预測点较远的训练样本给以较小的权重。权重的取值范围是(0,1)。

局部加权线性回归的主要思想是：

当中如果权重 $w^{(i)}$ 符合公式

公式中权重大小取决于预測点x与训练样本 $x^{(i)}$ 的距离。假设| $x^{(i)}$ -
x|较小，那么取值接近于1，反之接近0。參数τ称为bandwidth。用于控制权重的变化幅度。

局部加权线性回归长处是不太依赖特征选择。并且仅仅须要用线性模型就训练出不错的拟合模型。

可是因为局部加权线性回归是一个非參数学习算法，损失数随着预測值的不同而不同，这样θ无法事先确定。每次预測时都须要扫描全部数据又一次计算θ，所以计算量比較大。

局部加权回归、欠拟合、过拟合 - Andrew Ng机器学习公开课笔记1.3的更多相关文章

Andrew Ng机器学习公开课笔记 -- 线性回归和梯度下降
网易公开课,监督学习应用.梯度下降 notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf 线性回归(Linear Regression) 先看个 ...
Andrew Ng机器学习公开课笔记 -- Regularization and Model Selection
网易公开课,第10,11课 notes,http://cs229.stanford.edu/notes/cs229-notes5.pdf Model Selection 首先需要解决的问题是,模型 ...
Andrew Ng机器学习公开课笔记 -- Mixtures of Gaussians and the EM algorithm
网易公开课,第12,13课 notes,7a, 7b,8 从这章开始,介绍无监督的算法对于无监督,当然首先想到k means, 最典型也最简单,有需要直接看7a的讲义 Mixtures of G ...
Andrew Ng机器学习公开课笔记 -- Generalized Linear Models
网易公开课,第4课 notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf 前面介绍一个线性回归问题,符合高斯分布一个分类问题,logstic回 ...
Andrew Ng机器学习公开课笔记 -- Logistic Regression
网易公开课,第3,4课 notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf 前面讨论了线性回归问题, 符合高斯分布,使用最小二乘来作为损失函数 ...
Andrew Ng机器学习公开课笔记–Principal Components Analysis (PCA)
网易公开课,第14, 15课 notes,10 之前谈到的factor analysis,用EM算法找到潜在的因子变量,以达到降维的目的这里介绍的是另外一种降维的方法,Principal Compo ...
Andrew Ng机器学习公开课笔记 – Factor Analysis
网易公开课,第13,14课 notes,9 本质上因子分析是一种降维算法参考,http://www.douban.com/note/225942377/,浅谈主成分分析和因子分析把大量的原始变量, ...
Andrew Ng机器学习公开课笔记 -- 学习理论
网易公开课,第9,10课 notes,http://cs229.stanford.edu/notes/cs229-notes4.pdf 这章要讨论的问题是,如何去评价和选择学习算法 Bias/va ...
Andrew Ng机器学习公开课笔记 -- 支持向量机
网易公开课,第6,7,8课 notes,http://cs229.stanford.edu/notes/cs229-notes3.pdf SVM-支持向量机算法概述, 这篇讲的挺好,可以参考先继 ...

随机推荐

s5pv210 uboot-2012-10移植(二) 之能够启动进入控制台
这次我们将从官网下载的最新uboot-2012-10移植到s5pv210开发板上,让其进入控制台,效果如下: 首先,我暂时没采用内核的SPL,这个将在后面给补上,这里的BL1是我自己参考资料写的,我用 ...
通过rpm安装jdk
通过rpm安装,安装在/usr/local 1 .编辑系统环境变量 vi /etc/profile 输入i 加入内容如下: export JAVA_HOME=/usr/local/jdk1.7.0_7 ...
android startservice无法启动服务
1.android startservice无法启动服务之前MainActivity.java中启动service源代码如下: private void startMyService() { //启 ...
windows下使用libsvm3.2
一.官方介绍 libsvm主页:https://www.csie.ntu.edu.tw/~cjlin/libsvm/index.html libsvm介绍文档:http://www.csie.ntu. ...
Spring Cloud Feign 出现ClassNotFoundException: feign.Feign$Builder错误
Spring Cloud Feign 出现ClassNotFoundException: feign.Feign$Builder错误后来发现是POM文件写错了,修改为正确的pom,就可以了: POM ...
POJ-1785-Binary Search Heap Construction(笛卡尔树)
Description Read the statement of problem G for the definitions concerning trees. In the following w ...
Remove Duplicates from Sorted List II 解答(有个比較特殊的case leetcode OJ没有覆盖)
昨天被考了一道数据结构题,当时的实现比較一般.回来翻看leetcode,果然是上面的题.遂解之. accept之后翻看discuss别人的解法.发现非常多能够accept的代码都过不了我设计的一个ca ...
vargrind 安卓apk
上层为安卓, 下层为调用c/c++ 库 1.将vargind 按官网方法下载源代码编译得Inst文件夹 2.通过win 下安卓sdk 中 platform-tools 中的adb push Ins ...
Android_通过Bugtags平台，方便測试人员提交bug及整个bug系统的管理
Bugtags 是什么? Bugtags 是一款缺陷发现及管理工具. 当您的 App 集成了 Bugtags SDK 后,測试人员就可直接在 App 里所见即所得的提交 Bug. SDK 会自己主动截 ...
在Redhat Linux中执行非Redhat的Openstack, Redhat将对其Linux不提供支持
一声叹息. IBM.HP.Dell, Mirantis, Piston等.请问.你们还把你们的Openstack部署在Redhat中吗? http://blogs.wsj.com/digits/201 ...

局部加权回归、欠拟合、过拟合 - Andrew Ng机器学习公开课笔记1.3

欠拟合、过拟合

局部加权线性回归（Locally weighted linear regression，LWR）

局部加权回归、欠拟合、过拟合 - Andrew Ng机器学习公开课笔记1.3的更多相关文章

随机推荐

热门专题