鲁棒局部加权回归 [转载时请注明来源]:http://www.cnblogs.com/runner-ljt/ Ljt 作为一个初学者,水平有限,欢迎交流指正. 算法参考文献: (1) Robust Locally Weighted Regression and Smoothing Scatterplots (Willism_S.Cleveland) (2) 数据挖掘中强局部加权回归算法实现 (虞乐,肖基毅) R实现 #Robust Locally Weighted Regression 鲁棒局部…
简单回顾一下线性回归.我们使用了如下变量:\(x\)—输入变量/特征:\(y\)—目标变量:\((x,y)\)—单个训练样本:\(m\)—训练集中的样本数目:\(n\)—特征维度:\((x^{(i)},y^{(i)})\)—第\(i\)个训练样本.在接下来的内容中,仍沿用这些标识.我们给定的模型假设为: \begin{equation}h_{\theta}(x)=\theta_0+\theta_1x_1+\cdots+\theta_nx_n=\sum_{i=1}^n\theta_ix_i=\th…
1. LOWESS 用kNN做平均回归: \[ \hat{f(x)} = Ave(y_i | x_i \in N_k(x)) \] 其中,\(N_k(x)\)为距离点x最近k个点组成的邻域集合(neighborhood set).这种邻域平均回归存在很多缺点: 没有考虑到不同距离的邻近点应有不同的权重: 拟合的曲线不连续(discontinuous),如下图. 因此引入kernel加权平滑: \[ \hat{f(x_0)} = \frac{ \sum_{i=1}^{N} K_{\lambda}(…
  局部加权线性回归  [转载时请注明来源]:http://www.cnblogs.com/runner-ljt/ Ljt 作为一个初学者,水平有限,欢迎交流指正. 线性回归容易出现过拟合或欠拟合的问题. 局部加权线性回归是一种非参数学习方法,在对新样本进行预测时,会根据新的权值,重新训练样本数据得到新的参数值,每一次预测的参数值是不相同的. 权值函数: t用来控制权值的变化速率(建议对于不同的样本,先通过调整t值确定合适的t) 不同t值下的权值函数图像: 局部加权线性回归R实现: #Local…
在此引出另一种模型:Locally weighted regression algorithm(LWLR/LWR),通过名字我们可以推断,这是一种更加关注局部变化的模型.的确如此,在普通的linear regression algorithm中,cost function是完全基于training set的,我们通过算法与training set求出h(x)的参数theta,然后训练结束,此后无论推测多少输出,theta和cost function的形式不再发生任何变化.cost functio…
之前所讨论的梯度下降算法,其算法模型是“线性回归模型”,我们可以理解为变量与因变量之间的关系是线性的.而现实情况是,使用线性模型去描述所有数据,很容易出现欠拟合(underfitting)的情况:同样,如果使用相当复杂的模型去描述数据集中所有的细节,则很容易产生另一种问题:过拟合(overfitting),即过分关注细节而忽略了数据变化的趋势.   所以,我们在此引出另一种模型:Locally weighted regression algorithm(LWLR/LWR),通过名字我们可以推断,…
这篇文章将介绍过拟合和欠拟合的概念,并且介绍局部加权回归算法. 过拟合和欠拟合 之前在线性回归中,我们总是将单独的x作为我们的特征,但其实我们可以考虑将,甚至x的更高次作为我们的特征,那么我们通过线性回归得到的就将是一个多次函数了. 我们可以想象当我们只用x作为我们的特征的时候,我们的数据可能实际呈现的样子是一个二次函数的样子,也就是说我们的假设有一定的问题,那么我们求得的最小二乘值将相当的大了.但是如果我们有10组样本,我们选择一个10次方的特征,那么可以想象,最后我们得到的曲线将是一个能经过…
欠拟合和过拟合 看下方的三张图 第一幅拟合为了 y=θ0+θ1xy=θ0+θ1x 的一次函数 第二幅拟合为了y=θ0+θ1x+θ2x2y=θ0+θ1x+θ2x2 的二次函数 第三幅拟合为了 y=∑5j=0θjxjy=∑j=05θjxj的五次项函数 最左边的分类器模型没有很好地捕捉到数据特征,不能够很好地拟合数据,我们称为欠拟合 而最右边的分类器分类了所有的数据,也包括噪声数据,由于构造复杂,后期再分类的新的数据时,对于稍微不同的数据都会识别为不属于此类别,我们称为过拟合 局部加权回归 局部加权回…
(一)局部加权回归 通常情况下的线性拟合不能很好地预测所有的值,因为它容易导致欠拟合(under fitting).如下图的左图.而多项式拟合能拟合所有数据,但是在预测新样本的时候又会变得很糟糕,因为它导致数据的 过拟合(overfitting),不符合数据真实的模型.如下图的右图. 下面来讲一种非参数学习方法——局部加权回归(LWR).为什么局部加权回归叫做非参数学习方法呢?首先,参数学习方法是这样一种方法:在训练完成所有数据后得到一系列训练参数,然后根据训练参数来预测新样本的值,这时不再依赖…
课程大纲 欠拟合的概念(非正式):数据中某些非常明显的模式没有成功的被拟合出来.如图所示,更适合这组数据的应该是而不是一条直线. 过拟合的概念(非正式):算法拟合出的结果仅仅反映了所给的特定数据的特质. 非参数学习方法 线性回归是参数学习方法,有固定数目的参数以用来进行数据拟合的学习型算法算法称为参数学习方法.对于非参数学习方法来讲,其参数的数量随着训练样本的数目m线性增长:换句话来说,就是算法所需要的东西会随着训练集合线性增长.局部加权回归算法是非参数学习方法的一个典型代表. 局部加权回归算法…