LARS 最小角回归算法简介

最近开始看Elements of Statistical Learning，今天的内容是线性模型（第三章。。这本书东西非常多，不知道何年何月才能读完了），主要是在看变量选择。感觉变量选择这一块领域非常有意思，而大三那门回归分析只是学了一些皮毛而已。过两天有空，记一些ESL这本书里讲的各种变量选择方法在这里。

先讲一下今天看到的新方法，所谓的LARS（Least Angle Regression）。

LARS是大神Efron他们搞出来做变量选择的一套算法，有点像Forward Stepwise（向前逐步回归），但和Forward Stepwise不同点在于，Forward Stepwise每次都是根据选择的变量子集，完全拟合出线性模型，计算出RSS，再设计统计量（如AIC）对较高的模型复杂度作出惩罚，而LARS是每次先找出和因变量相关度最高的那个变量, 再沿着LSE的方向一点点调整这个predictor的系数，在这个过程中，这个变量和残差的相关系数会逐渐减小，等到这个相关性没那么显著的时候，就要选进新的相关性最高的变量，然后重新沿着LSE的方向进行变动。而到最后，所有变量都被选中，估计就和LSE相同了。

LARS的算法实际执行步骤如下：

1. 对Predictors进行标准化（去除不同尺度的影响），对Target Variable进行中心化（去除截距项的影响），初始的所有系数都设为0，此时残差 r 就等于中心化后的Target Variable

2. 找出和残差r相关度最高的变量X_j

3. 将X_j的系数Beta_j 从0开始沿着LSE（只有一个变量X_j的最小二乘估计）的方向变化，直到某个新的变量X_k与残差r的相关性大于X_j时

4. X_j和X_k的系数Beta_j和Beta_k，一起沿着新的LSE（加入了新变量X_k的最小二乘估计）的方向移动，直到有新的变量被选入

5. 重复2，3，4，直到所有变量被选入，最后得到的估计就是普通线性回归的OLS

从上面这个算法可以看出，LARS这个东西明显和OLS, Ridge Regression等给出了Closed-form solutions的模型不同，而是给出了一套对计算机来说非常友好的算法。这也说明了随着计算机能力的强大，现代统计基本上越来越靠近算法，而和模型无关。

这个算法看完以后，我就试图用R实现这套算法，最后还没有美化过的效果图如下，左边是后来找到的Efron他们写的lars包做出来的效果，乍看之下还是很像，但是我发现有一些地方貌似有出入（我的程序似乎有一些变量过早地被选入了。。），目前还不知道哪里出了错，回头仔细看看。至于代码神马的，由于写的太乱了，过两天写的好看一点再发上来.

参考文献：

http://blog.sina.com.cn/s/blog_61f1db170101ca8i.html

LARS 算法简介：https://cosx.org/2011/04/an-introduction-to-lars

热门数据挖掘模型应用入门（一）: LASSO 回归，https://cosx.org/2016/10/data-mining-1-lasso/

LARS 最小角回归算法简介的更多相关文章

Lasso回归算法：坐标轴下降法与最小角回归法小结
前面的文章对线性回归做了一个小结,文章在这: 线性回归原理小结.里面对线程回归的正则化也做了一个初步的介绍.提到了线程回归的L2正则化-Ridge回归,以及线程回归的L1正则化-Lasso回归.但是对 ...
机器学习方法：回归（三）：最小角回归Least Angle Regression（LARS），forward stagewise selection
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 希望与志同道合的朋友一起交流,我刚刚设立了了一个技术交流QQ群:433250724,欢迎对算法.技术.应用感 ...
A-06 最小角回归法
目录最小角回归法一.举例二.最小角回归法优缺点 2.1 优点 2.2 缺点三.小结更新.更全的<机器学习>的更新网站,更有python.go.数据结构与算法.爬虫.人工智能教学等 ...
最小角回归 LARS算法包的用法以及模型参数的选择（R语言）
Lasso回归模型,是常用线性回归的模型,当模型维度较高时,Lasso算法通过求解稀疏解对模型进行变量选择.Lars算法则提供了一种快速求解该模型的方法.Lars算法的基本原理有许多其他文章可以参考, ...
从最小角回归(LARS)中学到的一个小知识(很短)
[转载请注明出处]http://www.cnblogs.com/mashiqi (居然有朋友说内容不接地气,那么我就再加一段嘛,请喜欢读笑话的同学直接看第二段)假设这里有一组向量$\left\{ x_ ...
Spark MLlib回归算法------线性回归、逻辑回归、SVM和ALS
Spark MLlib回归算法------线性回归.逻辑回归.SVM和ALS 1.线性回归: (1)模型的建立: 回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多 ...
Gradient Boosting算法简介
最近项目中涉及基于Gradient Boosting Regression 算法拟合时间序列曲线的内容,利用python机器学习包 scikit-learn 中的GradientBoostingReg ...
webrtc 的回声抵消(aec、aecm)算法简介(转)
webrtc 的回声抵消(aec.aecm)算法简介 webrtc 的回声抵消(aec.aecm)算法主要包括以下几个重要模块:1.回声时延估计 2.NLMS(归一化最小均方自适应算法) ...
机器学习之logistic回归算法与代码实现原理
Logistic回归算法原理与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10033567.html ...

随机推荐

Excel坐标自动在AutoCad绘图_4
众所周知,Excel对数据处理的功能非常强大,它可以进行数据处理.统计分析已经辅助决策的操作,该软件已经渗透到各个领域.作为一个测绘人,GISer, 也经常利用excel完成一些测量表格的自动化计算, ...
【SparkStreaming学习之二】 SparkStreaming算子操作
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark ...
JVM内存回收机制——哪些内存需要被回收（JVM学习系列2）
上一篇文章中讨论了Java内存运行时的各个区域,其中程序计数器.虚拟机栈.本地方法栈随线程生灭,且创建时需要多少内存,基本上在译期间就决定的了,所以在内存回收时无需特殊的关注.而堆和方法区则不同,首先 ...
Ping 命令实战小结--TCP/IP协议学习
2011-12-22 22:38:49 图1 图2 一,环境说明硬件连线.PC与2440开发板直接用网线连接. PC的ip地址:192.168.0.107.2440开发板的ip地址:192.168. ...
web 分享到facebook
利用meta 使自己的页面变为一种富媒体文件,利用facebook的 open Graph 比如你的html页面想要以图片的形式被分享 <meta property="og:image ...
Vue入门：Vue项目创建及启动
1. 创建Vue项目存放地址用于存放Vue项目,找个自己处理方便的地方.本人地址:D:\Program Files\Workspace\Vue 2. 创建项目进入cmd窗口进入项目存放地址执行 ...
python源码为何都是pass
最近看Python代码按照一个函数递进的看下去,最后发现,遇到很多源码什么逻辑都没写,仅仅以一个pass 结尾但却能得到应该得到的结果,这点真的很奇怪,上网查找后觉得下面的 ...
hiho一下第207周
题目1 : The Lastest Time 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 What is latest time you can make with ...
在vim下打开终端
注意:仅在vim8.1下可用使用方法: :term 打开默认的终端如果是linux,或者使用wsl, :term bash Ctrl+W/Ctrl+N 将终端设置成normal模式
【题解】Luogu P3674 小清新人渣的本愿
原题传送门这题还算简单(我记得我刚学oi时就来写这题,然后暴力都爆零了) 看见无修改,那么这题应该是莫队维护两个bitset,第二个是第一个的反串,bitset内维护每个数字是否出现过第一种操作 ...

LARS 最小角回归算法简介

LARS 最小角回归算法简介的更多相关文章

随机推荐

热门专题