坐标下降法（coordinate descent method）求解LASSO推导

LASSO在尖点是singular的，因此传统的梯度下降法、牛顿法等无法使用。常用的求解算法有最小角回归法、coordinate descent method等。
由于coordinate descent method是相对较简单的做法，放在第一个介绍。

坐标下降法思想

坐标下降法基于的思想很简单，就是当面对最小化一个多元函数的问题时，我们每一次迭代的时候只改变一个目标变量的值。也就是固定其他变量不动，只在该变量的维度上寻找一个使函数最小的值。这种思想类似于贪心算法。

推导过程

定义Loss function为：
\[
\frac{1}{N}\sum_{i=1}^{N}(y_i-x_i^T\cdot \beta)
\]
其中，\(x_i\)是p·1维的向量，\(\beta\)是p·1维的向量。

Penalty为Lasso penalty：
\[
\sum_{j=1}^p|\beta_j|
\]
定义超参数为\(\lambda\)

目标函数为：
\[
L=\frac{1}{N}\sum_{i=1}^{N}(y_i-x_i^T\cdot \beta+\lambda\sum_{j=1}^p|\beta_j|)
\]
应用坐标下降法的思想，我们固定住\(x_k\ne x_j\)的变量，然后在每一轮迭代中只优化\(x_j\)。

可以采用的迭代顺序是从j=1依次到p进行迭代，然后再从j=1开始。

当固定住其他变量时，求object function的极小值就等价于求解一元LASSO的问题。
\[L=\frac{1}{N}\sum_{i=1}^{N}(r_i-\beta_jx_{ji})^2+\lambda \beta_j \tag{1}\]

其中，\(r_i=y_i-\sum_{k\ne j}x_{ik}\beta_k\)，也就是只用其他变量拟合y的残差。

将式1稍微化简一下，可以得到：
\[
L=\beta_j^2\frac{\sum_{i=1}^{N}x_{ji}^2}{N}-2\beta_j\frac{\sum_{i=1}^{N}r_ix_{ji}}{N}+\frac{\sum_{i=1}^{N}r_i^2}{N}+\lambda{|\beta_j|}
\]
这是一个二次函数。由于涉及到绝对值，我们需要分两个区间讨论：\(\beta_j<0\)和\(\beta_j>0\)

相当于我们将\(\beta_j\)的取值划成了两个空间，分别讨论极值。最后的极值是把这两个空间的极值再取最小值。

第一个区间， \(\beta_j>0\)
可以观察到object function是一个开口向上二次函数，全局最小点在\(\beta_j=\frac{2\frac{\sum r_ix_i}{N}-\lambda}{2\sum x_i^2}{N}\)处取得。
但是我们这时的定义域限制在 \(\beta_j>0\)，因此需要分类讨论是否能取全局最小点：
\[
if (2\frac{\sum r_ix_i}{N}-\lambda>0):\\
{\beta_j^{*}=\frac{2\frac{\sum r_ix_i}{N}-\lambda}{2\sum x_i^2}{N}}\\
Else:\\
{\beta_j^{*}=0}
\]
第二个区间，\(\beta_j<0\)
全局最小点在\(\beta_j=\frac{2\frac{\sum r_ix_i}{N}+\lambda}{2\sum x_i^2}{N}\)处取得。

但是我们这时的定义域限制在 \(\beta_j<0\)，因此需要分类讨论是否能取全局最小点：
\[
if (2\frac{\sum r_ix_i}{N}+\lambda<0):\\
{\beta_j^{*}=\frac{2\frac{\sum r_ix_i}{N}+\lambda}{2\sum x_i^2}{N}}\\
Else:\\
{\beta_j^{*}=0}
\]

综合上面的讨论，

case1：\(2\frac{\sum r_ix_i}{N}<-\lambda\)
\(\beta_j^{*}=\frac{2\frac{\sum r_ix_i}{N}+\lambda}{2\sum x_i^2}{N}\)
case2：\(-\lambda<2\frac{\sum r_ix_i}{N}<\lambda\)
\(\beta_j^{*}=0\)
case3：\(\lambda<2\frac{\sum r_ix_i}{N}\)
\(\beta_j^{*}=\frac{2\frac{\sum r_ix_i}{N}-\lambda}{2\sum x_i^2}{N}\)

定义一个软阈值函数来统一三个case

\[
\beta_j^{*}=\frac{\text{soft threshold}({2\frac{\sum r_ix_i}{N},\lambda)}}{2\frac{\sum x_i^2}{N}}
\]

comment

对于用L2 loss function作为损失函数的回归问题，由于object function是关于\(\beta\)的凸函数，因此我们一定可以找到一个全局最优点。迭代过程是收敛的。

坐标下降法（coordinate descent method）求解LASSO的推导的更多相关文章

V-rep学习笔记：机器人逆运动学数值解法（Cyclic Coordinate Descent Method）
When performing inverse kinematics (IK) on a complicated bone chain, it can become too complex for a ...
坐标下降(Coordinate descent)
坐标下降法属于一种非梯度优化的方法,它在每步迭代中沿一个坐标的方向进行线性搜索(线性搜索是不需要求导数的),通过循环使用不同的坐标方法来达到目标函数的局部极小值.
week 5: ;Lasso regression & coordinate descent
笔记. 岭回归, 计算回归系数时使( RSS(w)+λ||w||2) 最小岭回归的结果会是所有的特征的weight都较小,但大多数又不完全为零. 而实际情况中,有的特征的确与输出值相关程度很高,we ...
Lasso回归的坐标下降法推导
目标函数 Lasso相当于带有L1正则化项的线性回归.先看下目标函数:RSS(w)+λ∥w∥1=∑Ni=0(yi−∑Dj=0wjhj(xi))2+λ∑Dj=0∣wj∣RSS(w)+λ∥w∥1=∑i=0 ...
人脸对齐SDM原理----Supervised Descent Method and its Applications to Face Alignment
最近组里研究了SDM算法在人脸对齐中的应用,是CMU的论文<Supervised Descent Method and its Applications to Face Alignment> ...
paper 142：SDM算法--Supervised Descent Method
对于face recognition的研究,我是认真的(认真expression,哈哈哈~~~~~~)许久没有写blog了,欢迎一起讨论. SDM(Supvised Descent Method)方法 ...
梯度下降法Gradient descent（最速下降法Steepest Descent）
最陡下降法(steepest descent method)又称梯度下降法(英语:Gradient descent)是一个一阶最优化算法. 函数值下降最快的方向是什么?沿负梯度方向 d=−gk
machine learning (7)---normal equation相对于gradient descent而言求解linear regression问题的另一种方式
Normal equation: 一种用来linear regression问题的求解Θ的方法,另一种可以是gradient descent 仅适用于linear regression问题的求解,对其 ...
（3）梯度下降法Gradient Descent
梯度下降法不是一个机器学习算法是一种基于搜索的最优化方法作用:最小化一个损失函数梯度上升法:最大化一个效用函数举个栗子直线方程:导数代表斜率曲线方程:导数代表切线斜率导数可以代表方向, ...

随机推荐

统一资源定位符URL
Uniform Resource Locate--URL 用途:通过URL访问web网页:通过URL使用其它的Internet应用程序,例如FTP,Telnet(远程登录服务):对应IE浏览器窗口中的 ...
简单的自动生成二维码 PHP 方法
方法一:<style type="text/css">.eweima{ width:200px; height:200px; margin:auto;}</ ...
如何确保TCP协议传输稳定可靠？
TCP,控制传输协议,它充分实现了数据传输时的各种控制功能:针对发送端发出的数据包确认应答信号ACK:针对数据包丢失或者出现定时器超时的重发机制:针对数据包到达接收端主机顺序乱掉的顺序控制:针对高效传 ...
Python中的函数及函数参数的使用
函数:一个工具,随调随用降级代码冗余增加代码的复用性,提高开发效率,为了不成为cv战士提高程序扩展性函数有两个阶段:定义阶段,调用阶段. 定义时:只检查函数体内代码语法,不执行函数体内代码. ...
web前端css(二)
一. 标准文档流标准文档流中会有一些现象: 空白折叠和高低不齐边底对齐的现象标准文档流等级森严, 标签分为两种等级: 行内元素和块级元素. 1. 行内元素和块级元素的区别: 行内元素 ...
Oracle数据库常用脚本命令（二）
--创建学生信息表create table student( sid number(8,0), name varchar2(20), sex char(2), birthday date, addre ...
C语言学习书籍推荐《你必须知道的495个C语言问题》
萨米特 (Steve summit) (作者), 孙云 (译者), 朱群英 (译者) 下载地址:点我 <你必须知道的495个C语言问题>以问答的形式组织内容,讨论了学习或使用C语言的过程中 ...
两个域名同时访问一个tomcat下的两个项目
两个域名,分别映射一个TOMCAT底下,两个应用. 分三个步骤完成. 1.域名与IP的解析,此步骤在万网等机构完成. 2.APACHE的httpd.conf的配置 <VirtualHost *: ...
Spark 中 RDD的运行机制
1. RDD 的设计与运行原理 Spark 的核心是建立在统一的抽象 RDD 之上,基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成,从而在同一个应用程序中完成大数据计算任务 ...
React躬行记（8）——样式
由于React推崇组件模式,因此会要求HTML.CSS和JavaScript混合在一起,虽然这与过去的关注点分离正好相反,但是更有利于组件之间的隔离.React已将HTML用JSX封装,而对CSS只进 ...