一、范数

L1、L2这种在机器学习方面叫做正则化，统计学领域的人喊她惩罚项，数学界会喊她范数。

L0范数表示向量xx中非零元素的个数。

L1范数表示向量中非零元素的绝对值之和。

L2范数表示向量元素的平方和再开平方

在p范数下定义的单位球（unit ball）都是凸集（convex set，简单地说，若集合A中任意两点的连线段上的点也在集合A中，则A是凸集），但是当0<p<1时，在该定义下的unit ball并不是凸集（注意：我们没说在该范数定义下，因为如前所述，0<p<1时，并不是范数）.下图展示了p取不同值时unit ball的形状

二、正则化

L1正则化，又叫Lasso Regression

如下图所示，L1是向量各元素的绝对值之和

L2正则化，又叫Ridge Regression

如下图所示，L2是向量各元素的平方和

对于上面的两种情况做一下简单推广，可以得到更为一般的形式：

上式前半部分为原有的损失函数，后半部分为正则项。其中，q=1时即为L1正则化，q=2为L2正则化。

三、lasso和ridge回归

Lasso Regresssion

　　Lasso Regresssion使用的就是L1正则化，下面就是Lasso Regression 的Loss Function的样子，是不是很美丽：

公式（1）

　　注：β₀是常数项

简单说一下，第一个SUM（∑）里面可以看出来是一个线性回归求损失平方，第二个SUM（∑）是线性回归中系数的服从条件，用来约束解的区域，凸优化中的约束求解一般都长这个样子。

此外，Lasso Regression的整体损失求极小的样子改成拉格朗日形式就是下面这个式子的模样：

公式（2）

　　从式子里可以看到回归系数使用的是L1正则化，λ是惩罚参数或者叫做调节参数。L1范数的好处是当惩罚参数充分大时可以把某些待估的回归系数精确地收缩到0。

　　Lasso以缩小变量集（降阶）为思想，是一种收缩估计方法。Lasso方法可以将变量的系数进行压缩并使某些回归系数变为0，进而达到变量选择的目的，可以广泛的应用于模型改进与选择。我们通过选择惩罚函数，借用Lasso思想和方法实现变量选择的目的。

　　在建立模型之初，为了尽量减小因缺少重要自变量而出现的模型偏差，通常会选择尽可能多的自变量。然而，建模过程需要寻找对因变量最具有强解释力的自变量集合，也就是通过自变量选择(指标选择、字段选择)来提高模型的解释性和预测精度。指标选择在统计建模过程中是极其重要的问题。Lasso算法则是一种能够实现指标集合精简的估计方法。

　　公式（1）理解：

　　lasso estimate具有shrinkage和selection两种功能，shrinkage这个不用多讲，本科期间学过回归分析的同学应该都知道岭估计会有shrinkage的功效，lasso也同样。关于selection功能，Tibshirani提出，当t值小到一定程度的时候，lasso estimate会使得某些回归系数的估值是0，这确实是起到了变量选择的作用。当t不断增大时，选入回归模型的变量会逐渐增多，当t增大到某个值时，所有变量都入选了回归模型，这个时候得到的回归模型的系数是通常意义下的最小二乘估计。从这个角度上来看，lasso也可以看做是一种逐步回归的过程。

　　模型选择本质上是寻求模型稀疏表达的过程，而这种过程可以通过优化一个“损失”+“惩罚”的函数问题来完成。

　　这里公式（1）和公式（2）的λ和t是一一对应关系。

　　公式（2）中的λ是重要的设置参数，它控制了惩罚的严厉程度，如果设置得过大，那么最后的模型参数均将趋于0，形成拟合不足。如果设置得过小，又会形成拟合过度。

　　λ求法

　　通常使用交叉验证法（CV）或者广义交叉验证（GCV），当然也可以使用AIC、BIC等指标。

　　交叉验证法：对λ的格点值，进行交叉验证，选取交叉验证误差最小的λ值。最后，按照得到的λ值，用全部数据重新拟合模型即可。

　　对参数引入拉普拉斯先验等价于 L1正则化。

（根据斜率可以发现l1在小的时候惩罚力度还很大）

RidgeRegression 岭回归

　　岭回归使用的是L2正则化，下面的式子就是Ridge Regression的Loss Function 的美丽容颜：

　　式子的最后面是L2正则项，系数的平方和。上式的等价问题如下：

　　看我们得到的参数，在零附近是不是很密集，老实说 ridge regression 并不具有产生稀疏解的能力，也就是说参数并不会真出现很多零。假设我们的预测结果与两个特征相关，L2正则倾向于综合两者的影响，给影响大的特征赋予高的权重；而L1正则倾向于选择影响较大的参数，而舍弃掉影响较小的那个。实际应用中 L2正则表现往往会优于 L1正则，但 L1正则会大大降低我们的计算量。

ridge regression也是shrinkage的：

　　从多变量回归的变量选择来说，普通的多元线性回归要做的是变量的剔除和筛选，而岭回归是一种shrinkage的方法，就是收缩。这是什么意思呢，比如做普通线性回归时候，如果某个变量t检验不显著，我们通常会将它剔除再做回归，如此往复（stepwise)，最终筛选留下得到一个我们满意回归方程，但是在做岭回归的时候，我们并没有做变量的剔除，而是将这个变量的系数beta向0”收缩“，使得这个变量在回归方程中的影响变的很小。于普通的多元线性回归相比，岭回归的变化更加smooth，或者说continuous。

链接：https://www.zhihu.com/question/28221429/answer/50909208

　　最小二乘估计是最小化残差平方和（RSS）：

　　岭回归在最小化RSS的计算里加入了一个收缩惩罚项（正则化的l2范数）

　　这个惩罚项中lambda大于等于0，是个调整参数。各个待估系数越小则惩罚项越小，因此惩罚项的加入有利于缩减待估参数接近于0。

　　重点在于lambda的确定，可以使用交叉验证或者Cp准则。

　　对参数引入高斯先验等价于L2正则化

链接·：http://blog.csdn.net/SzM21C11U68n04vdcLmJ/article/details/78138887

四、 L1和L2正则化的异同

1. L2 regularizer ：使得模型的解偏向于 norm 较小的 W，通过限制 W 的 norm 的大小实现了对模型空间的限制，从而在一定程度上避免了 overfitting 。不过 ridge regression 并不具有产生稀疏解的能力，得到的系数仍然需要数据中的所有特征才能计算预测结果，从计算量上来说并没有得到改观。
2. L1 regularizer ：它的优良性质是能产生稀疏性，导致 W 中许多项变成零。稀疏的解除了计算量上的好处之外，更重要的是更具有“可解释性”。

lasso regression和ridge regression比较：

这两种方法的共同点在于，将解释变量的系数加入到Cost Function中，并对其进行最小化，本质上是对过多的参数实施了惩罚。

而两种方法的区别在于惩罚函数不同。但这种微小的区别却使LASSO有很多优良的特质（可以同时选择和缩减参数）。

岭回归的一个缺点：在建模时，同时引入p个预测变量，罚约束项可以收缩这些预测变量的待估系数接近0,但并非恰好是0（除非lambda为无穷大）。这个缺点对于模型精度影响不大，但给模型的解释造成了困难。这个缺点可以由lasso来克服。(所以岭回归虽然减少了模型的复杂度，并没有真正解决变量选择的问题) 。具体可以看上面ridge参数选取图

可以看到，L1-ball 与L2-ball 的不同就在于L1在和每个坐标轴相交的地方都有“角”出现，而目标函数的测地线除非位置摆得非常好，大部分时候都会在角的地方相交。注意到在角的位置就会产生稀疏性，例如图中的相交点就有w1=0，而更高维的时候（想象一下三维的L1-ball 是什么样的？）除了角点以外，还有很多边的轮廓也是既有很大的概率成为第一次相交的地方，又会产生稀疏性。

L2正则项作用是限制权重W过大，且使得权重W分布均匀。而L1正则项倾向于得到离散的W，各W之间差距较大。

五、特征选择

当我们使用数据训练分类器的时候，很重要的一点就是要在过度拟合与拟合不足之间达成一个平衡。

防止过度拟合的一种方法就是对模型的复杂度进行约束。模型中用到解释变量的个数是模型复杂度的一种体现。

控制解释变量个数有很多方法，例如特征选择(feature selection)，即用filter或wrapper方法提取解释变量的最佳子集。

或是进行特征构造(feature construction)，即将原始变量进行某种映射或转换，如主成分方法和因子分析。

特征选择的方法是比较“硬”的方法，变量要么进入模型，要么不进入模型，只有0-1两种选择。

但也有“软”的方法，也就是Regularization类方法，例如岭回归(Ridge Regression)和套索方法(LASSO:least absolute shrinkage and selection operator)

链接：回归系列之L1和L2正则化

链接：〖素质笔记〗lasso族（套索算法）学习笔记

LR正则化与数据先验分布的关系？

L1,L2范数和正则化到lasso ridge regression的更多相关文章

L0/L1/L2范数的联系与区别
L0/L1/L2范数的联系与区别标签(空格分隔): 机器学习最近快被各大公司的笔试题淹没了,其中有一道题是从贝叶斯先验,优化等各个方面比较L0.L1.L2范数的联系与区别. L0范数 L0范数表示 ...
【机器学习】Linear least squares, Lasso,ridge regression有何本质区别？
Linear least squares, Lasso,ridge regression有何本质区别? Linear least squares, Lasso,ridge regression有何本质 ...
L0，L1，L2范数，正则化，过拟合
L0范数是指向量中非0元素的个数 L1范数是向量中各个元素的绝对值求和 L2范数是指向量的各个元素平方求和然后取和的平方根机器学习的目的是使学习到的模型不仅对已知的数据而且对未知的数据有很好的预测能 ...
L0/L1/L2范数（转载）
一.首先说一下范数的概念: 向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离. 向量的范数定义:向量的范数是一个函数||x||,满足非负性||x|| > ...
机器学习中正则惩罚项L0/L1/L2范数详解
https://blog.csdn.net/zouxy09/article/details/24971995 原文转自csdn博客,写的非常好. L0: 非零的个数 L1: 参数绝对值的和 L2:参数 ...
13. L1,L2范数
讲的言简意赅,本人懒,顺手转载过来:https://www.cnblogs.com/lhfhaifeng/p/10671349.html
L0、L1、L2范数正则化
一.范数的概念向量范数是定义了向量的类似于长度的性质,满足正定,齐次,三角不等式的关系就称作范数. 一般分为L0.L1.L2与L_infinity范数. 二.范数正则化背景 1. 监督机器学习问题无 ...
正则化的L1范数和L2范数
范数介绍:https://www.zhihu.com/question/20473040?utm_campaign=rss&utm_medium=rss&utm_source=rss& ...
再谈Lasso回归 | elastic net | Ridge Regression
前文:Lasso linear model实例 | Proliferation index | 评估单细胞的增殖指数参考:LASSO回歸在生物醫學資料中的簡單實例 - 生信技能树 Linear le ...

随机推荐

opencv:鼠标操作
示例程序: #include <opencv.hpp> using namespace cv; #define WINDOW_NAME "程序窗口" // ------ ...
mybatis 使用接口增删改查和两表一对一关联查询
导包总配置文件 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE configuration ...
Agilent RF fundamentals （2）- fundamental units of RF
1Amplitude AM调制 2 Frequency FM调制 3Phase Phase 调制复合调制三者关系:
目标跟踪之ECO：Efficient Convolution Operators for Tracking
一. 相关滤波算法总结作者首先分析了影响相关滤波算法效率和导致过拟合的几个原因: 1)Model Size (模型大小) 包括两个方面: - 模型层数,对应多分辨率 Sample,比如多层 ...
Win7系统64位环境下使用Apache——Apache2.4整合Tomcat与mod_jk
转载请注明出处:http://blog.csdn.net/dongdong9223/article/details/70398091 本文出自[我是干勾鱼的博客] 之前的几篇文章: Win7系统64位 ...
Win7系统64位环境下使用Apache——Apache2.4版本安装及卸载
转载请注明出处:http://blog.csdn.net/dongdong9223/article/details/70255992 本文出自[我是干勾鱼的博客] 之前在Win7系统64位环境下使用A ...
如何用 Java 实现 Web 应用中的定时任务
定时任务,是指定一个未来的时间范围执行一定任务的功能.在当前WEB应用中,多数应用都具备任务调度功能,针对不同的语音,不同的操作系统, 都有其自己的语法及解决方案,windows操作系统把它叫做任务计 ...
Andriod部分手机频繁闪退，vivo y55a等，Skipped 62 frames! The application may be doing too much work on its main thread
问题描述: 部分手机频繁闪退的问题.比如:vivo y55a,在升级.交任务.穿戴装备等都有概率闪退... 表现: 卡几帧就马上闪退. 在学习技能.穿戴装备.升级等概率出现,新角色第3个任务“拦截少年 ...
MySql必知必会实战练习（三）数据过滤
在之前的博客MySql必知必会实战练习(一)表创建和数据添加中完成了各表的创建和数据添加,MySql必知必会实战练习(二)数据检索中介绍了所有的数据检索操作,下面对数据过滤操作进行总结. 1. whe ...
vue前端开发那些事——前言
如上图所示,用vue开发一个小型网站所涉及到的知识点.这只是前端部分已经这么多了.接下来我分解开来说. 1.Node 当我们开发vue项目的时候,首先要安装Node.js,那么我们即使当时不理解为什么 ...

L1,L2范数和正则化 到lasso ridge regression

四、 L1和L2正则化的异同

链接：〖素质笔记〗lasso族（套索算法） 学习笔记

LR正则化与数据先验分布的关系？

L1,L2范数和正则化 到lasso ridge regression的更多相关文章

随机推荐

热门专题

L1,L2范数和正则化到lasso ridge regression

链接：〖素质笔记〗lasso族（套索算法）学习笔记

L1,L2范数和正则化到lasso ridge regression的更多相关文章