为什么 L1 正则化能做特征选择而 L2 正则化不能

假设我们的模型只有一个参数 $w$，损失函数为 $L(w)$，加入 L1 和 L2 正则化后的损失函数分别记为 $J_1(w), J_2(w)$：

\[\begin{gathered}
J_1(w) = L(w) + \lambda |w| \\
J_2(w) = L(w) + \lambda w^2
\end{gathered}
\]

原损失函数 $L$ 在 $w = 0$ 处的导数记为 $L'(0)$，那么 $J_1$ 在 $w = 0$ 处的左、右导数为：

\[\begin{gathered}
J_{-}'(0) = L'(0) - \lambda \\
J_{+}'(0) = L'(0) + \lambda \\
\end{gathered}
\]

当 $\lambda > |L'(0)|$ 时，$w = 0$ 处的左导数 $L'(0) - \lambda < 0$、右导数 $L'(0) + \lambda > 0$，此时 $w = 0$ 为 $J_1$ 的一个极小值点。

也就是说，即使 $L$ 不在 $w = 0$ 处取得极小值（$L'(0) \neq 0$），我们也能够通过调节 $\lambda$ 将损失函数的极小值点“转移”到 $w = 0$。

再来看 L2 正则化时的情况，$J_2$ 在 $w = 0$ 处的导数为：

\[J_2'(0) = [L'(w) + 2 \lambda w]_{w = 0} = L'(0)
\]

由此可见，如果 $L$ 不在 $w = 0$ 处取得极小值（$L'(0) \neq 0$），那么加入 L2 正则项后仍然不可能在 $w = 0$ 处取得极小值。

总结：L1 正则化能将损失函数的极小值点“转移”到 $w = 0$ 处，而 L2 正则化无论如何设置 $\lambda$ 都达不到这样的效果。

为什么 L1 正则化能做特征选择而 L2 正则化不能的更多相关文章

机器学习中的L1、L2正则化
目录 1. 什么是正则化?正则化有什么作用? 1.1 什么是正则化? 1.2 正则化有什么作用? 2. L1,L2正则化? 2.1 L1.L2范数 2.2 监督学习中的L1.L2正则化 3. L1.L ...
机器学习中L1,L2正则化项
搞过机器学习的同学都知道,L1正则就是绝对值的方式,而L2正则是平方和的形式.L1能产生稀疏的特征,这对大规模的机器学习灰常灰常重要.但是L1的求解过程,实在是太过蛋疼.所以即使L1能产生稀疏特征,不 ...
4.机器学习——统计学习三要素与最大似然估计、最大后验概率估计及L1、L2正则化
1.前言之前我一直对于“最大似然估计”犯迷糊,今天在看了陶轻松.忆臻.nebulaf91等人的博客以及李航老师的<统计学习方法>后,豁然开朗,于是在此记下一些心得体会. “最大似然估计” ...
深入理解L1、L2正则化
过节福利,我们来深入理解下L1与L2正则化. 1 正则化的概念正则化(Regularization) 是机器学习中对原始损失函数引入额外信息,以便防止过拟合和提高模型泛化性能的一类方法的统称.也就是 ...
L1正则化和L2正则化
L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择 L2正则化可以防止模型过拟合(overfitting):一定程度上,L1也可以防止过拟合一.L1正则化 1.L1正则化需注意, ...
机器学习（二十三）— L0、L1、L2正则化区别
1.概念 L0正则化的值是模型参数中非零参数的个数. L1正则化表示各个参数绝对值之和. L2正则化标识各个参数的平方的和的开方值. 2.问题 1)实现参数的稀疏有什么好处吗? 一个好处是可以简化 ...
L0,L1,L2正则化浅析
在机器学习的概念中,我们经常听到L0,L1,L2正则化,本文对这几种正则化做简单总结. 1.概念 L0正则化的值是模型参数中非零参数的个数. L1正则化表示各个参数绝对值之和. L2正则化标识各个参数 ...
L1 与 L2 正则化
参考这篇文章: https://baijiahao.baidu.com/s?id=1621054167310242353&wfr=spider&for=pc https://blog. ...
防止过拟合：L1/L2正则化
正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合).其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在tr ...
L1正则化与L2正则化的理解
1. 为什么要使用正则化我们先回顾一下房价预测的例子.以下是使用多项式回归来拟合房价预测的数据: 可以看出,左图拟合较为合适,而右图过拟合.如果想要解决右图中的过拟合问题,需要能够使得 $ ...

随机推荐

django的orm多表查询作业第五题答案
5.每个作者出版的所有书的最高价格以及最高价格的那本书的名称. 用django的模型类写不出来的,只能用原生sql写这题关于第五题,mysql5.7及以上版本,使用下面的答案 set sql_mod ...
命令行解析parse.parse_know_args()
简介在接受到多余的命令行参数时不报错,只把第一个参数作为当前使用的命令参数, 剩余部分留给其它程序使用,返回一个tuple类型的命名空间和一个保存着余下的命令行字符的list 示例 import a ...
【算法day3】小和、荷兰国旗、快排
小和问题现有数组[1,3,4,2,5] 1左边是0(小于1),所以1的小和为0 3左边是1(小于3),所以3的小和为1 4左边是1.3(均小于4),所以4的小和为1+3=4 2左边是1.3.4(只有 ...
【LeetCode栈与队列#04】逆波兰表达式求值（仍然是经典的栈操作）
逆波兰表达式求值力扣题目链接(opens new window) 根据逆波兰表示法,求表达式的值. 有效的运算符包括 + , - , * , / .每个运算对象可以是整数,也可以是另一个逆波兰表达 ...
第一百一十三篇: JS数组Array（二）数组方法栈、队列、排序
好家伙, 在上一篇中,我们知道了, JS的数组中每个槽位可以存储任意类型的数据那么,我们能通过数组去模仿某些数据结构吗? 答案是肯定的 1.栈方法 ECMAScript 给数组提供几个方法,让 ...
最经典的TCP性能问题
目录问题描述问题的原因什么是delay ack 什么是Nagle算法如果client启用Nagle,并且server端启用了delay ack会有什么后果呢? 再来看一个经典例子和数据分析回 ...
Spring + JAX-WS : ‘xxx’ is an interface, and JAXB can’t handle interfaces 错误解决方法
错误栈 Caused by: com.sun.xml.bind.v2.runtime.IllegalAnnotationsException: 2 counts of IllegalAnnotatio ...
PHP项目&变量覆盖&反序列化&未授权访问&身份验证
CNVD拿1day-验证&未授权-xhcms&Bosscms 此种漏洞由于没有什么关键函数,所以需要通过功能点去进行测试. Bosscms未授权访问 CNVD官网上搜索Bosscms未 ...
使用Order By NULL 解决 group by后自动排序,优化Sql性能
使用Order By NULL 解决 group by后自动排序,优化Sql性能对于 Group by 后的结果,Mysql搜索引擎会将结果按照Group by 的字段按照升序,自动排序,例如: t ...
Wireshark在多媒体开发中的使用
一概要: Wireshark(前称Ethereal)是一个网络抓包工具. 是一款非常棒的Unix和Windows上的开源网络协议分析器.尽可能显示出最为详细的网络封包资料.Wireshark使用W ...

为什么 L1 正则化能做特征选择而 L2 正则化不能

为什么 L1 正则化能做特征选择而 L2 正则化不能的更多相关文章

随机推荐

热门专题