L1和L2正则化。L1为什么能产生稀疏值，L2更平滑

参考博客：https://zhuanlan.zhihu.com/p/35356992

　　　　　https://zhuanlan.zhihu.com/p/25707761

　　　　　https://www.zhihu.com/question/37096933/answer/70426653

　　首先正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化的值会越大。

　　正则化是结构风险最小化的一种策略实现，在经验风险最小化的基础上（也就是训练误差最小化），尽可能采用简单的模型，以此提高泛化预测精度。

　　经验风险较小的模型可能较复杂，这时会使正则化项变大。正则化的作用就是选择经验风险和模型复杂度同时较小的模型。

　　同时也符合奥卡姆剃刀原理：在所有可能选择的模型中，能够很好解释数据并且十分简单才是好的模型。通过降低模型的复杂度，得到更小的泛化误差，降低过拟合程度。

$h(\omega) = f(\omega) + C|\omega|$

h（w）是目标函数 f（w）是没有加正则化的目标函数 c|w|是L1正则项，要是0点成为最可能的点，因为在0点处不可导，但是只需让0点左右的导数异号即可。

$h_{左}^{'}(0)*h_{右}^{'}(0) = （f^{'}(0) + C）(f^{'}(0) - C)<0$

最终解的：

$C >|f^{'}(0)|$ ，所以只要满足这个条件，0点都是最值点。

两种 regularization 能不能把最优的 w变成 0，取决于原先的损失函数在 0 点处的导数。
如果本来导数不为 0，那么施加 L2 regularization 后导数依然不为 0，最优的 x 也不会变成 0。
而施加 L1 regularization 时，只要 regularization 项的系数 C 大于原先损失函数在 0 点处的导数的绝对值，x = 0 就会变成一个极小值点。

上面只分析了一个参数 w。事实上 L1 regularization 会使得许多参数的最优值变成 0，这样模型就稀疏了。

作者：王赟 Maigo
链接：https://www.zhihu.com/question/37096933/answer/70426653
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

　　、

L1和L2正则化。L1为什么能产生稀疏值，L2更平滑的更多相关文章

L1正则化和L2正则化
L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择 L2正则化可以防止模型过拟合(overfitting):一定程度上,L1也可以防止过拟合一.L1正则化 1.L1正则化需注意, ...
机器学习中的L1、L2正则化
目录 1. 什么是正则化?正则化有什么作用? 1.1 什么是正则化? 1.2 正则化有什么作用? 2. L1,L2正则化? 2.1 L1.L2范数 2.2 监督学习中的L1.L2正则化 3. L1.L ...
L1和L2正则化（转载）
[深度学习]L1正则化和L2正则化在机器学习中,我们非常关心模型的预测能力,即模型在新数据上的表现,而不希望过拟合现象的的发生,我们通常使用正则化(regularization)技术来防止过拟合情况 ...
L1与L2正则化
目录过拟合结构风险最小化原理正则化 L2正则化 L1正则化 L1与L2正则化参考链接过拟合机器学习中,如果参数过多.模型过于复杂,容易造成过拟合. 结构风险最小化原理在经验风险最小化(训 ...
Kaldi中的L2正则化
steps/nnet3/train_dnn.py --l2-regularize-factor 影响模型参数的l2正则化强度的因子.要进行l2正则化,主要方法是在配置文件中使用'l2-regulari ...
【深度学习】L1正则化和L2正则化
在机器学习中,我们非常关心模型的预测能力,即模型在新数据上的表现,而不希望过拟合现象的的发生,我们通常使用正则化(regularization)技术来防止过拟合情况.正则化是机器学习中通过显式的控制模 ...
L1正则化比L2正则化更易获得稀疏解的原因
我们知道L1正则化和L2正则化都可以用于降低过拟合的风险,但是L1正则化还会带来一个额外的好处:它比L2正则化更容易获得稀疏解,也就是说它求得的w权重向量具有更少的非零分量. 为了理解这一点我们看一个 ...
4.机器学习——统计学习三要素与最大似然估计、最大后验概率估计及L1、L2正则化
1.前言之前我一直对于“最大似然估计”犯迷糊,今天在看了陶轻松.忆臻.nebulaf91等人的博客以及李航老师的<统计学习方法>后,豁然开朗,于是在此记下一些心得体会. “最大似然估计” ...
机器学习 - 正则化L1 L2
L1 L2 Regularization 表示方式: $L_2\text{ regularization term} = ||\boldsymbol w||_2^2 = {w_1^2 + w_2^2 ...
正则化 L1 L2
机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数. L1正则化和 ...

随机推荐

Mac搭建Fluter应用环境
1.创建一个路径.例如我创建是: /Users/chenghui/ 然后创建一个文件夹: development 把下载好的Fluter 解压到当前目录下: development /Users/ch ...
docker中mongdb常用操作
一.进入 --使用本地命令行查看 docker exec -it mongos bash
UI 自动化遇到的坑
1,ElementNotInteractableException: Message: element not interactable 该解决方法是用xpath定位,然后使用js操作元素,点击之类 ...
Android学习笔记StateListDrawable文件
SateListDrawable,可包含一个 Drawable 数组,让目标组件在不同状态显示不同 Drawable.对应的 xml 文件的根节点示例 edittext_focused.xml &l ...
【JMeter_06】JMeter逻辑控制器__If控制器<If Controller>
If控制器<If Controller> 业务逻辑: 根据表达式的结果来决定是否执行控制器下的脚本内容,与编程语言中的if判断逻辑大致相同,表达式结果为布尔值 true或false; 当表 ...
写给大忙人的Redis主从复制，花费五分钟让你面试不尴尬
相信很多小伙伴都已经配置过主从复制,但是对于redis主从复制的工作流程和常见问题很多都没有深入的了解.咔咔这次用时俩天时间给大家整理一份redis主从复制的全部知识点. 本文实现所需环境 cento ...
Java并发编程(05)：悲观锁和乐观锁机制
本文源码:GitHub·点这里 || GitEE·点这里一.资源和加锁 1.场景描述多线程并发访问同一个资源问题,假如线程A获取变量之后修改变量值,线程C在此时也获取变量值并且修改,两个线程同时并 ...
JavaWeb网上图书商城完整项目--27.注册页面之注册按钮图片切换实现
我们要实现立即注册这个按钮,光标获得焦点是一张图片,光标失去焦点的时候是另外一张图片我们需要在文档加载完成之后,设置该事件hover事件 hover(over,out)这是jQuery的一个模仿悬停 ...
android异步任务asyncTask详细分析
android中的耗时操作需要放在子线程中去执行 asynctask是对Handler和和线程池的封装,直接使用比THread效率更加的高效因为封装了线程池,比我们每次直接new Thread效率更高 ...
android handle详解
我们来看一个简单的代码: package com.mly.panhouye.handlerdemo; import android.content.Intent; import android.os. ...

L1和L2正则化。L1为什么能产生稀疏值，L2更平滑

L1和L2正则化。L1为什么能产生稀疏值，L2更平滑的更多相关文章

随机推荐

热门专题