正则化，L1，L2

机器学习中在为了减小loss时可能会带来模型容量增加，即参数增加的情况，这会导致模型在训练集上表现良好，在测试集上效果不好，也就是出现了过拟合现象。为了减小这种现象带来的影响，采用正则化。正则化，在减小训练样本误差的同时，限制参数的增长，限制参数过多或者过大，从而提高模型的泛化性。

1. L1 正则化

L1 正则化公式也很简单，直接在原来的损失函数基础上加上权重参数的绝对值：

2. L2 正则化

L2 正则化公式非常简单，直接在原来的损失函数基础上加上权重参数的平方和：

L1范式和L2范式的区别

(1) L1范式是对应参数向量绝对值之和

(2) L1范式具有稀疏性

(3) L1范式可以用来作为特征选择，并且可解释性较强（这里的原理是在实际Loss function 中都需要求最小值，根据L1的定义可知L1最小值只有0，故可以通过这种方式来进行特征选择）

(4) L2范式是对应参数向量的平方和，再求平方根

(5) L2范式是为了防止机器学习的过拟合，提升模型的泛化能力

L2正则对应的是加入2范数，使得对权重进行衰减，从而达到惩罚损失函数的目的，防止模型过拟合。保留显著减小损失函数方向上的权重，而对于那些对函数值影响不大的权重使其衰减接近于0。相当于加入一个gaussian prior。
L1正则对应得失加入1范数，同样可以防止过拟合。它会产生更稀疏的解，即会使得部分权重变为0，达到特征选择的效果。相当于加入了一个laplacean prior。

正则化，L1，L2的更多相关文章

机器学习 - 正则化L1 L2
L1 L2 Regularization 表示方式: $L_2\text{ regularization term} = ||\boldsymbol w||_2^2 = {w_1^2 + w_2^2 ...
正则化 L1 L2
机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数. L1正则化和 ...
【深度学习】L1正则化和L2正则化
在机器学习中,我们非常关心模型的预测能力,即模型在新数据上的表现,而不希望过拟合现象的的发生,我们通常使用正则化(regularization)技术来防止过拟合情况.正则化是机器学习中通过显式的控制模 ...
L1正则化比L2正则化更易获得稀疏解的原因
我们知道L1正则化和L2正则化都可以用于降低过拟合的风险,但是L1正则化还会带来一个额外的好处:它比L2正则化更容易获得稀疏解,也就是说它求得的w权重向量具有更少的非零分量. 为了理解这一点我们看一个 ...
机器学习之正则化【L1 & L2】
前言 L1.L2在机器学习方向有两种含义:一是L1范数.L2范数的损失函数,二是L1.L2正则化 L1范数.L2范数损失函数 L1范数损失函数: L2范数损失函数: L1.L2分别对应损失函数中的绝对 ...
L1正则化和L2正则化
L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择 L2正则化可以防止模型过拟合(overfitting):一定程度上,L1也可以防止过拟合一.L1正则化 1.L1正则化需注意, ...
L1正则化与L2正则化的理解
1. 为什么要使用正则化我们先回顾一下房价预测的例子.以下是使用多项式回归来拟合房价预测的数据: 可以看出,左图拟合较为合适,而右图过拟合.如果想要解决右图中的过拟合问题,需要能够使得 $ ...
L1,L2范数和正则化到lasso ridge regression
一.范数 L1.L2这种在机器学习方面叫做正则化,统计学领域的人喊她惩罚项,数学界会喊她范数. L0范数表示向量xx中非零元素的个数. L1范数表示向量中非零元素的绝对值之和. L2范数表 ...
ML-线性模型泛化优化之 L1 L2 正则化
认识 L1, L2 从效果上来看, 正则化通过, 对ML的算法的任意修改, 达到减少泛化错误, 但不减少训练误差的方式的统称训练误差这个就损失函数什么的, 很好理解. 泛化错误假设我们知道预 ...
机器学习中L1,L2正则化项
搞过机器学习的同学都知道,L1正则就是绝对值的方式,而L2正则是平方和的形式.L1能产生稀疏的特征,这对大规模的机器学习灰常灰常重要.但是L1的求解过程,实在是太过蛋疼.所以即使L1能产生稀疏特征,不 ...

随机推荐

51nod图论题解（4级，5级算法题）
51nod图论题解(4级,5级算法题) 1805 小树基准时间限制:1.5 秒空间限制:131072 KB 分值: 80 难度:5级算法题她发现她的树的点上都有一个标号(从1到n),这些树都在空 ...
设计模式之——bridge模式
Bridge模式,又叫桥接模式,是针对同一接口进行扩展与实现操作的一种设计模式. 这种模式,与之前学过的适配器模式具有相似的地方,也有不同的地方,下面就让我们一一解析吧. 首先,我们要了解到,为什么需 ...
6、LwIP协议规范翻译——缓冲及内存管理
6.缓冲及内存管理在一个通信系统中,内存缓冲管理系统必须容纳各种大小的缓冲数据,其范围从包含具有数百个字节的数据的全尺寸TCP段到只有几个字节的短ICMP回复包.此外,为了避免拷贝,应该让数据内容缓 ...
app优化篇
UIImageView高效加个圆角一般通过clipsToBounds和layer.cornerRadius会强制Core Animation提前渲染屏幕的离屏绘制,影响性能. 通过贝塞尔曲线切割图片 ...
Django基本配置与URLconf
what's the Django python的框架主要有:Django.Flask.Tornado Django是一个开放源代码的Web应用框架,由Python写成.它的主要特点是大而全,我们需要 ...
唯美MACD-完全版
前言: 自己很喜欢MACD这个指标,因为很欠缺所以就搜集的多一点,有人问,学习缠为什么还这么搜集些Macd的资料呢?因为在分析走势(或盘整背驰.或趋势背驰)的时候我的习惯使用Macd做辅助判断,所以M ...
openshift 容器云从入门到崩溃之九《容器监控-报警》
容器状态监控主要是监控POD的状态包括重启.不健康等等这些k8s api 状态本身会报出来,在配合zabbix报警导入zabbix模板关联上oc master主机 <?xml version ...
JavaScript知识精简
JS单线程,同步,一次执行某一段代码,等到前一个程序执行完毕再执行.,阻塞,安全. 多线程,异步,不用等到前一个程序执行完毕就执行. 数据类型 JavaScript 是弱类型语言,但并不是没有 ...
正则表达式（re模块）
s='hello world' print(s.find('llo')) #找到llo ret=s.replace('ll','xx') #用xx代替ll print(ret) print(s.spl ...
C# 获取结构体的所有成员
读取结构体的所有成员(Engine为结构体) FieldInfo[] fieldInfos = typeof(Engine).GetFields();