正则化（Regularization）本质

参考：

http://www.cnblogs.com/maybe2030/p/9231231.html

https://blog.csdn.net/wsj998689aa/article/details/39547771

https://charlesliuyx.github.io/2017/10/03/%E3%80%90%E7%9B%B4%E8%A7%82%E8%AF%A6%E8%A7%A3%E3%80%91%E4%BB%80%E4%B9%88%E6%98%AF%E6%AD%A3%E5%88%99%E5%8C%96/

1、正则化是什么

正则化看起来有些抽象，其直译"规则化"，本质其实很简单，就是给模型加一些规则限制，约束要优化参数，目的是防止过拟合。其中最常见的规则限制就是添加先验约束，其中L1相当于添加Laplace先验，L相当于添加Gaussian先验。

2、L1正则和L2正则

L1正则是在原始的loss函数上加上一个L1正则化项，这个L1正则项实际就是在loss函数上添加一个结构化风险项，因此正则化其实和“带约束的目标函数”是等价的。而L1正则项就是一个1范数，本质相当于添加一个Laplace先验知识。同理，L2正则化项是一个2范数，本质却相当于添加一个Gaussian先验知识。

参考http://www.cnblogs.com/heguanyou/p/7582578.html。

3、范数

参考：https://charlesliuyx.github.io/2017/10/03/%E3%80%90%E7%9B%B4%E8%A7%82%E8%AF%A6%E8%A7%A3%E3%80%91%E4%BB%80%E4%B9%88%E6%98%AF%E6%AD%A3%E5%88%99%E5%8C%96/

我们知道，范数（norm）的概念来源于泛函分析与测度理论，wiki中的定义相当简单明了：范数是具有“长度”概念的函数，用于衡量一个矢量的大小（测量矢量的测度）

我们常说测度测度，测量长度，也就是为了表征这个长度。而如何表达“长度”这个概念也是不同的，也就对应了不同的范数，本质上说，还是观察问题的方式和角度不同，比如那个经典问题，为什么矩形的面积是长乘以宽？这背后的关键是欧式空间的平移不变性，换句话说，就是面积和长成正比，所以才有这个

没有测度论就没有（现代）概率论。而概率论也是整个机器学习学科的基石之一。测度就像尺子，由于测量对象不同，我们需要直尺量布匹、皮尺量身披、卷尺量房间、游标卡尺量工件等等。注意，“尺子”与刻度（寸、米等）是两回事，不能混淆。

范数分为向量范数（二维坐标系）和矩阵范数（多维空间，一般化表达），如果不希望太数学化的解释，那么可以直观的理解为：0-范数：向量中非零元素的数量；1-范数：向量的元素的绝对值；2-范数：是通常意义上的模（距离）

范数的图形表示如下：

4、正则化为什么就能防止过拟合

参考：http://www.cnblogs.com/heguanyou/p/7582578.html

过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。

从几何解释：

图1 上面中的蓝色轮廓线是没有正则化损失函数的等高线，中心的蓝色点为最优解，左图、右图分别为L2、L1正则化给出的限制。

可以看到在正则化的限制之下，L2正则化给出的最优解 $w^{*} $是使解更加靠近原点，也就是说L2正则化能降低参数范数的总和，使得模型的解偏向于 norm 较小的 W，通过限制 W 的 norm 的大小实现了对模型空间的限制，从而在一定程度上避免了 overfitting 。不过 L2正则化并不具有产生稀疏解的能力，得到的系数仍然需要数据中的所有特征才能计算预测结果，从计算量上来说并没有得到改观。

L1正则化给出的最优解$w^{*}$是使解更加靠近某些轴，而其它的轴则为0，所以L1正则化能使得到的参数稀疏化。稀疏的解除了计算量上的好处之外，更重要的是更具有“可解释性”。比如说，一个病如果依赖于 5 个变量的话，将会更易于医生理解、描述和总结规律，但是如果依赖于 5000 个变量的话，基本上就超出人肉可处理的范围了。

因此正则化是通过约束参数的范数使其不要太大，使其在一定程度上减少过拟合情况。

5、Dropout与Batch Normalization

http://www.cnblogs.com/maybe2030/p/9231231.html

正则化（Regularization）本质的更多相关文章

zzL1和L2正则化regularization
最优化方法:L1和L2正则化regularization http://blog.csdn.net/pipisorry/article/details/52108040 机器学习和深度学习常用的规则化 ...
7、正则化(Regularization)
7.1 过拟合的问题到现在为止,我们已经学习了几种不同的学习算法,包括线性回归和逻辑回归,它们能够有效地解决许多问题,但是当将它们应用到某些特定的机器学习应用时,会遇到过拟合(over-fittin ...
[DeeplearningAI笔记]改善深层神经网络1.4_1.8深度学习实用层面_正则化Regularization与改善过拟合
觉得有用的话,欢迎一起讨论相互学习~Follow Me 1.4 正则化(regularization) 如果你的神经网络出现了过拟合(训练集与验证集得到的结果方差较大),最先想到的方法就是正则化(re ...
斯坦福第七课：正则化(Regularization)
7.1 过拟合的问题 7.2 代价函数 7.3 正则化线性回归 7.4 正则化的逻辑回归模型 7.1 过拟合的问题如果我们有非常多的特征,我们通过学习得到的假设可能能够非常好地适应训练集( ...
（五）用正则化(Regularization)来解决过拟合
1 过拟合过拟合就是训练模型的过程中,模型过度拟合训练数据,而不能很好的泛化到测试数据集上.出现over-fitting的原因是多方面的: 1) 训练数据过少,数据量与数据噪声是成反比的,少量数据导 ...
[笔记]机器学习(Machine Learning) - 03.正则化(Regularization)
欠拟合(Underfitting)与过拟合(Overfitting) 上面两张图分别是回归问题和分类问题的欠拟合和过度拟合的例子.可以看到,如果使用直线(两组图的第一张)来拟合训,并不能很好地适应我们 ...
CS229 5.用正则化(Regularization)来解决过拟合
1 过拟合过拟合就是训练模型的过程中,模型过度拟合训练数据,而不能很好的泛化到测试数据集上.出现over-fitting的原因是多方面的: 1) 训练数据过少,数据量与数据噪声是成反比的,少量数据导 ...
[C3] 正则化(Regularization)
正则化(Regularization - Solving the Problem of Overfitting) 欠拟合(高偏差) VS 过度拟合(高方差) Underfitting, or high ...
1.4 正则化 regularization
如果你怀疑神经网络过度拟合的数据,即存在高方差的问题,那么最先想到的方法可能是正则化,另一个解决高方差的方法就是准备更多数据,但是你可能无法时时准备足够多的训练数据,或者获取更多数据的代价很高.但正则 ...
机器学习（五）--------正则化(Regularization)
过拟合(over-fitting) 欠拟合正好过拟合怎么解决 1.丢弃一些不能帮助我们正确预测的特征.可以是手工选择保留哪些特征,或者使用一些模型选择的算法来帮忙(例如 PCA) 2.正则化. ...

随机推荐

Flink重启策略
戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Fli ...
Flink中的Time
戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Fli ...
C# 默认访问权限
声明类.方法.字段.属性时不加访问权限修饰符时的访问权限是什么呢?1. 声明命名空间.类,前面不加限制访问修饰符时,默认访问权限为internal——访问仅限于当前程序集. 2. 声明类成员(域.属性 ...
git 取消对某个文件的跟踪
git rm --cached <fileName> 例如 : git add 后,不想提交在status里的.idea/vcs.xml.操作如下:
Dart语言入门（一）
Dart 语言介绍 Dart 是谷歌在 2011 年推出的编程语言,是一种结构化 Web 编程语言,允许用户通过 Chromium 中所整合的虚拟机(Dart VM)直接运行 Dart 语言编写的程序 ...
Spark MLlib KMeans 聚类算法
一.简介 KMeans 算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把分类样本点分到各个簇.然后按平均法重新计算各个簇的质心,从而确定新的簇心.一直迭代,直到簇心的移动距离小于某个给定的值. ...
C#隐式转换与显示转换
System.Objec时C#中所有类型的基类,也就是万类之源. 一.值类型值类型都继承自System.ValueType(派生自System.Objec),继承自System.ValueType的 ...
python之创建文件写入内容
https://www.cnblogs.com/evablogs/p/7096686.html 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2 ...
想知道谁是你的最佳用户？基于Redis实现排行榜周期榜与最近N期榜
本文由云+社区发表前言业务已基于Redis实现了一个高可用的排行榜服务,长期以来相安无事.有一天,产品说:我要一个按周排名的排行榜,以反映本周内用户的活跃情况.于是周榜(按周重置更新的榜单)诞生了 ...
windows下为qt msvc版本配置调试器
原文:https://blog.csdn.net/whatnamecaniuse/article/details/80716616 根据开发机的环境,下载我的机器是win10,因此下载win 10 ...

正则化（Regularization）本质

正则化（Regularization）本质的更多相关文章

随机推荐

热门专题