正则化是一种回归的形式，它将系数估计（coefficient estimate）朝零的方向进行约束、调整或缩小。也就是说，正则化可以在学习过程中降低模型复杂度和不稳定程度，从而避免过拟合的危险。

一、数学基础

1. 范数

范数是衡量某个向量空间（或矩阵）中的每个向量以长度或大小。范数的一般化定义：对实数p>=1，范数定义如下：

L1范数
当p=1时，是L1范数，其表示某个向量中所有元素绝对值的和。
L2范数
当p=2时，是L2范数，表示某个向量中所有元素平方和再开根，也就是欧几里得距离公式。

2. 拉普拉斯分布

如果随机变量的概率密度函数分布为:

那么它就是拉普拉斯分布。其中，μ 是数学期望，b > 0 是振幅。如果 μ = 0，那么，正半部分恰好是尺度为 1/2 的指数分布。

拉普拉斯分布的概率密度函数

3. 高斯分布

又叫正态分布，若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布，记为：X∼N(μ,σ2)，其概率密度函数为:

其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

高斯分布的概率密度函数

还有涉及极大似然估计、概率论相关的先验和后验相关概率，为了控制篇幅，本文就不详细介绍， wiki百科和百度百科都讲得很清楚。

二、正则化解决过拟合问题

正则化通过降低模型的复杂性，达到避免过拟合的问题。正则化是如何解决过拟合的问题的呢？从网上找了很多相关文章，下面列举两个主流的解释方式。

原因1：来自知乎上一种比较直观和简单的理解，模型过于复杂是因为模型尝试去兼顾各个测试数据点，导致模型函数如下图，处于一种动荡的状态，每个点的到时在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。

而加入正则能抑制系数过大的问题。如下公式，是岭回归的计算公式。

如果发生过拟合，参数θ一般是比较大的值，加入惩罚项后，只要控制λ的大小，当λ很大时，θ1到θn就会很小，即达到了约束数量庞大的特征的目的。

原因二：从贝叶斯的角度来分析，正则化是为模型参数估计增加一个先验知识，先验知识会引导损失函数最小值过程朝着约束方向迭代。 L1正则是拉普拉斯先验，L2是高斯先验。整个最优化问题可以看做是一个最大后验估计，其中正则化项对应后验估计中的先验信息，损失函数对应后验估计中的似然函数，两者的乘积即对应贝叶斯最大后验估计。
给定训练数据, 贝叶斯方法通过最大化后验概率估计参数θ：

说明：P(θ)是参数向量θ的先验概率。

下面我们从最大后验估计(MAP)的方式，推导下加入L1和L2惩罚项的Lasso和岭回归的公式。
首先我们看下最小二乘公式的推导（公式推导截图来自知乎大神）

这个是通过最大似然估计的方法，推导出线性回归最小二乘计算公式。

假设1： w参数向量服从高斯分布
以下为贝叶斯最大后验估计推导：

最终的公式就是岭回归计算公式。与上面最大似然估计推导出的最小二乘相比，最大后验估计就是在最大似然估计公式乘以高斯先验，这里就理解前面L2正则就是加入高斯先验知识。
假设2： w参数服从拉普拉斯分布
以下为贝叶斯最大后验估计推导：

最终的公式就是Lasso计算公式。与上面最大似然估计推导出的最小二乘相比，最大后验估计就是在最大似然估计公式乘以拉普拉斯先验，这里就理解前面L1正则就是加入拉普拉斯先验知识。

L1和L2正则化的比较

为了帮助理解，我们来看一个直观的例子：假定x仅有两个属性，于是无论岭回归还是Lasso接触的w都只有两个分量，即w1,w2，我们将其作为两个坐标轴，然后在图中绘制出两个式子的第一项的”等值线”，即在(w1,w2)空间中平方误差项取值相同的点的连线。再分别绘制出L1范数和L2范数的等值线，即在(w1,w2)空间中L1范数取值相同的点的连线，以及L2范数取值相同的点的连线(如下图所示)。

L1正则化比L2正则化更易于得到稀疏解

岭回归与Lasso的解都要在平方误差项与正则化项之间折中，即出现在图中平方误差项等值线与正则化项等值线相交处。而由上图可以看出，采用L1范数时平方误差项等值线与正则化项等值线的交点常出现在坐标轴上，即w1或w2为0，而在采用L2范数时，两者的交点常出现在某个象限中，即w1或w2均非0。

这说明了岭回归的一个明显缺点：模型的可解释性。它将把不重要的预测因子的系数缩小到趋近于 0，但永不达到 0。也就是说，最终的模型会包含所有的预测因子。但是，在 Lasso 中，如果将调整因子 λ 调整得足够大，L1 范数惩罚可以迫使一些系数估计值完全等于 0。因此，Lasso 可以进行变量选择，产生稀疏模型。注意到w取得稀疏解意味着初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中，于是求解L1范数正则化的结果时得到了仅采用一部分初始特征的模型；换言之，基于L1正则化的学习方法就是一种嵌入式特征选择方法，其特征选择过程和学习器训练过程融为一体，同时完成。

总结

L2 regularizer ：使得模型的解偏向于范数较小的 W，通过限制 W 范数的大小实现了对模型空间的限制，从而在一定程度上避免了 overfitting 。不过 ridge regression 并不具有产生稀疏解的能力，得到的系数仍然需要数据中的所有特征才能计算预测结果，从计算量上来说并没有得到改观。
L1 regularizer ：它的优良性质是能产生稀疏性，导致 W 中许多项变成零。稀疏的解除了计算量上的好处之外，更重要的是更具有“可解释性”。

L1与L2正则化的对比及多角度阐述为什么正则化可以解决过拟合问题的更多相关文章

L0、L1、L2范数正则化
一.范数的概念向量范数是定义了向量的类似于长度的性质,满足正定,齐次,三角不等式的关系就称作范数. 一般分为L0.L1.L2与L_infinity范数. 二.范数正则化背景 1. 监督机器学习问题无 ...
正则化方法：L1和L2 regularization、数据集扩增、dropout
正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合).其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在tr ...
正则化方法：L1和L2 regularization、数据集扩增、dropout（转）
ps:转的.当时主要是看到一个问题是L1 L2之间有何区别,当时对l1与l2的概念有些忘了,就百度了一下.看完这篇文章,看到那个对W减小,网络结构变得不那么复杂的解释之后,满脑子的6666------ ...
深度学习（五）正则化之L1和L2
监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”,也就是在规则化参数的同时最小化误差.最小化误差是为了让我们的模型 ...
机器学习（二十三）— L0、L1、L2正则化区别
1.概念 L0正则化的值是模型参数中非零参数的个数. L1正则化表示各个参数绝对值之和. L2正则化标识各个参数的平方的和的开方值. 2.问题 1)实现参数的稀疏有什么好处吗? 一个好处是可以简化 ...
机器学习中的L1、L2正则化
目录 1. 什么是正则化?正则化有什么作用? 1.1 什么是正则化? 1.2 正则化有什么作用? 2. L1,L2正则化? 2.1 L1.L2范数 2.2 监督学习中的L1.L2正则化 3. L1.L ...
4.机器学习——统计学习三要素与最大似然估计、最大后验概率估计及L1、L2正则化
1.前言之前我一直对于“最大似然估计”犯迷糊,今天在看了陶轻松.忆臻.nebulaf91等人的博客以及李航老师的<统计学习方法>后,豁然开朗,于是在此记下一些心得体会. “最大似然估计” ...
L1与L2损失函数和正则化的区别
本文翻译自文章:Differences between L1 and L2 as Loss Function and Regularization,如有翻译不当之处,欢迎拍砖,谢谢~ 在机器学习实 ...
深入理解L1、L2正则化
过节福利,我们来深入理解下L1与L2正则化. 1 正则化的概念正则化(Regularization) 是机器学习中对原始损失函数引入额外信息,以便防止过拟合和提高模型泛化性能的一类方法的统称.也就是 ...

随机推荐

Vue入门教程第一篇（概念及初始化）
注:为了本教程的准确性,部分描述引用了官网及网络内容. 安装Vue 1.使用npm安装vue: npm install vue 2.下载使用js文件: https://vuejs.org/js/vue ...
选择高性能NoSQL数据库的5个步骤
来源:Redislabs作者:Shabih Syed 翻译:Kevin (公众号:中间件小哥) 构建在线和运营应用程序的开发团队越来越多地选择一类新的数据库来支持它们.它被称为“NoSQL”或“Not ...
一份超级完整的PyCharm图解教程
微信搜索公众号:Python极客社区. 每天分享不一样的Python干货 PyCharm 是一种 Python IDE,可以帮助程序员节约时间,提高生产效率.那么具体如何使用呢?本文从 PyCharm ...
Mr. Rito Post Office
あなたは離島の郵便局に勤めるプログラマである．あなたの住んでいる地域は,複数の島々からなる．各島には一つ以上の港町がある．それらに加えて他の町や村があるかもしない．ある島から別の島に向かうためには船を ...
NOIP2011计算系数；
#include<cmath> #include<algorithm> #include<stdio.h> #include<iostream> #de ...
Webshell免杀绕过waf
转自圈子404师傅 0x01 前言# 尽最大努力在一文中让大家掌握一些有用的WEBSHELL免杀技巧 0x02 目录# 关于eval 于 assert 字符串变形定义函数绕过回调函数回调函数变形 ...
table表格中文字超出显示省略号
第一步: table {table-layout:fixed:}列宽由表格宽度和列宽度设定,不随文字多少变化第二步: td { white-space:nowrap;/*文本不会换行,文本会在在同一 ...
docker3-镜像的使用
基本使用命令: [root@ipha-dev71- docker]# docker search python # 搜索镜像 [root@ipha-dev71- docker]# docker pul ...
10 python学习笔记-操作数据库（十）
在功能.接口测试中,常常需要通过数据库的操作,来准备数据.检测环境及核对功能.接口的数据库操作是否正确. 在自动化测试中,就需要我们用代码连接数据库自动完成数据准备. 环境检查及数据库断言的功能.数据 ...
javascript单线程，异步与执行机制
js的单线程模型与游览器的进程/线程息息相关,在了解js单线程与异步的时候,建议先看看这篇文章为什么是单线程由于js是可操作dom的,如果js是多线程,在多线程的交互下,处于界面中的dom节点就可 ...

L1与L2正则化的对比及多角度阐述为什么正则化可以解决过拟合问题