http://blog.csdn.net/pipisorry/article/details/52108040

范数规则化

机器学习中出现的非常频繁的问题有：过拟合与规则化。先简单的来理解下常用的L0、L1、L2和核范数规则化，最后聊下规则化项参数的选择问题。

如何看待规则化项和过拟合

从不同角度来看待规则化

regularize这个词更多的意思是“使系统化”，“使体系化”，也就是说不要走极端，要建立和谐社会，科学发展观。

1 监督机器学习问题无非就是“minimize your error while regularizing your parameters”，也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据，而规则化参数是防止我们的模型过分拟合我们的训练数据。

因为参数太多，会导致我们的模型复杂度上升，容易过拟合，也就是我们的训练误差会很小。但训练误差小并不是我们的最终目标，我们的目标是希望模型的测试误差小，也就是能准确的预测新的样本。所以，我们需要保证模型“简单”的基础上最小化训练误差，这样得到的参数才具有好的泛化性能（也就是测试误差也小），而模型“简单”就是通过规则函数来实现的。另外，规则项的使用还可以约束我们的模型的特性，这样就可以将人对这个模型的先验知识融入到模型的学习当中，强行地让学习到的模型具有人想要的特性，例如稀疏、低秩、平滑等等。要知道，有时候人的先验是非常重要的。前人的经验会让你少走很多弯路，这就是为什么我们平时学习最好找个大牛带带的原因。对机器学习也是一样，如果被我们人稍微点拨一下，它肯定能更快的学习相应的任务。只是由于人和机器的交流目前还没有那么直接的方法，目前这个媒介只能由规则项来担当了。

2 规则化符合奥卡姆剃刀(Occam's razor)原理。它的思想很平易近人：在所有可能选择的模型中，我们应该选择能够很好地解释已知数据并且十分简单的模型。

3 从贝叶斯估计的角度来看，规则化项对应于模型的先验概率。

从贝叶斯学派角度来看，是加上了一个先验，然后计算后验，形式与1中的完全相同。比如假设先验服从高斯分布，那么这一项就是L2，如服从拉普拉斯分布，那么这一项就是L1。

因为数据中所包含信息的不充足是无法通过各类优化算法弥补的，所以需要引入一些先验信息或者说假设。这些先验信息就体现在正则化项的范数上，L0 L1/2 L1 是稀疏的， L2好像是光滑的～吧。

最小二乘回归问题：加2范数正则等价于加了高斯分布的先验，加1范数正则相当于加拉普拉斯分布先验。

拿Lasso（1范数正则）举例
$w^\star = argmin_w \| y - X w \|_2^2 + \lambda \|w \|_1.$

其实就是如下概率模型的最大后验。
$y = X w + \epsilon,$
$\epsilon \sim N(0, \sigma^2),$
$w_i \sim DoubleExponential(\lambda)$

如果不对w加拉普拉斯分布的先验，最大后验得到的是
$w^\star = argmin_w \| y - X w \|_2^2$
其实正则项就是对w的先验分布。

4 民间还有个说法就是，规则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项(regularizer)或惩罚项(penalty term)。统计学习理论的核心为泛化方程，也就是 $\mathcal{R}_{ept} \le \mathcal{R}_{emp} + \mathcal{G}_m[\mathcal{F}]$ ,其中左边表示期望风险，就是你在测试集上的错误率，右边第一项表示经验风险，就是你在训练集上的错误率，右边第二项称之为泛化复杂度，它取决于训练样本数 $m$ 和模型 $\mathcal{F}$ 。我们知道一般情况下， $\mathcal{R}_{emp} \le \mathcal{R}_{ept}$ 训练集上的损失一定小于测试集上的损失。所以，结合起来有： $\mathcal{R}_{emp} \le \mathcal{R}_{ept} \le \mathcal{R}_{emp} + \mathcal{G}_m[\mathcal{F}]$ ，如果此时泛化复杂度为0，那么测试集上的效果就和训练集上的效果一致，这时，学习机就具有了绝对的泛化能力。然而实际上，我们很难找到一个模型，其在训练集上损失小并且同时泛化复杂度也小。

言归正传，我们对于线性模型或者说更为广泛意义下的线性模型（比如前馈神经网络可以看做一种层叠的线性模型），有如下泛化方程：

$\mathcal{R}_{ept} \le \mathcal{R}_{emp} + (RL)^{K-1}ln^{\frac{3}{2}(K-1)}(m)\sqrt{\frac{R^2N^2}{m}} + \sqrt{\frac{ln(\delta^{-1})}{m}}$
其中： $R=||\vec w||_l$ , $L$ 为神经网络激活函数的李普希兹系数， $N$ 为样本的最大范数， $m$ 为训练集样本数， $K$ 为神经网络层数，其中，一般的感知器可看做 1 层神经网络 $(K=1)$ 。依据我们上述对统计泛化的描述，我们知道右边的第二项应该越小越好，越小的话，学习机泛化能力越强，测试集上的效果就越有保证！所以我们必须最小化 R，也就是最小化 $||\vec w||_l$ ，这就是从统计泛化角度解释了权系数范数的作用。
最小化权系数范数 $\min ||\vec w||_l$ 的统计学习本质是提高泛化能力。
5 从数学角度来看，原来的不适定问题，加入这一项约束可以得到一个较好的解。正则化理论是表明智能推理方法存在的一个信号。

[机器学习中引入L2范数的意义是什么？ - 知乎]

过拟合现象有多种解释（个人）

1 经典的是bias-variance decomposition，这种解释更加倾向于直观理解；

传统的机器学习中的bias-variance trade-off的解释

考虑二值分类问题。

$X\in R^k$ 是特征集合， $Y\in \left\{ 0 ,1 \right\}$ $P$ 是 $X\times Y$ 上的概率分布，记 $H$ 是所有的 $X$ $\rightarrow Y$ 的可测函数的集合。

记 $R^\ast$ $=arginf R(h)$ $h\in H$ 是所有分类器中分类性能最好的一个。

$R(h)=\int_{X\times Y}1_{ h(x\ne y) } dxdy$ 称分类器 $h$ 的泛化误差

这里做一点解释，P是真实的数据生成机制，可测函数只是一个技术性条件非数学系的可以无视，泛化误差代表分类器的预测能力，泛化误差越小越好。

我们希望找到一个分类函数使得泛化误差最小。

记 $L$ $=\left\{ f:X\rightarrow Y\right\}$ 中所有的线性函数。

记 $l^\ast$ 是所有线性分类函数里泛化误差最小的

对于任意线性分类函数 $f$ 它的泛化误差有如下分解

$R(f)-R(R^\ast )=R(f)-R(l^\ast )+R(l^\ast )-R(R^\ast )$

第一部分称模型的variance，反映的是算法性能的优劣，在线性模型里就是反应最小二乘估计量或者极大似然估计量的好坏。

第二部分称模型的bias，反映的是模型本身的优劣，即线性模型本身作为分类函数的好坏。

这样就很清楚了，若扩大我们搜索的分类函数的范围，bias这一部分会减小，但一般说来我们搜索到 $l^\ast$ 可能性会下降，这样就增大了variance。所以在搜索范围上我们需要做一种权衡，这种权衡就是bias-variance trade-off。正则化使我们减少搜索范围，这样variance的部分会减小，bias的部分又不会增大太快。这就是为什么正则化有可能会改善我们泛化误差。这是一个非常一般的框架。

[偏置方差分解Bias-variance Decomposition]
[知乎：机器学习中使用「正则化来防止过拟合」到底是一个什么原理？为什么正则化项就可以防止过拟合？]
2 泛化界解释，这种解释是最透彻，最fundamental的；
3 Bayes先验解释，这种解释把正则变成先验。
4 Stein‘s Pheonomenon

这是高维统计学里最重要的发现之一。当维数大于等于3时

若 $x_{i} \sim N(\theta ,\sigma ^2I_{d} )$ $d\geq 3$ 则用均值估计 $\theta$ 居然不是最好的估计量。

即 $E(\bar{x} -\theta )^2\geq E(\theta _{ JS} -\theta )^2$ 对于 $\theta$ 取任何值都成立。

换句话说用Stein估计量去估计均值会比极大似然估计量要好。这个估计量看起来很复杂，大家先不用管他。Stein估计量有一种Shrinkage(数据收缩)的现象。这种Shrinkage导致的结果就是估计量的方差减小。虽然这个估计量是有偏的，但是由于方差减小可以补偿估计量的偏差。所以导致这个估计量比极大似然估计量要好。

正则化导致估计量的Shrinkage，Shrinkage导致variance减小，如果variance的减小可以补偿bias则正则化可以改善泛化误差。

监督学习最小化目标函数

一般来说，监督学习可以看做最小化下面的目标函数：

其中，第一项L(yi,f(xi;w)) 衡量我们的模型（分类或者回归）对第i个样本的预测值f(xi;w)和真实的标签yi之前的误差。因为我们的模型是要拟合我们的训练样本的，所以我们要求这一项最小。但正如上面说言，我们不仅要保证训练误差最小，我们更希望我们的模型测试误差小，所以我们需要加上第二项，也就是对参数w的规则化函数Ω(w)去约束我们的模型尽量的简单。

loss函数

机器学习的大部分带参模型都和这个不但形似，而且神似。是的，其实大部分无非就是变换这两项而已。对于第一项Loss函数，如果是Square loss，那就是最小二乘了；如果是Hinge Loss，那就是著名的SVM了；如果是exp-Loss，那就是牛逼的 Boosting了；如果是log-Loss，那就是Logistic Regression了；还有等等。不同的loss函数，具有不同的拟合特性，这个也得就具体问题具体分析的。

规则项Ω(w)

但这里，我们先不究loss函数的问题，我们把目光转向“规则项Ω(w)”。规则化函数Ω(w)也有很多种选择，一般是模型复杂度的单调递增函数，模型越复杂，规则化值就越大。比如，规则化项可以是模型参数向量的范数。然而，不同的选择对参数w的约束不同，取得的效果也不同，但我们在论文中常见的都聚集在：零范数、一范数、二范数、迹范数、Frobenius范数和核范数等等。

那么，这么多范数，到底它们表达啥意思？具有啥能力？什么时候才能用？什么时候需要用呢？我们挑几个常见的娓娓道来。

皮皮blog

一、L0范数、L1范数与稀疏

L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话，就是希望W的大部分元素都是0。换句话说，让参数W是稀疏的。看到了“稀疏”二字，大家都应该从当下风风火火的“压缩感知”和“稀疏编码”中醒悟过来，原来用的“稀疏”就是通过这玩意来实现的。可是看到的papers世界中，稀疏不是都通过L1范数||W||1来实现吗？没错，这就是这节的题目把L0和L1放在一起的原因，因为他们有着某种不寻常的关系。

L1范数是什么？它为什么可以实现稀疏？

L1范数是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lasso regularization）。现在我们来分析下这个价值一个亿的问题：为什么L1范数会使权值稀疏？有人可能会这样给你回答“它是L0范数的最优凸近似”。实际上，还存在一个更美的回答：任何的规则化算子，如果他在Wi=0的地方不可微，并且可以分解为一个“求和”的形式，那么这个规则化算子就可以实现稀疏。这说是这么说，W的L1范数是绝对值，|w|在w=0处是不可微，但这还是不够直观，这里因为我们需要和L2范数进行对比分析，所以关于L1范数的直观理解，请待会看看第二节。

既然L0可以实现稀疏，为什么不用L0，而要用L1呢？

个人理解，一是因为L0范数很难优化求解（NP难问题），二是L1范数是L0范数的最优凸近似，而且它比L0范数要容易优化求解。所以大家才把目光和万千宠爱转于L1范数。

一句话总结：L1范数和L0范数可以实现稀疏，L1因具有比L0更好的优化求解特性而被广泛应用。

为什么要稀疏？让我们的参数稀疏有什么好处呢？

1）特征选择(Feature Selection)：

大家对稀疏规则化趋之若鹜的一个关键原因在于它能实现特征的自动选择。一般来说，xi的大部分元素（特征）都是和最终的输出yi没有关系或者不提供任何信息的，在最小化目标函数的时候考虑xi这些额外的特征，虽然可以获得更小的训练误差，但在预测新的样本时，这些没用的信息反而会被考虑，从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的使命，它会学习去掉这些没有信息的特征，把这些特征对应的权重置为0。

2）可解释性(Interpretability)：

另一个青睐于稀疏的理由是，模型更容易解释。例如患某种病的概率是y，然后我们收集到的数据x是1000维的，也就是我们需要寻找这1000种因素到底是怎么影响患上这种病的概率的。

假设我们这个是个回归模型：y=w1*x1+w2*x2+…+w1000*x1000+b（当然了，为了让y限定在[0,1]的范围，一般还得加个Logistic函数）。通过学习，如果最后学习到的w*就只有很少的非零元素，例如只有5个非零的wi，那么我们就有理由相信，这些对应的特征在患病分析上面提供的信息是巨大的，决策性的。也就是说，患不患这种病只和这5个因素有关，那医生就好分析多了。但如果1000个wi都非0，医生面对这1000种因素，累觉不爱。

皮皮blog

二、L2范数与过拟合

除了L1范数，还有一种更受宠幸的规则化范数是L2范数: ||W||2。它也不逊于L1范数，它有两个美称，在回归里面，有人把有它的回归叫“岭回归”（Ridge Regression），有人也叫它“权值衰减weight decay”。用的很多，因为它的强大功效是改善机器学习里面一个非常重要的问题：过拟合。至于过拟合是什么，上面也解释了，就是模型训练时候的误差很小，但在测试的时候误差很大，也就是我们的模型复杂到可以拟合到我们的所有训练样本了，但在实际预测新的样本的时候，糟糕的一塌糊涂。

过拟合图示

线性回归

Logistic回归，也可以说是分类的情况

[from: Machine Learning - VII. Regularization规格化 (Week 3)]

从左到右分别是欠拟合（underfitting，也称High-bias）、合适的拟合和过拟合（overfitting，也称High variance）三种情况。可以看到，如果模型复杂（可以拟合任意的复杂函数），它可以让我们的模型拟合所有的数据点，也就是基本上没有误差。对于回归来说，就是我们的函数曲线通过了所有的数据点，如上图右。对分类来说，就是我们的函数曲线要把所有的数据点都分类正确，如下图右。这两种情况很明显过拟合了。

为什么L2范数可以防止过拟合？

L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的规则项||W||2最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0。而越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象。

为什么越小的参数说明模型越简单？

个人理解可能是：限制了参数很小，实际上就限制了多项式某些分量的影响很小（看上面线性回归的模型的那个拟合的图），这样就相当于减少参数个数。

为什么过拟合的时候系数会很大？

如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。

[知乎：机器学习中使用「正则化来防止过拟合」到底是一个什么原理？为什么正则化项就可以防止过拟合？]

一句话总结下：通过L2范数，我们可以实现了对模型空间的限制，从而在一定程度上避免了过拟合。

L2范数的好处是什么呢？

1）学习理论的角度：

从学习理论的角度来说，L2范数可以防止过拟合，提升模型的泛化能力。

2）优化计算的角度：

从优化或者数值计算的角度来说，L2范数有助于处理条件数 condition number不好的情况下矩阵求逆很困难的问题。[数值分析：矩阵求逆]

线性回归最优解

因为目标函数如果是二次的，对于线性回归来说，那实际上是有解析解的，求导并令导数等于零即可得到最优解为：

然而，如果当我们的样本X的数目比每个样本的维度还要小的时候，矩阵XTX将会不是满秩的（why???），也就是XTX会变得不可逆，所以w*就没办法直接计算出来了，或者更确切地说，将会有无穷多个解（因为我们方程组的个数小于未知数的个数）。也就是说，我们的数据不足以确定一个解，如果我们从所有可行解里随机选一个的话，很可能并不是真正好的解，总而言之，我们过拟合了。

但如果加上L2规则项，就变成了下面这种情况，就可以直接求逆了：

这里面，专业点的描述是：要得到这个解，我们通常并不直接求矩阵的逆，而是通过解线性方程组的方式（例如高斯消元法）来计算。考虑没有规则项的时候，也就是λ=0的情况，如果矩阵XTX的 condition number 很大的话，解线性方程组就会在数值上相当不稳定，而这个规则项的引入则可以改善condition number。

迭代优化的算法的规则化收敛速度优化

另外，如果使用迭代优化的算法，condition number 太大仍然会导致问题：它会拖慢迭代的收敛速度，而规则项从优化的角度来看，实际上是将目标函数变成λ-strongly convex（λ强凸）的了。

什么是λ强凸？

当f满足：

时，我们称f为λ-stronglyconvex函数，其中参数λ>0。当λ=0时退回到普通convex 函数的定义。

在直观的说明强凸之前，我们先看看普通的凸是怎样的。假设我们让f在x的地方做一阶泰勒近似（一阶泰勒展开忘了吗？f(x)=f(a)+f'(a)(x-a)+o(||x-a||).）：

直观来讲，convex 性质是指函数曲线位于该点处的切线，也就是线性近似之上，而 strongly convex 则进一步要求位于该处的一个二次函数上方，也就是说要求函数不要太“平坦”而是可以保证有一定的“向上弯曲”的趋势。专业点说，就是convex 可以保证函数在任意一点都处于它的一阶泰勒函数之上，而strongly convex可以保证函数在任意一点都存在一个非常漂亮的二次下界quadratic lower bound。当然这是一个很强的假设，但是同时也是非常重要的假设。可能还不好理解，那我们画个图来形象的理解下。

如果我们的函数f(w)如左图红色那个函数，我们取我们的最优解w*的地方都会位于蓝色虚线的那根二次函数之上，这样就算wt和w*离的比较近的时候，f(wt)和f(w*)的值差别还是挺大的，也就是会保证在我们的最优解w*附近的时候，还存在较大的梯度值，这样我们才可以在比较少的迭代次数内达到w*。但对于右图，红色的函数f(w)只约束在一个线性的蓝色虚线之上，假设是如右图的很不幸的情况（非常平坦），那在wt还离我们的最优点w*很远的时候，我们的近似梯度(f(wt)-f(w*))/(wt-w*)就已经非常小了，在wt处的近似梯度∂f/∂w就更小了，这样通过梯度下降wt+1=wt-α*(∂f/∂w)，我们得到的结果就是w的变化非常缓慢，像蜗牛一样，非常缓慢的向我们的最优点w*爬动，那在有限的迭代时间内，它离我们的最优点还是很远。

所以仅仅靠convex 性质并不能保证在梯度下降和有限的迭代次数的情况下得到的点w会是一个比较好的全局最小点w*的近似点（插个话，有地方说，实际上让迭代在接近最优的地方停止，也是一种规则化或者提高泛化性能的方法）。正如上面分析的那样，如果f(w)在全局最小点w*周围是非常平坦的情况的话，我们有可能会找到一个很远的点。但如果我们有“强凸”的话，就能对情况做一些控制，我们就可以得到一个更好的近似解。至于有多好，这里面有一个bound，这个 bound 的好坏也要取决于strongly convex性质中的常数α的大小。

如果要获得strongly convex怎么做？

最简单的就是往里面加入一项(α/2)*||w||2。

这里的alpha就是上式中的lambda???

实际上，在梯度下降中，目标函数收敛速率的上界实际上是和矩阵XTX的 condition number有关，XTX的 condition number 越小，上界就越小，也就是收敛速度会越快。

一句话总结：L2范数不但可以防止过拟合，还可以让我们的优化求解变得稳定和快速。

L1和L2的差别

为什么一个让绝对值最小，一个让平方最小，会有那么大的差别呢？有两种几何上直观的解析：

1）下降速度

我们知道，L1和L2都是规则化的方式，我们将权值参数以L1或者L2的方式放到代价函数里面去。然后模型就会尝试去最小化这些权值参数。个人理解：这个最小化就像一个下坡的过程，L1和L2的差别就在于这个“坡”不同，如下图：L1就是按绝对值函数的“坡”下降的，而L2是按二次函数的“坡”下降。所以实际上在0附近，L1的下降速度比L2的下降速度要快。所以会非常快得降到0。

L1在江湖上人称Lasso，L2人称Ridge。不过这两个名字还挺让人迷糊的，看上面的图片，Lasso的图看起来就像ridge，而ridge的图看起来就像lasso。

2）模型空间的限制

实际上，对于L1和L2规则化的代价函数来说，我们可以写成以下形式：

也就是说，我们将模型空间限制在w的一个L1-ball 中。为了便于可视化，我们考虑两维的情况，在(w1, w2)平面上可以画出目标函数的等高线，而约束条件则成为平面上半径为C的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解：

彩色线就是优化过程中遇到的等高线，一圈代表一个目标函数值，圆心就是样本观测值（假设一个样本），半径就是误差值，受限条件就是黑色边界（就是正则化那部分），二者相交处，才是最优参数。

可以看到，L1-ball 与L2-ball 的不同就在于L1在和每个坐标轴相交的地方都有“角”出现，而目标函数的测地线除非位置摆得非常好，大部分时候都会在角的地方相交。注意到在角的位置就会产生稀疏性，例如图中的相交点就有w1=0，而更高维的时候（想象一下三维的L1-ball 是什么样的？）除了角点以外，还有很多边的轮廓也是既有很大的概率成为第一次相交的地方，又会产生稀疏性。

相比之下，L2-ball 就没有这样的性质，因为没有角，所以第一次相交的地方出现在具有稀疏性的位置的概率就变得非常小了。这就从直观上来解释了为什么L1-regularization 能产生稀疏性，而L2-regularization 不行的原因了。

Note: 不少人会用“模型复杂度”替代上面的“模型空间”。但“模型复杂度”往往容易给人一个误解，认为是一个模型本身长得复杂。例如5次多项式就要比2次多项式复杂，这是错的。因此我更愿意用“模型空间”，强调“复杂度”是候选模型的“数量”，而不是模型本事的“长相”。

2范最优值不在0点上，不稀疏

1范可能多个值，没有解，两线之间的所有梯度集合，图像都在线上面

使用次梯度subgradient解决？

[PRML前三章]

[大数据分析中的优化算法选讲刘歆 (AMSS, CAS)]

一句话总结就是：L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。Lasso在特征选择时候非常有用，而Ridge就只是一种规则化而已。

从贝叶斯的角度看这个问题

在前面的介绍中已经提到了一点。

L1假设的是模型的参数取值满足拉普拉斯分布，L2假设的模型参数是满足高斯分布。

简而言之就是：L1是假设参数服从双指数分布，利于保证权值向量的稀疏性；L2是假设参数服从高斯分布，利于防止过拟合。

作者：ALAN Huang
链接：https://www.zhihu.com/question/20700829/answer/35306184
来源：知乎
著作权归作者所有，转载请联系作者获得授权。

Orangeprince 的回答非常学院派，也非常系统。过拟合表现在训练数据上的误差非常小，而在测试数据上误差反而增大。其原因一般是模型过于复杂，过分得去拟合数据的噪声和outliers. 正则化则是对模型参数添加先验，使得模型复杂度较小，对于噪声以及outliers的输入扰动相对较小。以正则化项和损失函数都是l_2 norm 为例，下面贴一张上课用的slide.

我们相当于是给模型参数w 添加了一个协方差为1/alpha 的零均值高斯分布先验。对于alpha =0，也就是不添加正则化约束，则相当于参数的高斯先验分布有着无穷大的协方差，那么这个先验约束则会非常弱，模型为了拟合所有的训练数据，w可以变得任意大不稳定。alpha越大，表明先验的高斯协方差越小，模型约稳定，相对的variance也越小。
也正如其他答题者所说，加入正则化是在bias和variance之间做一个tradeoff.
[知乎：机器学习中使用「正则化来防止过拟合」到底是一个什么原理？为什么正则化项就可以防止过拟合？]

[机器学习中的范数规则化之（一）L0、L1与L2范数]

皮皮blog

机器学习规则化的拓展

由于大部分场景下，我们都是对于单目标值进行训练，即求权值向量的L2值（权值向量的模的大小），然而在多目标值训练时，我们要求解权值矩阵的L2值，怎么求？意义是什么？

[关于线性模型你可能还不知道的二三事（三、特征值与奇异值的魔力）]

其它相关资料

[关于线性模型你可能还不知道的二三事（一、样本）

关于线性模型你可能还不知道的二三事（二、也谈民主）

关于线性模型你可能还不知道的二三事（三、特征值与奇异值的魔力）]

from: http://blog.csdn.net/pipisorry/article/details/52108040

ref: [wikipedia Regularization (mathematics)]

最优化方法：范数和规则化regularization的更多相关文章

paper 126：[转载] 机器学习中的范数规则化之（一）L0、L1与L2范数
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
机器学习中的范数规则化之（一）L0、L1与L2范数（转）
http://blog.csdn.net/zouxy09/article/details/24971995 机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http: ...
机器学习中的范数规则化之（一）L0、L1与L2范数非常好，必看
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
机器学习中的范数规则化-L0,L1和L2范式（转载）
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
机器学习中的规则化范数(L0, L1, L2, 核范数)
目录: 一.L0,L1范数二.L2范数三.核范数今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理解下常用的L0.L1.L2和核范数规则化.最后聊下规则化项参数的选择问 ...
机器学习中的范数规则化 L0、L1与L2范数核范数与规则项参数选择
http://blog.csdn.net/zouxy09/article/details/24971995 机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http: ...
机器学习中的范数规则化之L0、L1与L2范数
今天看到一篇讲机器学习范数规则化的文章,讲得特别好,记录学习一下.原博客地址(http://blog.csdn.net/zouxy09). 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
机器学习中的范数规则化之 L0、L1与L2范数、核范数与规则项参数选择
装载自:https://blog.csdn.net/u012467880/article/details/52852242 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化.我们先简单的来理 ...
机器学习中的范数规则化之 L0、L1与L2范数
http://blog.csdn.net/zouxy09/article/details/24971995/ L1正则化及其推导 Laplace(拉普拉斯)先验与L1正则化今天我们聊聊机器学习中出现 ...

随机推荐

[SCOI2012]滑雪与时间胶囊
题目描述 a180285非常喜欢滑雪.他来到一座雪山,这里分布着MMM条供滑行的轨道和NNN个轨道之间的交点(同时也是景点),而且每个景点都有一编号iii(1≤i≤N1 \le i \le N1≤i≤ ...
●POJ 3348 Cows
题链: http://poj.org/problem?id=3348 题解: 计算几何,凸包,多边形面积好吧,就是个裸题,没什么可讲的. 代码: #include<cmath> #inc ...
hdu 5643 BestCoder Round #75
King's Game Accepts: 249 Submissions: 671 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 6 ...
关于InnoDB的读写锁类型以及加锁方式
(本文为了方便,英文关键词都都采用小写方式,相关知识点会简单介绍,争取做到可以独立阅读) 文章开始我会先介绍本文需要的知识点如下: innodb的聚簇索引(聚集索引)和非聚簇索引(二级索引.非聚集索引 ...
《cocos2d-x游戏开发之旅》问题2016-10-7
今天按书上做,遇到问题卡住了书P115 项目是 littlerunner
用solidity语言开发代币智能合约
智能合约开发是以太坊编程的核心之一,而代币是区块链应用的关键环节,下面我们来用solidity语言开发一个代币合约的实例,希望对大家有帮助. 以太坊的应用被称为去中心化应用(DApp),DApp的开发 ...
python2.7练习小例子（三）
3):题目:一个整数,它加上100后是一个完全平方数,再加上168又是一个完全平方数,请问该数是多少? 程序分析:假设该数为 x.1.则:x + 100 = n2, x + 100 + ...
使用JdbcTemplate过程中使用到多个参数和like模糊
项目中经常会用到模糊查询,最近使用JdbcTemplate过程中就遇到了. 一开始尝试了拼接的方式去 String sql = "select count(1) from web_users ...
Springboot整合log4j2【详细步骤】
1.去除logback中的依赖包 <dependency> <groupId>org.springframework.boot</groupId> <arti ...
Spring AOP @Around @Before @After 区别
此段小代码演示了spring aop中@Around @Before @After三个注解的区别@Before是在所拦截方法执行之前执行一段逻辑.@After 是在所拦截方法执行之后执行一段逻辑.@A ...

最优化方法：范数和规则化regularization

范数规则化

如何看待规则化项和过拟合

从不同角度来看待规则化

过拟合现象有多种解释（个人）

监督学习最小化目标函数

loss函数

规则项Ω(w)

一、L0范数、L1范数与稀疏

L1范数是什么？它为什么可以实现稀疏？

既然L0可以实现稀疏，为什么不用L0，而要用L1呢？

为什么要稀疏？让我们的参数稀疏有什么好处呢？

二、L2范数与过拟合

过拟合图示

为什么L2范数可以防止过拟合？

为什么越小的参数说明模型越简单？

为什么过拟合的时候系数会很大？

L2范数的好处是什么呢？

线性回归最优解

迭代优化的算法的规则化收敛速度优化

什么是λ强凸？

如果要获得strongly convex怎么做？

L1和L2的差别

1）下降速度

2）模型空间的限制

从贝叶斯的角度看这个问题

机器学习规则化的拓展

最优化方法：范数和规则化regularization的更多相关文章

随机推荐

热门专题