SVM和LASSO是机器学习里两个非常经典的模型,每个模型都有大量的文献进行研究。其中去年出版的这本书——《Regularization, Optimization, Kernels, and Support Vector Machines》的第一章证明了某些形式的SVM和LASSO其实是等价的,这里的“等价”是指给定一个SVM/LASSO的特例,可以将它们规约成一个LASSO/SVM的特例,归约前后的两个问题拥有相同的最优值,给定规约前问题的最优解,可以得到一个对应的规约后问题的最优解。因此这也启示我们,它们之间的一些方法可以共通,比如SVM里将线性拓展到非线性的核技巧(kernel trick)可以用到LASSO上,LASSO上各种预处理的screening rules也可以用到SVM上进行支持向量筛选等等。

  

  一、简介

  为了保持思路清晰,先给出结论,对偶问题可以表示成如下形式\begin{align} \label{pro: svm} \min_{\boldsymbol{x} \in \vartriangle} \ \ \|\boldsymbol{A} \boldsymbol{x}\|^2 \end{align}的SVM,其中$\vartriangle = \{ \ \boldsymbol{x} \in \mathbb{R}^m \ | \ \boldsymbol{x} \geq \boldsymbol{0} , \sum_i x_i = 1 \ \}$,与如下形式\begin{align} \label{pro: lasso} \min_{\boldsymbol{x} \in \blacklozenge} \ \ \|\boldsymbol{A} \boldsymbol{x} - \boldsymbol{b} \|^2 \end{align}的LASSO是等价的,其中$\blacklozenge = \{ \ \boldsymbol{x} \in \mathbb{R}^m \ | \ \|\boldsymbol{x}\|_1 \leq 1 \ \}$。

  首先,为何(\ref{pro: svm})式会是SVM呢?这个我们可以通过右图看出来,假设黄色区域为正类样本构成的凸包,蓝色区域为负类样本构成的凸包,那么SVM就是要找到间隔最大的两个支撑超平面将两类样本分开,也即红色的两根虚线。将负类样本以及负类的支撑超平面以原点做中心对称变换,那么负类样本的凸包就变到了灰色区域,两根支撑超平面也重合了,这时最大间隔就是原点到灰色区域与黄色区域构成的凸包的最短距离。

  因此若设数据集为$\{(\boldsymbol{x}_1, y_1), \cdots, (\boldsymbol{x}_m, y_m)\}, \boldsymbol{x}_i \in \mathbb{R}^d, y_i \in \{+1, -1\}$,记$\boldsymbol{A} = [y_1 \boldsymbol{x}_1, \cdots, y_m \boldsymbol{x}_m]$,那么灰色区域与黄色区域构成的凸包可写为\begin{align*} \boldsymbol{A} \boldsymbol{\alpha}, \boldsymbol{\alpha} \in \vartriangle \end{align*}显然求原点到此凸包的最短距离就是求解(\ref{pro: svm})式。

  其次,哪些形式的对偶问题可以表示成(\ref{pro: svm})式那样呢?从前面的论述可以看出,不带偏移项的硬间隔SVM(即分类超平面过原点)肯定是可以的,引理4.1证明了$l_2$-损失的软间隔SVM也是可以的,因为通过一些简单的变换可以把它变成硬间隔SVM。若想将偏移项也加上,只需将偏移项吸收进$\boldsymbol{w}$,同时给所有样本添加一维特征即可,虽然此时目标函数多了一项——偏移项的平方,但可以通过将样本添加的那一维特征设得很大,从而使得偏移项的平方变得很小,这样对目标函数的优化几乎不产生影响。

  关于LASSO,其约束一般写成$\|\boldsymbol{x}\|_1 \leq r$,其中$r$是用户预先指定的参数,但通过对矩阵$\boldsymbol{A}$的所有元素都乘以$r$即可将任意的LASSO写成(\ref{pro: lasso})式。

  最后对于(\ref{pro: svm})式,记$\boldsymbol{A} = [\boldsymbol{a}_1, \cdots, \boldsymbol{a}_m]$,注意$\boldsymbol{x} \in \vartriangle$,因此有\begin{align*} \boldsymbol{A} \boldsymbol{x} = \boldsymbol{A} \boldsymbol{x} + \boldsymbol{b} (\boldsymbol{1} ^\top \boldsymbol{x} -1) = [\boldsymbol{a}_1 + \boldsymbol{b}, \cdots, \boldsymbol{a}_m + \boldsymbol{b}] \boldsymbol{x} - \boldsymbol{b} = [\widetilde{\boldsymbol{a}}_1, \cdots, \widetilde{\boldsymbol{a}}_m] \boldsymbol{x} - \boldsymbol{b} = \widetilde{\boldsymbol{A}} \boldsymbol{x} - \boldsymbol{b} \end{align*}其中$\widetilde{\boldsymbol{a}}_i = \boldsymbol{a}_i + \boldsymbol{b}$,$\widetilde{\boldsymbol{A}} = [\widetilde{\boldsymbol{a}}_1, \cdots,\widetilde{\boldsymbol{a}}_m]$。因此每个(\ref{pro: svm})式的SVM都可以等价地转化成如下形式的一个伪LASSO:\begin{align*} \min_{\boldsymbol{x} \in \vartriangle} \ \ \|\widetilde{\boldsymbol{A}} \boldsymbol{x} - \boldsymbol{b} \|^2 \end{align*}于是剩下的就是说明真伪LASSO间如何相互转换。事实上,真变伪比较容易,伪变真就相当难了,这也是大师区别于我们菜鸟的地方,下面我们来看看大师的技巧。

  

  二、LASSO$\Rightarrow$SVM

  由前面的论述可知只需将真LASSO转化为伪LASSO就行了,注意它们之间唯一的区别就是可行域不同,因此如果能将$\blacklozenge$中的每个元素由$\vartriangle$中的元素表示出来,那问题就解决了。事实上,对于任意向量$\boldsymbol{x}_\blacklozenge \in \mathbb{R}^m$,存在$\boldsymbol{x}_\vartriangle \in\mathbb{R}^{2m}$使得\begin{align*} \begin{cases} \boldsymbol{x}_\blacklozenge = [\boldsymbol{I}_m, -\boldsymbol{I}_m] \boldsymbol{x}_\vartriangle \\ \boldsymbol{x}_\vartriangle \in \vartriangle_{2m} \end{cases} \end{align*}成立。注意这是$2m$个变量、$m+1$个方程构成的线性方程组,当$m \geq 1$时总有$2m \geq m+1$,也就是说这个方程组总是有解的。

  有了这个线性表示,则\begin{align*} \min_{\boldsymbol{x} \in \blacklozenge_m} \ \ \|\boldsymbol{A} \boldsymbol{x} - \boldsymbol{b} \|^2 =\min_{\boldsymbol{x} \in \vartriangle_{2m}} \ \ \|\boldsymbol{A} [\boldsymbol{I}_m, -\boldsymbol{I}_m] \boldsymbol{x} - \boldsymbol{b} \|^2 =\min_{\boldsymbol{x} \in \vartriangle_{2m}} \ \ \| [\boldsymbol{A}, -\boldsymbol{A}] \boldsymbol{x} - \boldsymbol{b} \|^2 \end{align*}这就将真LASSO化为了伪LASSO。

  于是对于一个给定的LASSO\begin{align*} \min_{\boldsymbol{x} \in \blacklozenge_m} \ \ \|\boldsymbol{A} \boldsymbol{x} - \boldsymbol{b} \|^2\end{align*}其中,$\boldsymbol{A} = [\boldsymbol{a}_1, \cdots, \boldsymbol{a}_m] \in \mathbb{R}^{d \times m}$,其等价的SVM为\begin{align*}\min_{\boldsymbol{x} \in \vartriangle_{2m}} \ \ \|\widetilde{\boldsymbol{A}} \boldsymbol{x} \|^2 \end{align*}其中$\widetilde{\boldsymbol{A}} = [\boldsymbol{a}_1 - \boldsymbol{b}, \cdots, \boldsymbol{a}_m - \boldsymbol{b}, -\boldsymbol{a}_1 - \boldsymbol{b}, \cdots, -\boldsymbol{a}_m - \boldsymbol{b}] \in \mathbb{R}^{d \times 2m}$。即对于$d$个$m$维样本的LASSO,其等价的是$2m$个$d$维样本的SVM。

  

  三、SVM$\Rightarrow$LASSO

  对于一个给定的SVM,记$\boldsymbol{A} = [\boldsymbol{a}_1, \cdots, \boldsymbol{a}_m] \in \mathbb{R}^{d \times m}$,由前面的论述可知只需将如下形式的伪LASSO\begin{align*} \min_{\boldsymbol{x} \in \vartriangle} \ \ \|\widetilde{\boldsymbol{A}} \boldsymbol{x} - \boldsymbol{b} \|^2 \end{align*}转化为真LASSO就行了,其中$\widetilde{\boldsymbol{A}} = [\widetilde{\boldsymbol{a}}_1, \cdots,\widetilde{\boldsymbol{a}}_m]$,$\widetilde{\boldsymbol{a}}_i = \boldsymbol{a}_i + \boldsymbol{b}$。为此必须证明\begin{align*} \mbox{argmin}_{\boldsymbol{x} \in \blacklozenge} \ \ \|\widetilde{\boldsymbol{A}} \boldsymbol{x} - \boldsymbol{b} \|^2 \in \vartriangle \end{align*}即$\min_{\boldsymbol{x} \in \blacklozenge} \ \ \|\widetilde{\boldsymbol{A}} \boldsymbol{x} - \boldsymbol{b} \|^2$ 的最优解只会在$\vartriangle$上取得。

  于是关键就是$\boldsymbol{b}$的设计,下面先从几何角度给出一个直观的解释,然后再给出严格证明。

  注意最小化$\|\widetilde{\boldsymbol{A}} \boldsymbol{x} - \boldsymbol{b} \|^2$其实就是求$\widetilde{\boldsymbol{A}} \boldsymbol{x}$和$\boldsymbol{b}$的最短距离。若限制$\boldsymbol{x} \in \vartriangle$,则$\widetilde{\boldsymbol{A}} \boldsymbol{x}$和$\boldsymbol{b}$的最短距离就是$\boldsymbol{A} \boldsymbol{x}$和原点的最短距离,因为前者是后者平移$\boldsymbol{b}$得到的。可行域扩展到$\blacklozenge$后,$\widetilde{\boldsymbol{A}} \blacklozenge$就是$\widetilde{\boldsymbol{A}} \vartriangle$与$-\widetilde{\boldsymbol{A}} \vartriangle$构成的凸包,因此要想此时离$\boldsymbol{b}$最近的点依然只属于$\widetilde{\boldsymbol{A}} \vartriangle$,必须使得$\boldsymbol{b}$和$-\widetilde{\boldsymbol{A}} \vartriangle$分别位于$\widetilde{\boldsymbol{A}} \vartriangle$的两旁。如下图所示,起初若设计$\boldsymbol{b}$使得它和$\boldsymbol{A} \vartriangle$分别位于原点的两旁,平移后使得$\widetilde{\boldsymbol{A}} \vartriangle$与$\boldsymbol{b}$位于原点的同一边($\boldsymbol{b}$离原点更远些),这样翻转$\widetilde{\boldsymbol{A}} \vartriangle$后得到的$-\widetilde{\boldsymbol{A}} \vartriangle$就落在了原点的另一边,显然它会离$\boldsymbol{b}$更远。
  具体来说,设某个分界面$\boldsymbol{w}$对应的最小间隔为$\sigma > 0$(注意这里不要求$\boldsymbol{w}$是最优分界面),即\begin{align*} \forall i, \ \boldsymbol{a}_i^\top \frac{\boldsymbol{w}}{\|\boldsymbol{w}\|} \geq \sigma \end{align*}再设$D$是球心在原点、包含整个$\boldsymbol{A} \vartriangle$的最小球半径,即对于任意$i$有$\|\boldsymbol{a}_i\| \leq D$,于是$\boldsymbol{b}$可设计如下\begin{align*} \boldsymbol{b} = - \frac{\boldsymbol{w}}{\|\boldsymbol{w}\|} \frac{D^2}{\sigma} \end{align*}注意$\boldsymbol{w}$代表了$\boldsymbol{A} \vartriangle$的大致方向,那么$\boldsymbol{b}$应该位于另一边,这就是$\boldsymbol{b}$ 取$-\boldsymbol{w}$作为方向的原因,至于为何平移距离为$D^2 / \sigma$,是为了后面证明的方便(平移距离的设计不是唯一的)。

  下面两个命题定义了“翻转”和“拉伸”两个操作,并证明了这两个操作可以使得目标函数值下降,因此结合这两个命题可知,虽然可行域是$\blacklozenge$,但最优解只可能属于$\vartriangle$。

  命题3.1[翻转] 对于任意$\boldsymbol{x}_\blacklozenge \in \blacklozenge$,若其某些维度为负,那么将这些维度取反可以使得$\|\widetilde{\boldsymbol{A}} \boldsymbol{x} - \boldsymbol{b} \|^2$的值更小。

  证明:设向量$\boldsymbol{\delta} = [\delta_1, \cdots, \delta_m]^\top$定义如下\begin{align*} \delta_i = \begin{cases} - (\boldsymbol{x}_\blacklozenge)_i & (\boldsymbol{x}_\blacklozenge)_i < 0 \\ 0 & (\boldsymbol{x}_\blacklozenge)_i \geq 0 \end{cases} \end{align*}易知$\boldsymbol{x}_\blacklozenge + \boldsymbol{\delta}$的效果就是把$\boldsymbol{x}_\blacklozenge$取负的维度变成$0$,从而使其属于$\blacktriangle = \{ \ \boldsymbol{x} \in \mathbb{R}^m \ | \ \boldsymbol{x} \geq \boldsymbol{0} , \sum_i x_i \leq 1 \ \}$,记取反后的向量为$\boldsymbol{x}_\blacktriangle$,显然$\boldsymbol{x}_\blacktriangle = \boldsymbol{x}_\blacklozenge + 2\boldsymbol{\delta}$。

  由$\|\boldsymbol{c}+\boldsymbol{d}\|^2 - \|\boldsymbol{c}\|^2 = 2 \boldsymbol{c}^\top \boldsymbol{d} + \boldsymbol{d}^\top \boldsymbol{d} = (2 \boldsymbol{c} + \boldsymbol{d})^\top \boldsymbol{d}$ 可知\begin{align*} \| \widetilde{\boldsymbol{A}} \boldsymbol{x}_\blacktriangle - \boldsymbol{b} \|^2 - \|\widetilde{\boldsymbol{A}} \boldsymbol{x}_\blacklozenge - \boldsymbol{b} \|^2 & = \| (\widetilde{\boldsymbol{A}} \boldsymbol{x}_\blacklozenge - \boldsymbol{b}) + \widetilde{\boldsymbol{A}} 2\boldsymbol{\delta} \|^2 - \| \widetilde{\boldsymbol{A}} \boldsymbol{x}_\blacklozenge - \boldsymbol{b} \|^2 \\ & = (2 (\widetilde{\boldsymbol{A}} \boldsymbol{x}_\blacklozenge - \boldsymbol{b}) + 2 \widetilde{\boldsymbol{A}} \boldsymbol{\delta})^\top 2 \widetilde{\boldsymbol{A}} \boldsymbol{\delta} \\ & = 4 (\widetilde{\boldsymbol{A}} (\boldsymbol{x}_\blacklozenge + \boldsymbol{\delta}) - \boldsymbol{b})^\top \widetilde{\boldsymbol{A}} \boldsymbol{\delta} \end{align*}注意$\boldsymbol{x}_\blacklozenge + \boldsymbol{\delta}, \boldsymbol{\delta} \in \blacktriangle$,由引理3.2知上式小于$0$。证毕。

  命题3.2[拉伸] 对于任意$\boldsymbol{x}_\blacktriangle \not \in \vartriangle$,通过线性拉伸使其属于$\vartriangle$可以使得$\|\widetilde{\boldsymbol{A}} \boldsymbol{x} - \boldsymbol{b} \|^2$ 的值更小。

  证明:设$\boldsymbol{x}_\vartriangle = (1 + \lambda) \boldsymbol{x}_\blacktriangle$,其中$\lambda > 0$使得$\boldsymbol{x}_\vartriangle \in \vartriangle$。同样由$\|\boldsymbol{c}+\boldsymbol{d}\|^2 - \|\boldsymbol{c}\|^2 = (2 \boldsymbol{c} + \boldsymbol{d})^\top \boldsymbol{d}$可知\begin{align*} \| \widetilde{\boldsymbol{A}} \boldsymbol{x}_\vartriangle - \boldsymbol{b} \|^2 - \| \widetilde{\boldsymbol{A}} \boldsymbol{x}_\blacktriangle - \boldsymbol{b} \|^2 & = \| \widetilde{\boldsymbol{A}} \boldsymbol{x}_\blacktriangle - \boldsymbol{b} + \widetilde{\boldsymbol{A}} \lambda \boldsymbol{x}_\blacktriangle \|^2 - \| \widetilde{\boldsymbol{A}} \boldsymbol{x}_\blacktriangle - \boldsymbol{b} \|^2 \\ & = (2 \widetilde{\boldsymbol{A}} \boldsymbol{x}_\blacktriangle - 2 \boldsymbol{b} + \lambda \widetilde{\boldsymbol{A}} \boldsymbol{x}_\blacktriangle)^\top \lambda \widetilde{\boldsymbol{A}} \boldsymbol{x}_\blacktriangle \\ & = 2 \lambda (\widetilde{\boldsymbol{A}} (1 + \lambda / 2) \boldsymbol{x}_\blacktriangle - \boldsymbol{b})^\top \widetilde{\boldsymbol{A}}\boldsymbol{x}_\blacktriangle \end{align*}注意$(1 + \lambda / 2) \boldsymbol{x}_\blacktriangle, \boldsymbol{x}_\blacktriangle \in \blacktriangle$,由引理3.2知上式小于$0$。证毕。

  在证明引理3.2前需要如下引理。

  引理3.1 对于给定的SVM,设某个分界面$\boldsymbol{w}$对应的最小间隔为$\sigma > 0$,那么$\boldsymbol{A} \blacktriangle$中的任意向量与$\boldsymbol{w}$的夹角小于$\arccos (\sigma / D)$;此外,对于任意与$\boldsymbol{w}$的夹角小于$\arcsin (\sigma / D)$ 的向量$\boldsymbol{v}$,其与$\boldsymbol{A} \blacktriangle$中任意向量的内积大于$0$。

  证明:记$\boldsymbol{A} = [\boldsymbol{a}_1, \cdots, \boldsymbol{a}_m]$,对于任意向量$\boldsymbol{\alpha} = [\alpha_1, \cdots, \alpha_m]^\top \in \blacktriangle$,由三角不等式易知有\begin{align*} \| \boldsymbol{A} \boldsymbol{\alpha} \| = \left\| \sum_{i=1}^m \alpha_i \boldsymbol{a}_i \right\| \leq \sum_{i=1}^m \alpha_i \| \boldsymbol{a}_i \| \leq D \sum_{i=1}^m \alpha_i \end{align*}又由最小间隔的定义知\begin{align*} (\boldsymbol{A} \boldsymbol{\alpha})^\top \frac{\boldsymbol{w}}{\|\boldsymbol{w}\|} =  \sum_{i=1}^m \alpha_i \boldsymbol{a}_i^\top \frac{\boldsymbol{w}}{\|\boldsymbol{w}\|} \geq \sigma \sum_{i=1}^m \alpha_i \end{align*}综上,\begin{align*} \frac{(\boldsymbol{A} \boldsymbol{\alpha})^\top}{\| \boldsymbol{A} \boldsymbol{\alpha} \|} \frac{\boldsymbol{w}}{\|\boldsymbol{w}\|} \geq \frac{\sigma \sum_{i=1}^m \alpha_i}{D \sum_{i=1}^m \alpha_i} = \frac{\sigma}{D} \end{align*}这就证明了$\boldsymbol{A} \blacktriangle$中的任意向量与$\boldsymbol{w}$的夹角小于$\arccos (\sigma / D)$。

  如右图所示,$\cos \alpha = \sigma / D$,因此与$\boldsymbol{w}$的夹角小于$\alpha$就是蓝色实线围成的锥,不妨记为$\mbox{cone}(\boldsymbol{w}, \alpha)$,而$\boldsymbol{A} \blacktriangle$是原点与$\boldsymbol{A} \vartriangle$围成的锥,显然后者属于前者。

  任意与$\boldsymbol{w}$的夹角小于$\arcsin (\sigma / D) = \pi/2 - \alpha$的向量构成的是红色虚线围成的锥,显然该锥中的任何向量$\boldsymbol{v}$与$\mbox{cone}(\boldsymbol{w}, \alpha)$中向量的夹角都小于$90^{\circ}$,故它们的内积大于$0$,特别地,$\boldsymbol{A} \blacktriangle \subseteq \mbox{cone}(\boldsymbol{w}, \alpha)$,所以$\boldsymbol{v}$与$\boldsymbol{A} \blacktriangle$中任意向量的内积大于$0$。证毕。

  引理3.2 对于某个给定的SVM,设其某个分界面$\boldsymbol{w}$对应的最小间隔为$\sigma > 0$,记$\boldsymbol{b} = - \frac{\boldsymbol{w}}{\|\boldsymbol{w}\|} \frac{D^2}{\sigma}$,那么对于任意向量$\boldsymbol{x}, \boldsymbol{\delta} \in\blacktriangle$有$(\widetilde{\boldsymbol{A}} \boldsymbol{x} - \boldsymbol{b})^\top (-\widetilde{\boldsymbol{A}} \boldsymbol{x}) > 0$,$\widetilde{\boldsymbol{A}}$和$D$的定义同前。

  证明:由引理3.1可知,只需证明$\widetilde{\boldsymbol{A}} \boldsymbol{x} - \boldsymbol{b} \in \mbox{cone}(\boldsymbol{w}, \alpha)$且$-\widetilde{\boldsymbol{A}} \boldsymbol{x} \in \mbox{cone}(\boldsymbol{w}, \pi/2 - \alpha)$即可。

  如右图所示,注意$\boldsymbol{b}$是$\boldsymbol{w}$的反向向量,因此是让整个圆进行反向平移,此时$\widetilde{\boldsymbol{A}} \boldsymbol{x} - \boldsymbol{b} \in \mbox{cone}(\boldsymbol{w}, \alpha)$是很显然的。平移的距离,即$\|\boldsymbol{b}\|$的长度$\frac{D^2}{\sigma}$,设置成这个值一是为了让$OC$成为圆$O'$的切线,即让圆$O'$属于黄色虚线围成的锥里,二是让这个锥成为$\mbox{cone}(\boldsymbol{w}, \pi/2 - \alpha)$的反向锥,显然$\widetilde{\boldsymbol{A}} \boldsymbol{x}$属于这个反向锥,故$-\widetilde{\boldsymbol{A}} \boldsymbol{x} \in \mbox{cone}(\boldsymbol{w}, \pi/2 - \alpha)$。证毕。

  

  四、附录

  引理4.1 不带偏移项的硬间隔SVM和$l_2$-损失的软间隔SVM的对偶问题都可以表示成(\ref{pro: svm})式的形式。

  证明:先证明结论对不带偏移项的硬间隔SVM成立,然后证明$l_2$-损失的软间隔SVM可以表示成不带偏移项的硬间隔SVM,这样就完成了对引理的证明。

  记数据集为$\{(\boldsymbol{x}_1, y_1), \cdots, (\boldsymbol{x}_m, y_m)\}, \boldsymbol{x}_i \in \mathbb{R}^d, y_i \in \{+1, -1\}$,不带偏移项的硬间隔SVM的原始形式为\begin{align*} \min_{\boldsymbol{w}, \rho} & \ \ \frac{1}{2} \|\boldsymbol{w}\|^2 - \rho \\ \mbox{s.t.} & \ \ y_i \boldsymbol{w}^\top \boldsymbol{x}_i \geq \rho, \ i = 1, \cdots, m \end{align*}引入Lagrange乘子$\boldsymbol{\alpha} = [\alpha_1, \cdots, \alpha_m]^\top$,于是
\begin{align*} L(\boldsymbol{w}, \rho, \boldsymbol{\alpha}) & = \frac{1}{2} \|\boldsymbol{w}\|^2 - \rho - \sum_{i=1}^m \alpha_i (y_i \boldsymbol{w}^\top \boldsymbol{x}_i - \rho) \\ \frac{\partial L(\boldsymbol{w}, \rho, \boldsymbol{\alpha})}{\partial \boldsymbol{w}} & = \boldsymbol{w} - \sum_{i=1}^m \alpha_i y_i \boldsymbol{x}_i = \boldsymbol{w} - \boldsymbol{A} \boldsymbol{\alpha} \\ \frac{\partial L(\boldsymbol{w}, \rho, \boldsymbol{\alpha})}{\partial \rho} & = \sum_{i=1}^m \alpha_i - 1 \end{align*}其中矩阵$\boldsymbol{A} = [y_1 \boldsymbol{x}_1, \cdots, y_m \boldsymbol{x}_m] \in \mathbb{R}^{d \times m}$,易知对偶问题为\begin{align*} \max_{\boldsymbol{\alpha} \in \vartriangle} \ \ -\frac{1}{2} \|\boldsymbol{A} \boldsymbol{\alpha}\|^2 \end{align*}显然这就是(\ref{pro: svm})式。

  $l_2$-损失的软间隔SVM的原始形式为\begin{align*} \begin{split} \min_{\boldsymbol{w}, \rho, \boldsymbol{\xi}} & \ \ \frac{1}{2} \|\boldsymbol{w}\|^2 - \rho + C \sum_{i=1}^m \xi_i^2 \\ \mbox{s.t.} & \ \ y_i \boldsymbol{w}^\top \boldsymbol{x}_i \geq \rho - \xi_i, \ i = 1, \cdots, m \end{split} \end{align*}记$\bar{\boldsymbol{w}}^\top = [\boldsymbol{w}^\top, \sqrt{2C}\xi_1, \cdots, \sqrt{2C}\xi_m]$,$\bar{\boldsymbol{x}}_i^\top = [\boldsymbol{x}_i^\top, y_i \boldsymbol{e}_i/\sqrt{2C}]$,其中$\boldsymbol{e}_i$是第$i$维为$1$其他维为$0$ 的$m$维向量,于是上式可重写为\begin{align*} \min_{\bar{\boldsymbol{w}}, \rho} & \ \ \frac{1}{2} \|\bar{\boldsymbol{w}}\|^2 - \rho \\ \mbox{s.t.} & \ \ y_i \bar{\boldsymbol{w}}^\top \bar{\boldsymbol{x}}_i \geq \rho, \ i = 1, \cdots, m \end{align*}显然这是一个不带偏移项的硬间隔SVM。证毕。

SVM=LASSO?的更多相关文章

  1. boxcox1p归一化+pipeline+StackingCVRegressor

    找到最好的那个参数lmbda. from mlxtend.regressor import StackingCVRegressor from sklearn.datasets import load_ ...

  2. [Python] 波士顿房价的7种模型(线性拟合、二次多项式、Ridge、Lasso、SVM、决策树、随机森林)的训练效果对比

    目录 1. 载入数据 列解释Columns: 2. 数据分析 2.1 预处理 2.2 可视化 3. 训练模型 3.1 线性拟合 3.2 多项式回归(二次) 3.3 脊回归(Ridge Regressi ...

  3. 笔记︱范数正则化L0、L1、L2-岭回归&Lasso回归(稀疏与特征工程)

    机器学习中的范数规则化之(一)L0.L1与L2范数 博客的学习笔记,对一些要点进行摘录.规则化也有其他名称,比如统计学术中比较多的叫做增加惩罚项:还有现在比较多的正则化. -------------- ...

  4. sklearn中的SVM

    scikit-learn中SVM的算法库分为两类,一类是分类的算法库,包括SVC, NuSVC,和LinearSVC 3个类.另一类是回归算法库,包括SVR, NuSVR,和LinearSVR 3个类 ...

  5. SVM总结(转)

    支持向量机 看了JULY君的博客和文档后,个人对SVM的理解和总结,欢迎交流和指正.其理论部分可以查看下面文档链接,通俗易懂. 支持向量机通俗导论(理解SVM的三层境界)     第一篇:从四个关键词 ...

  6. Spark MLlib回归算法------线性回归、逻辑回归、SVM和ALS

    Spark MLlib回归算法------线性回归.逻辑回归.SVM和ALS 1.线性回归: (1)模型的建立: 回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多 ...

  7. 【Supervised Learning】支持向量机SVM (to explain Support Vector Machines (SVM) like I am a 5 year old )

    Support Vector Machines 引言 内核方法是模式分析中非常有用的算法,其中最著名的一个是支持向量机SVM 工程师在于合理使用你所拥有的toolkit 相关代码 sklearn-SV ...

  8. 在线场景感知:图像稀疏表示—ScSPM和LLC总结(以及lasso族、岭回归)

    前言: 场景感知其实不分三维场景和二维场景,可以使用通用的方法,不同之处在于数据的形式,以及导致前期特征提取及后期在线场景分割过程.场景感知即是场景语义分析问题,即分析场景中物体的特征组合与相应场景的 ...

  9. 原创:logistic regression实战(一):SGD Without lasso

    logistic regression是分类算法中非常重要的算法,也是非常基础的算法.logistic regression从整体上考虑样本预测的精度,用判别学习模型的条件似然进行参数估计,假设样本遵 ...

随机推荐

  1. C语言-------多文件编译

    (1)前段时间,学长讲解宏的一些知识  也提起了那个多文件编译,同过看别人的博客,自己也懂了一些,现在来总结一下这个多文件编译,其实和java里面的那个class的调用好像有联系 其定义即可以理解成: ...

  2. DIOCP之数据接收事件

    一.不引用编码器与解码器的情况下(ECHO的DEMO) 类TIOCPtcpclient,接收服务器的数据事件:OnRecvBuffer 类TDiocpTcpServer,接收客户端数据事件:OnRec ...

  3. Asp.net Session 保存到MySql中

    一 网站项目引入"mysql.web.dll" 二 web.config配置中添加mysql数据库连接字符串 <connectionStrings> <remov ...

  4. ios 项目引用全局pch文件

    1.在项目中新建添加PCH文件 把这些记下来,下次直接粘贴:$(SRCROOT)/工程名/pch文件名

  5. 根据显示的字符多少来做Label的自适应高度

    根据显示的字符多少来做Label的自适应高度 UILabel *label = [[UILabel alloc]init]; NSString *string = @"其实,经年过往,每个人 ...

  6. ABP的工作单元

    http://www.aspnetboilerplate.com/Pages/Documents/Unit-Of-Work 工作单元位于领域层.   ABP的数据库连接和事务处理: 1,仓储类 ASP ...

  7. Windows2003 II6.0 FTP 开了防火墙 FTP不能正常工作的解决办法

    .在防火墙设置的“高级-本地连接-设置”中把FTP的勾选

  8. CoreLocation框架的使用---定位,求两地距离

    前言: 在iOS开发中,有关导航,周边的开发,必须基于2个框架: Map Kit :用于地图展示 Core Location :用于地理定位   用户隐私的保护 从iOS 6开始,苹果在保护用户隐私方 ...

  9. nodejs+express使用html和jade

    nodejs+express经常会看到使用jade视图引擎,但是有些人想要访问普通的html页面,这也是可以的: var express = require('express'); var port ...

  10. (light OJ 1005) Rooks dp

    http://www.lightoj.com/volume_showproblem.php?problem=1005        PDF (English) Statistics Forum Tim ...