SVM之对偶问题

>>>SVM之对偶问题

前一篇SVM之问题形式化中将最大间隔分类器形式化为以下优化问题： \[\begin{align}\left\{ \begin{matrix} \underset{w,b}{\mathop{\min }}\,\frac{1}{2}{{\left\| w \right\|}^{2}} \\ \begin{matrix}s.t. & {{y}^{i}}({{w}^{T}}{{x}^{i}}+b)\ge 1 \\\end{matrix} \\\end{matrix} \right.\end{align}\]

容易发现这是一个凸优化问题，而凸优化问题问题一般而言是满足Slater条件的（具体证明我也不懂），所以可以等价地求解其对偶问题。转而求解其对偶问题，是因为它的对偶问题有很好的形式（向量内积形式），可以为SVM很方便的引人核函数。关于对偶问题的基本概念在写在SVM之前——凸优化与对偶问题一文中已做粗略介绍。现在，写出以上优化问题的对偶形式。

首先，将（1）化为标准形式 \[\begin{align}\left\{ \begin{matrix}\underset{w,b}{\mathop{\min }}\,\frac{1}{2}{{\left\| w \right\|}^{2}} \\\begin{matrix}s.t. & 1-{{y}^{i}}({{w}^{T}}{{x}^{i}}+b)\le 0 \\\end{matrix} \\\end{matrix} \right.\end{align}\]

构建拉格朗日函数：\[\begin{align}L(w,b,\alpha )=\frac{1}{2}{{\left\| w \right\|}^{2}}+\sum\limits_{i}{{{\alpha }_{i}}(1-{{y}^{i}}({{w}^{T}}{{x}^{i}}+b))}\end{align}\]

令${{\theta }_{D}}(\alpha )=\underset{w,b}{\mathop{\min }}\,L(w,b,\alpha )$，则（2）的对偶问题可以写成\[\begin{align}\underset{\alpha }{\mathop{\max }}\,\underset{w,b}{\mathop{\min }}\,L(w,b,\alpha )=\underset{\alpha }{\mathop{\max }}\,{{\theta }_{D}}(\alpha )\end{align}\]

首先求出${{\theta }_{D}}(\alpha )$。${{\theta }_{D}}(\alpha )$是函数$L(w,b,\alpha )$关于变量$(w,b)$ 的最小值，且容易发现$L(w,b,\alpha )$是关于$(w,b)$的凸函数，所以可以直接求偏导数并令其为0得到解。

$L(w,b,\alpha )$ 关于$w$ 求偏导：

$\begin{align*}\frac{\partial L(w,b,\alpha )}{\partial w}&=\frac{\partial \left[ \frac{1}{2}{{\left\| w \right\|}^{2}}+\sum\limits_{i}{{{\alpha }_{i}}(1-{{y}^{i}}({{w}^{T}}{{x}^{i}}+b))} \right]}{\partial w} \\& =\frac{\partial \left[ \frac{1}{2}{{w}^{T}}w+\sum\limits_{i}{{{\alpha }_{i}}(1-{{y}^{i}}({{w}^{T}}{{x}^{i}}+b))} \right]}{\partial w} \\& =w-\sum\limits_{i}{{{\alpha }_{i}}{{y}^{i}}{{x}^{i}}} \\\end{align*}$

令其为0，得到 \[\begin{align}w=\sum\limits_{i}{{{\alpha }_{i}}{{y}^{i}}{{x}^{i}}}\end{align}\]

$L(w,b,\alpha )$ 关于$b$ 求偏导：

$\begin{array}{*{35}{l}} \frac{\partial L(w,b,\alpha )}{\partial b} & =\frac{\partial \left[ \frac{1}{2}{{\left\| w \right\|}^{2}}+\sum\limits_{i}{{{\alpha }_{i}}(1-{{y}^{i}}({{w}^{T}}{{x}^{i}}+b))} \right]}{\partial b} \\{} & =-\sum\limits_{i}{{{\alpha }_{i}}{{y}^{i}}} \\\end{array}$

令其为0，得到 \[\begin{align}\sum\limits_{i}{{{\alpha }_{i}}{{y}^{i}}}=0\end{align}\]

现在，将(5) 代回(3)，得到

$\begin{align*}{{\theta }_{D}}(\alpha )&=\frac{1}{2}{{\left\| w \right\|}^{2}}+\sum\limits_{i}{{{\alpha }_{i}}(1-{{y}^{i}}({{w}^{T}}{{x}^{i}}+b))} \\& =\frac{1}{2}{{w}^{T}}w+\sum\limits_{i}{{{\alpha }_{i}}(1-{{y}^{i}}({{w}^{T}}{{x}^{i}}+b))} \\& =\frac{1}{2}\sum\limits_{i,j}{{{\alpha }_{i}}{{\alpha }_{j}}{{y}^{i}}{{y}^{j}}{{({{x}^{i}})}^{T}}{{x}^{j}}}+\sum\limits_{i}{{{\alpha }_{i}}}-\sum\limits_{i,j}{{{\alpha }_{i}}{{\alpha }_{j}}{{y}^{i}}{{y}^{j}}{{({{x}^{i}})}^{T}}{{x}^{j}}}-b\sum\limits_{i}{{{\alpha }_{i}}{{y}^{i}}} \\& =\sum\limits_{i}{{{\alpha }_{i}}}-\frac{1}{2}\sum\limits_{i,j}{{{\alpha }_{i}}{{\alpha }_{j}}{{y}^{i}}{{y}^{j}}{{({{x}^{i}})}^{T}}{{x}^{j}}}-b\sum\limits_{i}{{{\alpha }_{i}}{{y}^{i}}} \\\end{align*}$

再根据(6)，得到 \[\begin{align} {{\theta }_{D}}(\alpha )&=\sum\limits_{i}{{{\alpha }_{i}}}-\frac{1}{2}\sum\limits_{i,j}{{{\alpha }_{i}}{{\alpha }_{j}}{{y}^{i}}{{y}^{j}}{{({{x}^{i}})}^{T}}{{x}^{j}}} \\& =\sum\limits_{i}{{{\alpha }_{i}}}-\frac{1}{2}\sum\limits_{i,j}{{{\alpha }_{i}}{{\alpha }_{j}}{{y}^{i}}{{y}^{j}}<{{x}^{i}},{{x}^{j}}>} \\\end{align}\]

这便求出了${{\theta }_{D}}(\alpha )$，而对偶问题是$\underset{\alpha }{\mathop{\max }}\,{{\theta }_{D}}(\alpha )$。加上约束条件，对偶问题就可以写成

\[\begin{align}\left\{ \begin{matrix}\underset{\alpha }{\mathop{\max }}\,\sum\limits_{i}{{{\alpha }_{i}}}-\frac{1}{2}\sum\limits_{i,j}{{{\alpha }_{i}}{{\alpha }_{j}}{{y}^{i}}{{y}^{j}}<{{x}^{i}},{{x}^{j}}>} \\s.t.\left\{ \begin{matrix}{{\alpha }_{i}}\ge 0 \\\sum\limits_{i}{{{\alpha }_{i}}{{y}^{i}}}=0 \\\end{matrix} \right. \\\end{matrix} \right.\end{align}\]

其中约束${{\alpha }_{i}}\ge 0$是拉格朗日对偶问题本身的要求，约束$\sum\limits_{i}{{{\alpha }_{i}}{{y}^{i}}}=0$代表$\frac{\partial L(w,b,\alpha )}{\partial b}=0$的结果。

现在，对偶问题就得到了。对偶问题求解的结果是得到$\alpha $ 的取值。当$\alpha $得到解后，就可以根据$w=\sum\limits_{i}{{{\alpha }_{i}}{{y}^{i}}{{x}^{i}}}$解出$w$ 。$w$确定了分类超平面的方向，$b$ 使得超平面有一个平移，根据最大间隔分类器的准则，最优超平面是穿过两类样本“最中间”的一个平面，所以$b$并不难确定\[\begin{align}b=-\frac{\underset{i:{{y}^{i}}=-1}{\mathop{\max }}\,{{w}^{T}}{{x}^{i}}+\underset{i:{{y}^{i}}=1}{\mathop{\min }}\,{{w}^{T}}x}{2}\end{align}\]

$(w,b)$ 确定后，分类器就确定了，就是超平面${{w}^{T}}x+b=0$ ，对于新的输入样本$x$ ，如果${{w}^{T}}x+b>0$则判别它样本类别为1，否则判别它样本类别为-1。

现在不求解$w$ ，而是将$w=\sum\limits_{i}{{{\alpha }_{i}}{{y}^{i}}{{x}^{i}}}$ 带入判别式${{w}^{T}}x+b$ 中，得 \[\begin{align}{{w}^{T}}x+b=\sum\limits_{i}{{{\alpha }_{i}}{{y}^{i}}<{{x}^{i}},x>}+b\end{align}\]

上式将判别式写成了向量内积的形式，看似需要计算输入$x$与所有训练样本的内积，但实际上还可以简化。

回顾写在SVM之前——凸优化与对偶问题一文提到的KKT条件${{\alpha }_{i}}{{g}_{i}}(x)=0$ ，只有${{g}_{i}}(x)=0$时${{\alpha }_{i}}$ 才可能不为0。对应到现在的分类器：$x\to (w,b),{{g}_{i}}(x)\to {{g}_{i}}(w,b)=1-{{y}^{i}}({{w}^{T}}{{x}^{i}}+b)$ （注意这里的$x$ 是优化问题形式化中的优化变量，不要与上文中的新输入样本$x$ 混淆）。所以只有当$1-{{y}^{i}}({{w}^{T}}{{x}^{i}}+b)=0$时，对于的${{\alpha }_{i}}$ 才可能不为0，那么(11)的计算实际上只需计算了部分训练样本与新输入样本的内积，这部分$1-{{y}^{i}}({{w}^{T}}{{x}^{i}}+b)=0$的训练样本称为支持向量，这也是SVM——支持向量机名字的来源。

考虑支持向量满足$1-{{y}^{i}}({{w}^{T}}{{x}^{i}}+b)=0$，所以${{y}^{i}}({{w}^{T}}{{x}^{i}}+b)=1$，而${{y}^{i}}({{w}^{T}}{{x}^{i}}+b)$正是样本函数间隔的定义，也就是说，支持向量就是函数间隔为1的样本，它们也是所有样本中函数间隔最小的样本。

上图标出来最优分类超平面（红色）和对于的函数间隔为1的样本（两条黑线上的样本），对左侧黑线上的支持向量有${{w}^{T}}{{x}_{l}}+b=-1$ ，对于右侧黑线上的支持向量有${{w}^{T}}{{x}_{r}}+b=1$，根据KKT条件，这两个样本可以根据${{\alpha }_{l}}>0$ 和${{\alpha }_{r}}>0$找到，两个式子联立起来得到$b=-\frac{{{w}^{T}}{{x}_{l}}+{{w}^{T}}{{x}_{r}}}{2}$ ，与(10)的是一致的。其实从这里就可以看出，只需要一个样本就可以确定$b$了，根据${{w}^{T}}{{x}_{r}}+b=1$，就可以解出$b$,$b=-\frac{{{w}^{T}}{{x}_{l}}+{{w}^{T}}{{x}_{r}}}{2}$和(10)比较直观的说明分类超平面穿过两类样本正中间而已。

现在，分类器的内容似乎已经完整了，但不要忘了，这都是在样本可分的情况下进行的，还没有考虑样本不可分的情况。

核函数在一定程度上解决了样本不可分问题，观察优化问题(9)和判别函数(11),其中都存在向量的内积形式，核函数正是在这上面做文章的。下一篇SVM之核函数将讨论这个问题。

SVM之对偶问题的更多相关文章

[置顶] 最优间隔分类器、原始/对偶问题、SVM的对偶问题——斯坦福ML公开课笔记7
转载请注明:http://blog.csdn.net/xinzhangyanxiang/article/details/9774135 本篇笔记针对ML公开课的第七个视频,主要内容包括最优间隔分类器( ...
三种SVM的对偶问题
一.SVM原问题及要变成对偶问题的解决办法对于SVM的,我们知道其终于目的是求取一分类超平面,然后将新的数据带入这一分类超平面的方程中,推断输出结果的符号,从而推断新的数据的正负. 而求解svm分类 ...
关于SVM数学细节逻辑的个人理解（二）：从基本形式转化为对偶问题
第二部分:转化为对偶问题进一步简化这一部分涉及的数学原理特别多.如果有逻辑错误希望可以指出来. 上一部分得到了最大间隔分类器的基本形式: 其中i=1,2,3...m 直接求的话一看就很复杂,我们 ...
写在SVM之前——凸优化与对偶问题
SVM之问题形式化 SVM之对偶问题 SVM之核函数 SVM之解决线性不可分 >>>写在SVM之前——凸优化与对偶问题本篇是写在SVM之前的关于优化问题的一点知识,在SVM中会用到 ...
Andrew Ng机器学习笔记+Weka相关算法实现（四）SVM和原始对偶问题
这篇博客主要解说了Ng的课第六.七个视频,涉及到的内容包含,函数间隔和几何间隔.最优间隔分类器 ( Optimal Margin Classifier).原始/对偶问题 ( Primal/Dual P ...
支持向量机（SVM）必备概念(凸集和凸函数，凸优化问题，软间隔，核函数，拉格朗日乘子法，对偶问题，slater条件、KKT条件）
SVM目前被认为是最好的现成的分类器,SVM整个原理的推导过程也很是复杂啊,其中涉及到很多概念,如:凸集和凸函数,凸优化问题,软间隔,核函数,拉格朗日乘子法,对偶问题,slater条件.KKT条件还有 ...
soft-margin SVM
1. soft-margin SVM的形式其中ξn表示每个点允许的犯错程度(偏离margin有多远),但是犯错是有代价的,也就是目标函数里面要最小化的.c控制对犯错的容忍程度. 2. 推导soft ...
SVM=LASSO?
SVM和LASSO是机器学习里两个非常经典的模型,每个模型都有大量的文献进行研究.其中去年出版的这本书——<Regularization, Optimization, Kernels, and ...
SVM学习笔记
一.SVM概述支持向量机(support vector machine)是一系列的监督学习算法,能用于分类.回归分析.原本的SVM是个二分类算法,通过引入“OVO”或者“OVR”可以扩展到多分类问题 ...

随机推荐

使用百度编辑器--ueditor，后台接收提交编辑的内容，HTML不见了，赋值不了，赋值之后，html暴露出来了？？
1.提交编辑好的内容, 后台post 接收发现 html 不见了,这个时候也许就是转义的问题, 既可以试试 $content = htmlspecialchars(stripslashes(input ...
scala 实现日期运算
在scala程序中,有时我们需要对日期进行运算,比如一天之前,两天之前,一个月之前等等,本博文给出了简单的实现方式 val cal = Calendar.getInstance cal.add(Cal ...
实验吧web登陆一下好吗
知识点: 万能密码'=' 一道登陆型的SQL注入题目,这种题目一般有四种题型: 1.在username中通过union联查select一个已知字符来与传递的password匹配完成登陆 2.使用万能密 ...
Luogu P3120 [USACO15FEB]牛跳房子（金）Cow Hopscotch (Gold)
题目传送门这是一道典型的记忆化搜索题. f[x][y]表示以x,y为右下角的方案数. code: #include <cstdio> #define mod 1000000007 usi ...
dsp6657的串口学习
1. 打算用dsp6657学习下,先用串口实验吧.找一下芯片支持库Chip support libraries,路径D:\ti\pdk_C6657_1_1_1_4\packages\ti\csl,新建 ...
iOS的内存分配
iOS中的内存大致可以分为代码区,全局/静态区,常量区,堆区,栈区. 1.代码区代码段是用来存放可执行文件的操作指令(存放函数的二进制代码),也就是说是它是可执行程序在内存中的镜像.代码段需要防止在 ...
「日常训练」Case of Matryoshkas（Codeforces Round #310 Div. 2 C）
题意与分析(CodeForces 556C) 为了将所有$n$个娃娃编号递增地串在一起(原先是若干个串,每个串是递增的), 我们有两种操作: 拆出当前串中最大编号的娃娃(且一定是最右边的娃娃). ...
Linux命令应用大词典-第30章审计系统
30.1 auditctl:控制内核的审计系统 30.2 aureport:生成审计信息报表 30.3 ausearch:搜索审计记录 30.4 autrace:跟踪指定进程 30.5 audit-v ...
Android Studio|IntelliJ IDEA 常用快捷键(Mac|Window)
一 For Mac(Mac OS X 10.5+) F1 显示注释文档F2 高亮错误或警告快速定位Command + F12 显示当前文件的结构(查看所有方法)Command + F 查找文本Comm ...
Java初始化方法：类、容器
Java初始化方法:类.容器初始化类(非final): Struts2的DefaultActionMapper类中: public DefaultActionMapper() { ...

SVM之对偶问题

SVM之对偶问题的更多相关文章

随机推荐

热门专题