1. 前言

在前一篇支持向量机（SVM）原理中，我们对线性可分SVM的模型和损失函数优化做了总结。但是大家有没发现，之前的文章介绍的支持向量机会无法处理一些情况，比如在有0，1两类，在0类的中间出现了几个1类的异常点，这样的话要之前最原始的SVM绝对分离两个类基本是不可能的了。本文对支持向量机做一个推广，允许超平面能够错分一些点，来达到能分离异常点。

2. SVM异常点问题

有时候本来数据的确是可分的，也就是说可以用线性分类SVM的学习方法来求解，但是却因为混入了异常点，导致不能线性可分，比如下图，本来数据是可以按下面的实线来做超平面分离的，可以由于一个橙色和一个蓝色的异常点导致我们没法按照上一篇线性支持向量机中的方法来分类。

另外一种情况没有这么糟糕到不可分，但是会严重影响我们模型的泛化预测效果，比如下图，本来如果我们不考虑异常点，SVM的超平面应该是下图中的红色线所示，但是由于有一个蓝色的异常点，导致我们学习到的超平面是下图中的粗虚线所示，这样会严重影响我们的分类模型预测效果。

3. 线性分类SVM的软间隔最大化

前一篇的SVM由于是绝对分离类别，我们可以称之为硬间隔SVM。公式为

\[
min\;\; \frac{1}{2}||w||_2^2 \;\; s.t \;\; y_i(w^Tx_i + b) \geq 1 (i =1,2,...m)
\]
本文介绍的软间隔是：SVM对训练集里面的每个样本(xi,yi)引入了一个松弛变量\(\xi_i\geq0\),使函数间隔加上松弛变量大于等于1，也就是说条件变量改为如下：

\[
y_i(w\bullet x_i +b) \geq 1- \xi_i
\]
加入松弛变量\(\xi_i\)后，损失函数就需要改写为

\[
min\;\; \frac{1}{2}||w||_2^2 +C\sum\limits_{i=1}^{m}\xi_i
\]
\[
s.t. \;\; y_i(w^Tx_i + b) \geq 1 - \xi_i \;\;(i =1,2,...m)
\]
\[
\xi_i \geq 0 \;\;(i =1,2,...m)
\]
这里，\(C>0\)为惩罚参数，可以理解为我们一般回归和分类问题正则化时候的参数。\(C\)越大，对误分类的惩罚越大，\(C\)越小，对误分类的惩罚越小。

也就是说，我们希望\(\frac{1}{2}||w||^2_2\)尽量小，误分类的点尽可能的少。\(C\)是协调两者关系的正则化惩罚系数。在实际应用中，需要调参来选择。

这个目标函数的优化和上一篇的线性可分SVM的优化方式类似，我们下面就来看看怎么对线性分类SVM的软间隔最大化来进行学习优化。

4. 拉格朗日对偶化

我们将软间隔最大化的约束问题用拉格朗日函数转化为无约束问题公司如下：

\[
L(w,b,\xi,\alpha,\mu) = \frac{1}{2}||w||_2^2 +C\sum\limits_{i=1}^{m}\xi_i - \sum\limits_{i=1}^{m}\alpha_i[y_i(w^Tx_i + b) - 1 + \xi_i] - \sum\limits_{i=1}^{m}\mu_i\xi_i
\]
我们现在要优化的目标函数是：

\[
\underbrace{min}_{w,b,\xi}\; \underbrace{max}_{\alpha_i \geq 0, \mu_i \geq 0,} L(w,b,\alpha, \xi,\mu)
\]
这个优化目标也满足KKT条件，也就是说，我们可以通过拉格朗日对偶将我们的优化问题转化为等价的对偶问题来求解如下：

\[
\underbrace{max}_{\alpha_i \geq 0, \mu_i \geq 0,} \; \underbrace{min}_{w,b,\xi}\; L(w,b,\alpha, \xi,\mu)
\]
最后求出的结果很干净，和之前的结果也非常像，如下：

\[
\underbrace{ min }_{\alpha} \frac{1}{2}\sum\limits_{i=1,j=1}^{m}\alpha_i\alpha_jy_iy_j(x_i \bullet x_j) - \sum\limits_{i=1}^{m}\alpha_i
\]
\[
s.t. \; \sum\limits_{i=1}^{m}\alpha_iy_i = 0
\]
\[
0 \leq \alpha_i \leq C
\]

这就是软间隔最大化时的线性可分SVM的优化目标形式，和上一篇的硬间隔最大化的线性可分SVM相比，我们仅仅是多了一个约束条件\(0≤\alpha_i≤C\)。我们依然可以通过SMO算法来求上式极小化时对应的\(\alpha\)向量就可以求出\(w\)和\(b\)了。

5. Hinge损失函数

我们从另一个角度来解读软间隔的损失函数，表达式如下：

\[
\underbrace{ min}_{w, b}[1-y_i(w \bullet x + b)]_{+} + \lambda ||w||_2^2
\]

其中\(L(y(w \bullet x + b)) = [1-y_i(w \bullet x + b)]_{+}\)称为合页损失函数(hinge loss function)，下标+表示为：

\[
[z]_{+}= \begin{cases} z & {z >0}\\ 0& {z\leq 0} \end{cases}
\]

也就是说，如果点被正确分类，且函数间隔大于1，损失是0，否则损失是\(1-y(w \bullet x + b)\),如下图中的绿线。我们在下图还可以看出其他各种模型损失和函数间隔的关系：对于0-1损失函数，如果正确分类，损失是0，误分类损失1，如下图黑线，可见0-1损失函数是不可导的。对于感知机模型，感知机的损失函数是\([-y_i(w \bullet x + b)]_{+}\)，这样当样本被正确分类时，损失是0，误分类时，损失是\(-y_i(w \bullet x + b)\)，如下图紫线。对于逻辑回归之类和最大熵模型对应的对数损失，损失函数是\(log[1+exp(-y(w \bullet x + b))]\), 如下图红线所示。

6. 总结

线性可分SVM通过软间隔最大化，可以解决线性数据集带有异常点时的分类处理，但是现实生活中的确有很多数据不是线性可分的，这些线性不可分的数据也不是去掉异常点就能处理这么简单。那么SVM怎么能处理中这样的情况呢？我们在下一篇就来讨论线性不可分SVM和核函数的原理。

5. 支持向量机（SVM）软间隔的更多相关文章

线性可分支持向量机与软间隔最大化--SVM(2)
线性可分支持向量机与软间隔最大化--SVM 给定线性可分的数据集假设输入空间(特征向量)为,输出空间为. 输入表示实例的特征向量,对应于输入空间的点: 输出表示示例的类别. 我们说可以通过间隔最 ...
机器学习，详解SVM软间隔与对偶问题
今天是机器学习专题的第34篇文章,我们继续来聊聊SVM模型. 我们在上一篇文章当中推导了SVM模型在硬间隔的原理以及公式,最后我们消去了所有的变量,只剩下了\(\alpha\).在硬间隔模型当中,样本 ...
机器学习之支持向量机—SVM原理代码实现
支持向量机—SVM原理代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/9596898.html 1. 解决 ...
复习支持向量机(SVM)没空看书时，掌握下面的知识就够了
支持向量机(support vector machines, SVM)是一种二类分类模型.它的基本模型是定义在特征空间上的间隔最大的线性分类器:支持向量机还包括核技巧,这使它成为实质上的非线性分类器. ...
一步步教你轻松学支持向量机SVM算法之理论篇1
一步步教你轻松学支持向量机SVM算法之理论篇1 (白宁超 2018年10月22日10:03:35) 摘要:支持向量机即SVM(Support Vector Machine) ,是一种监督学习算法,属于 ...
支持向量机(SVM)的推导(线性SVM、软间隔SVM、Kernel Trick)
线性可分支持向量机给定线性可分的训练数据集,通过间隔最大化或等价地求解相应的凸二次规划问题学习到的分离超平面为 \[w^{\ast }x+b^{\ast }=0\] 以及相应的决策函数 \[f\le ...
支持向量机（SVM）必备概念(凸集和凸函数，凸优化问题，软间隔，核函数，拉格朗日乘子法，对偶问题，slater条件、KKT条件）
SVM目前被认为是最好的现成的分类器,SVM整个原理的推导过程也很是复杂啊,其中涉及到很多概念,如:凸集和凸函数,凸优化问题,软间隔,核函数,拉格朗日乘子法,对偶问题,slater条件.KKT条件还有 ...
支持向量机 (二)：软间隔 svm 与核函数
软间隔最大化(线性不可分类svm) 上一篇求解出来的间隔被称为 "硬间隔(hard margin)",其可以将所有样本点划分正确且都在间隔边界之外,即所有样本点都满足 \(y_{i ...
SVM支持向量机——核函数、软间隔
支持向量机的目的是寻找一个能讲两类样本正确分类的超平面,很多时候这些样本并不是线性分布的. 由此,可以将原始特征空间映射到更高维的特征空间,使其线性可分.而且,如果原始空间是有限维,即属性数量有限, ...

随机推荐

定制jQuery File Upload为微博式单文件上传
日志未经声明,均为AlloVince原创.版权采用『知识共享署名-非商业性使用 2.5 许可协议』进行许可. jQuery File Upload是一个非常优秀的上传组件,主要使用了XHR作为上传方 ...
【SqlServer】SqlServer存储过程使用
我们一开始学习数据库语言的时候就是用一些简单的insert,select等语法,但是随着我们学习数据库的深入,就会发现一些简单的语法满足不了我们的要求,比如处理一些业务逻辑,多表关联的时候,还有就是虽 ...
【struts2】Struts2的异常处理
在Action中execute方法声明为:public String execute() throws Exception,这样,Action可以抛出任何Exception. 1)自己实现异常处理我 ...
【web】a标签点击时跳出确认框
[web]a标签点击时跳出确认框 https://blog.csdn.net/michael_ouyang/article/details/52765575需求如下: 在跳转链接前,需要判断该用户是否 ...
Android App优化之ANR详解
引言背景:Android App优化, 要怎么做? Android App优化之性能分析工具 Android App优化之提升你的App启动速度之理论基础 Android App优化之提升你的App ...
Android水波纹特效的简单实现
我的开源页面指示器框架 MagicIndicator,各位一定不要错过哦. 水波纹特效,想必大家或多或少见过,在我的印象中,大致有如下几种: 支付宝 "咻咻咻" 式流量球 &qu ...
linux文件系统 - 初始化(二)
加载initrd(上) 一.目的本文主要讲述linux3.10文件系统初始化过程的第二阶段:加载initrd. initrd是一个临时文件系统,由bootload负责加载到内存中,里面包含了基本的可 ...
java 中获得资源文件方法
1 java 中获取资源文件的方法项目目录如下获取当前项目的目录路径方法一:使用类名 MergeDocHandler.class.getClassLoader().getResource(&qu ...
闭包（Closures）
本文转自:http://goddyzhao.tumblr.com/post/11311499651/closures 翻译自:http://dmitrysoshnikov.com/ 概要本文将介绍一 ...
Windows 上怎么安装 install elasticsearch plugin
D:\elasticsearch-5.2.1\bin>elasticsearch-plugin install file:///D:/elasticsearch -5.2.1/bin/elast ...

5. 支持向量机（SVM）软间隔

1. 感知机原理（Perceptron）

2. 感知机(Perceptron)基本形式和对偶形式实现

3. 支持向量机（SVM）拉格朗日对偶性（KKT）

4. 支持向量机（SVM）原理