前言

最近在看Peter Harrington写的“机器学习实战”，这是我的学习笔记，这次是第6章：SVM 支持向量机。
支持向量机不是很好被理解，主要是因为里面涉及到了许多数学知识，需要慢慢地理解。我也是通过看别人的博客理解SVM的。
推荐大家看看on2way的SVM系列：

基本概念

SVM - Support Vector Machine。支持向量机，其含义是通过支持向量运算的分类器。其中“机”的意思是机器，可以理解为分类器。
什么是支持向量呢？在求解的过程中，会发现只根据部分数据就可以确定分类器，这些数据称为支持向量。
见下图，在一个二维环境中，其中点R，S，G点和其它靠近中间黑线的点可以看作为支持向量，它们可以决定分类器，也就是黑线的具体参数。
分类器：就是分类函数。
线性分类：可以理解为在2维空间中，可以通过一条直线来分类。在p维空间中，可以通过一个p-1维的超平面来分类。
向量：有多个属性的变量。在多维空间中的一个点就是一个向量。比如 $x = (x_1, x_2, ..., x_n)$。下面的$w$也是向量。
约束条件(subject to) ：在求一个函数的最优值时需要满足的约束条件。
向量相乘: $w^Tx = \textstyle \sum_{i=1}^n w_ix_i$
内积: $\langle x,y \rangle = \textstyle \sum_{i=1}^n x_iy_i$

解决的问题：

线性分类
在训练数据中，每个数据都有n个的属性和一个二类类别标志，我们可以认为这些数据在一个n维空间里。我们的目标是找到一个n-1维的超平面（hyperplane），这个超平面可以将数据分成两部分，每部分数据都属于同一个类别。
其实这样的超平面有很多，我们要找到一个最佳的。因此，增加一个约束条件：这个超平面到每边最近数据点的距离是最大的。也成为最大间隔超平面（maximum-margin hyperplane）。这个分类器也成为最大间隔分类器（maximum-margin classifier）。
支持向量机是一个二类分类器。
非线性分类
SVM的一个优势是支持非线性分类。它结合使用拉格朗日乘子法和KKT条件，以及核函数可以产生非线性分类器。
分类器1 - 线性分类器
是一个线性函数，可以用于线性分类。一个优势是不需要样本数据。
classifier 1:
\[
f(x) = w^Tx + b
\]
$w$ 和 $b$ 是训练数据后产生的值。
分类器2 - 非线性分类器
支持线性分类和非线性分类。需要部分样本数据（支持向量），也就是$\alpha_i \ne 0$的数据。
$\because$
$w = \textstyle \sum_{i=1}^n \alpha_iy_ix_i$
$\therefore$
classifier 2:
\[
f(x) = \textstyle \sum_{i=1}^n \alpha_iy_i K(x_i, x) + b \\
\text{here} \\
\qquad x_i \text{ : training data i} \\
\qquad y_i \text{ : label value of training data i} \\
\qquad \alpha_i \text{ : Lagrange multiplier of training data i} \\
\qquad K(x_1, x_2) = exp(-\frac{\lVert x_1 - x_2 \rVert ^2}{2\sigma^2}) \text{ : kernel function} \\
\]
$\alpha$, $\sigma$ 和 $b$ 是训练数据后产生的值。
可以通过调节$\sigma$来匹配维度的大小，$\sigma$越大，维度越低。

核心思想

SVM的目的是要找到一个线性分类的最佳超平面 $f(x) = w^Tx + b = 0$。求 $w$ 和 $b$。
首先通过两个分类的最近点，找到$f(x)$的约束条件。
有了约束条件，就可以通过拉格朗日乘子法和KKT条件来求解，这时，问题变成了求拉格朗日乘子$\alpha_i$ 和 $b$。
对于异常点的情况，加入松弛变量$\xi$来处理。
使用SMO来求拉格朗日乘子$\alpha_i$和$b$。这时，我们会发现有些$\alpha_i = 0$，这些点就可以不用在分类器中考虑了。
惊喜! 不用求$w$了，可以使用拉格朗日乘子$\alpha_i$和$b$作为分类器的参数。
非线性分类的问题：映射到高维度、使用核函数。

详解

线性分类及其约束条件

SVM的解决问题的思路是找到离超平面的最近点，通过其约束条件求出最优解。

对于训练数据集T，其数据可以分为两类C1和C2。
对于函数：$f(x) = w^Tx + b$
对于C1类的数据 $w^Tx + b \geqslant 1$。其中至少有一个点$x_i$， $f(x_i) = 1$。这个点称之为最近点。
对于C2类的数据 $w^Tx + b \leqslant -1$。其中至少有一个点$x_i$， $f(x_i) = -1$。这个点称也是最近点。
上面两个约束条件可以合并为：
$y_if(x_i) = y_i(w^Tx_i + b) \geqslant 1$。
$y_i$是点$x_i$对应的分类值（-1或者1）。
求$w$和$b$.
则超平面函数是$w^Tx + b = 0$。
为了求最优的f(x)，期望训练数据中的每个点到超平面的距离最大。
（解释1: 这里需要理解一个事情，根据上图，我们可以给每个点做一条平行于超平面的平行线（超平行面），因此，这个最大化相当于求最近点到超平面距离的最大化。）

总结，现在我们的公式是：
Formula 6.1
\[
f(x) = w^Tx + b \\
\text{subject to} \\
\qquad y_if(x_i) = y_i(w^Tx_i + b) \geqslant 1, i = 1, ..., n
\]

几个训练脑筋的小问题：

Q: y是否可以是其它非{-1， 1}的值?
A: 将y值定义为{-1， 1}是最简化的方案。你的分类可以是cat和dog，只要将cat对应到1, dog对应到-1就可以了。你也可以将y值定义为其它数比如: -2, 2或者2, 3之类的，但是这样就需要修改超平面函数和约束条件，增加了没必要的繁琐，实际上和y值定义为{-1， 1}是等价的。
Q: 如果两组数据里的太近或者太远，是不是可能就找不到$w^Tx + b = 1$ 和$w^Tx + b = -1$的这两个点？
A: 不会。假设可以找到$w^Tx_i + b = c$ 和 $w^Tx_j + b = -c$. $c > 0 and c <> 1$。其超平面函数为$w^Tx + b = 0$.
上面公式左右同时除以c, 则：
$w^Tx_i / c + b / c = 1$
$w^Tx_j / c + b / c = -1$
令:
$w' = w/c$
$b' = b/c$
有:
$w'^Tx_i + b' = 1$
$w'^Tx_j + b' = -1$
可以找到超平面函数:
$w^Tx + b' = 0$
因此，总是可以找到y是{-1, 1}的超平面，如果有的话。

最大几何间隔（geometrical margin）

$f(x)$为函数间隔$\gamma$。
如果求$\text{max } yf(x)$，有个问题，就是w和b可以等比例增大，导致$yf(x)$的间隔可以无限大。因此需要变成求等价的最大几何间隔：
\[
\bar{\gamma} = \frac{yf(x)}{\lVert w \rVert} \\
\text{subject to} \\
\qquad y_if(x_i) = y_i(w^Tx_i + b) \geqslant 1, i = 1, ..., n
\]
$\lVert w \rVert$ : 二阶范数，也就是各项目平方和的平方根。 $\sqrt {\textstyle \sum_{i=1}^n w_i^2}$

根据上面的解释，这个问题可以转变为：
\[
\text{max } \frac{1}{\lVert w \rVert} \\
\text{subject to} \\
\qquad y_i(w^Tx_i + b) \geqslant 1, i = 1, ..., n
\]

再做一次等价转换：
Formula 6.2
\[
\text{min } \frac{1}{2} \lVert w \rVert ^ 2 \\
\text{subject to} \\
\qquad y_i(w^Tx_i + b) \geqslant 1, i = 1, ..., n
\]

求解问题$w,b \Leftrightarrow \alpha_i, b$

我们使用拉格朗日乘子法和KKT条件来求$w$和$b$，一个重要原因是使用拉格朗日乘子法后,还可以解决非线性划分问题。
拉格朗日乘子法和KKT条件可以解决下面这个问题：

求一个最优化问题 $f(x)$
刚好对应我们的问题：$min \frac{1}{2} \lVert w \rVert ^ 2$
如果存在不等式约束$g_k(x) <= 0, k = 1, …, q$。
对应 $\text{subject to } \qquad 1 - y_i(w^Tx_i + b) <= 0, i = 1, ..., n$
F(x)必须是凸函数。这个也满足。

SVM的问题满足使用拉格朗日乘子法的条件。因此问题变成：
Formula 6.3
\[
\underset{\alpha}{max} \text{ } W(\alpha) = \mathcal{L}(w,b,\alpha) = \frac{1}{2} \lVert w \rVert ^ 2 - \textstyle \sum_{i=1}^n \alpha_i(y_i(w^Tx_i + b) - 1) \\
\text{subject to} \\
\qquad \alpha_i >= 0, i = 1, ..., n \\
\qquad \textstyle \sum_{i=1}^n \alpha_iy_i = 0 \\
\qquad 1 - y_i(w^Tx_i + b) <= 0, i = 1, ..., n \\
\qquad w = \textstyle \sum_{i=1}^n \alpha_iy_ix_i \\
\text{here} \\
\qquad \alpha_i \text{ : Lagrange multiplier of training data i} \\
\]

消除$w$之后变为：
Formula 6.4
\[
\underset{\alpha}{max} \text{ } W(\alpha) = \mathcal{L}(w,b,\alpha) = \textstyle \sum_{i=1}^n \alpha_i - \frac{1}{2} \textstyle \sum_{i,j=1}^n \alpha_i\alpha_jy_iy_jx_i^Tx_j \\
\text{subject to} \\
\qquad \alpha_i >= 0, i = 1, ..., n \\
\qquad \textstyle \sum_{i=1}^n \alpha_iy_i = 0 \\
\qquad \alpha_i(1 - y_i(\textstyle \sum_{j=1}^n \alpha_jy_j \langle x_j,x_i \rangle + b)) = 0, i = 1, ..., n
\]
$\langle x_j,x_i \rangle$是$x_j$ 和 $x_i$的内积，相当于$x_j^Tx_i$。
可见使用拉格朗日乘子法和KKT条件后，求$w,b$的问题变成了求拉格朗日乘子$\alpha_i$和$b$的问题。
到后面更有趣，变成了不求$w$了，因为$\alpha_i$可以直接使用到分类器中去，并且可以使用$\alpha_i$支持非线性的情况（$w^Tx + b$是线性函数，支持不了非线性的情况哦）。

以上的具体证明请看：
解密SVM系列（二）：SVM的理论基础
关于拉格朗日乘子法和KKT条件，请看：
深入理解拉格朗日乘子法（Lagrange Multiplier)和KKT条件

处理异常点（outliers）

如上图：点w是一个异常点，导致无法找到一个合适的超平面，为了解决这个问题，我们引入松弛变量(slack variable)$\xi$。
修改之间的约束条件为：$w^Tx_i + b >= 1 – \xi_i \qquad \text{for all i = 1, …, n}$
则运用拉格朗日乘子法之后的公式变为：
Formula 6.5
\[
\underset{\alpha}{max} \text{ } W(\alpha) = \mathcal{L}(w,b,\alpha) = \textstyle \sum_{i=1}^n \alpha_i - \frac{1}{2} \textstyle \sum_{i,j=1}^n \alpha_i\alpha_jy_iy_jx_i^Tx_j \\
\text{subject to} \\
\qquad 0 \leqslant \alpha_i \leqslant C, i = 1, ..., n \\
\qquad \textstyle \sum_{i=1}^n \alpha_iy_i = 0 \\
\qquad \alpha_i(1 - y_i(\textstyle \sum_{j=1}^n \alpha_jy_j \langle x_j,x_i \rangle + b)) = 0, i = 1, ..., n
\]
输入参数：

参数$C$，越大表明影响越严重。$C$应该一个大于0值。其实$C$也不能太小，太小了就约束$\alpha_i$了，比如200。
参数$\xi$，对所有样本数据起效的松弛变量，比如：0.0001。
具体证明请看：
解密SVM系列（二）：SVM的理论基础

求解$\alpha$ - 使用SMO方法

1996年，John Platt发布了一个称为SMO的强大算法，用于训练SVM。SMO表示序列最小优化（Sequential Minimal Optimization）。
SMO方法：
概要：SMO方法的中心思想是每次取一对$\alpha_i$和$\alpha_j$，调整这两个值。
参数: 训练数据/分类数据/$C$/$\xi$/最大迭代数
过程：

初始化$\alpha$为0；
在每次迭代中（小于等于最大迭代数），
- 找到第一个不满足KKT条件的训练数据，对应的$\alpha_i$，
- 在其它不满足KKT条件的训练数据中，找到误差最大的x，对应的index的$\alpha_j$，
- $\alpha_i$和$\alpha_j$组成了一对，根据约束条件调整$\alpha_i$, $\alpha_j$。

不满足KKT条件的公式：
Formula 6.6
\[
\text{(1) } y_i(u_i - y_i) \leqslant \xi \text{ and } \alpha_i < C \\
\text{(2) } y_i(u_i - y_i) \geqslant \xi \text{ and } \alpha_i > 0 \\
here \\
\qquad u_i = \textstyle \sum_{j=1}^n \alpha_jy_j K(x_j, x_i) + b \\
\qquad K(x_1, x_2) = \langle x_1, x_2 \rangle \\
\qquad \xi \text{ : slack variable}
\]
调整公式：
Formula 6.7
\[
\alpha_2^{new} = \alpha_2^{old} - \frac{y_2(E_1 - E_2)}{\eta} \\
\alpha_1^{new} = \alpha_1^{old} - y_1y_2(\alpha_2^{new} - \alpha_2^{new}) \\
b_1 = b^{old} - E_1 -y_1(alpha_1^{new}-alpha_1^{old})K(x_1, x_1) - y_2(alpha_2^{new} - alpha_2^{old})K(x_1, x_2) \\
b_2 = b^{old} - E_2 -y_1(alpha_1^{new}-alpha_1^{old})K(x_1, x_2) - y_2(alpha_2^{new} - alpha_2^{old})K(x_2, x_2) \\
b =
\begin{cases}
b_1 & \text{if } 0 \leqslant \alpha_1^{new} \leqslant C \\
b_2 & \text{if } 0 \leqslant \alpha_2^{new} \leqslant C \\
\frac{b_1 + b_2}{2} & \text{otherwise}
\end{cases} \\
here \\
\qquad E_i = u_i - y_i \\
\qquad \eta = 2K(x_1, x_2) - K(x_1, x_1) - K(x_2, x_2) \\
\qquad u_i = \textstyle \sum_{j=1}^n \alpha_jy_j K(x_j, x_i) + b \\
\qquad K(x_1, x_2) = \langle x_1, x_2 \rangle
\]
具体证明请参照:
解密SVM系列（三）：SMO算法原理与实战求解

最后一步：解决非线性分类

根据机器学习的理论，非线性问题可以通过映射到高维度后，变成一个线性问题。
比如：二维下的一个点$<x1, x2>$, 可以映射到一个5维空间，这个空间的5个维度分别是:$x1, x2, x1x2, x1^2, x2^2$。
映射到高维度，有两个问题：一个是如何映射？另外一个问题是计算变得更复杂了。
幸运的是我们可以使用核函数(Kernel function)来解决这个问题。
核函数(kernel function)也称为核技巧(kernel trick)。
核函数的思想是：

仔细观察Formula 6.6 和 Formula 6.7，就会发现关于向量$x$的计算，总是在计算两个向量的内积$K(x_1, x_2) = \langle x_1, x_2 \rangle$。
因此，在高维空间里，公式的变化只有计算低维空间下的内积$\langle x_1, x_2 \rangle$变成了计算高维空间下的内积$\langle x'_1, x'_2 \rangle$。
核函数提供了一个方法，通过原始空间的向量值计算高维空间的内积，而不用管映射的方式。
我们可以用核函数代替$K(x_1, x_2)$。

核函数有很多种, 一般可以使用高斯核（径向基函数（radial basis function））
Formula 6.8
\[
K(x_1, x_2) = exp(-\frac{\lVert x_1 - x_2 \rVert ^2}{2\sigma^2})
\]
可以通过调节$\sigma$来匹配维度的大小，$\sigma$越大，维度越低，比如10。
可以参照：
解密SVM系列（四）：SVM非线性分类原理实验
 支持向量机通俗导论（理解SVM的三层境界）

如何解决多类分类问题

支持向量机是一个二类分类器。基于SVM如何构建多类分类器，建议阅读C. W. Huset等人发表的一篇论文"A Comparison of Methods for Multiclass Support Vector Machines"。需要对代码做一些修改。

参照

机器学习实战 - 读书笔记(06) – SVM支持向量机的更多相关文章

机器学习实战 - 读书笔记(13) - 利用PCA来简化数据
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第13章 - 利用PCA来简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. ...
机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growt ...
机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析. 基本概念关联分析(associat ...
机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想在使用某个特定的算法是, ...
【转载】机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
原文地址: https://www.cnblogs.com/steven-yang/p/5686473.html ------------------------------------------- ...
机器学习实战 - 读书笔记(14) - 利用SVD简化数据
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第14章 - 利用SVD简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. 基 ...
机器学习实战读书笔记(二)k-近邻算法
knn算法: 1.优点:精度高.对异常值不敏感.无数据输入假定 2.缺点:计算复杂度高.空间复杂度高. 3.适用数据范围:数值型和标称型. 一般流程: 1.收集数据 2.准备数据 3.分析数据 4.训 ...
机器学习实战 - 读书笔记(05) - Logistic回归
解释 Logistic回归用于寻找最优化算法. 最优化算法可以解决最XX问题,比如如何在最短时间内从A点到达B点?如何投入最少工作量却获得最大的效益?如何设计发动机使得油耗最少而功率最大? 我们可以看 ...
<机器学习实战>读书笔记--logistic回归
1. 利用logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类. 2.sigmoid函数的分类 Sigmoid函数公式定义 3.梯度上升法基本思想:要找 ...

随机推荐

安卓Android面试题大全
56个问题都是经常用到的,可以深入研究下,也是必须掌握的开发必备知识. 安卓Android面试题汇总搜集了一些Android面试题目,供将要面试或者正在面试的朋友参考. 1, 谈谈你对Activit ...
[转帖]HOWTO rename column name in Sqlite3 database
原文在此 Say you have a table and need to rename "colb" to "col_b": First you rename ...
JavaScript封装Ajax（类JQuery中$.ajax()方法）
ajax.js (function(exports, document, undefined){ "use strict"; function Ajax(){ if(!(this ...
百度地图api根据定位获取附近商家（只获取屏幕内）
根据中心点坐标计算出屏幕2个点(一个最低经纬度,一个最高经纬度),判断这两个点中间的所有坐标的商家..考虑屏幕分辨率之类移动地图中心点变动,如何异步刷新,判断商家是否已经存在..等... 百度地图a ...
转：C#中String类的几个方法(IndexOf、LastIndexOf、Substring)
String.IndexOf String.IndexOf 方法 (Char, Int32, Int32)报告指定字符在此实例中的第一个匹配项的索引.搜索从指定字符位置开始,并检查指定数量的字符位置. ...
组合模式及C++实现
组合模式组合模式,是为了解决整体和部分的一致对待的问题而产生的,要求这个整体与部分有一致的操作或行为.部分和整体都继承与一个公共的抽象类,这样,外部使用它们时是一致的,不用管是整体还是部分,使用一个 ...
oracle/sqlserver 递归
1.Oracle递归查询 2.SqlServer递归查询 with cte as ( select t.id,t.name,t.parentId from dbo.Department t where ...
【转】Linux下svn常用指令
转自: http://blog.csdn.net/myarrow/article/details/8110858 1.将文件checkout到本地目录svn checkout path(path是服务 ...
[OpenCV] Feature Matching
得到了杂乱无章的特征点后,要筛选出好的特征点,也就是good matches. BruteForceMatcher FlannBasedMatcher 两者的区别:http://yangshen998 ...
【干货分享】Google 的设计准则，素材和资源
在谷歌,他们说, “专注于用户,所有其它的就会水到渠成 ”.他们遵循设计原则,寻求建立让用户惊喜的用户体验.谷歌一直挑战自己,为他们的用户创造一种视觉语言,综合优秀设计的经典原则和创新.谷歌设计规范是 ...

机器学习实战 - 读书笔记(06) – SVM支持向量机

前言