SVM是一种二类分类模型,有监督的统计学习方法,能够最小化经验误差和最大化几何边缘,被称为最大间隔分类器,可用于分类和回归分析。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。

一、基本原理

SVM是一个机器学习的过程,在高维空间中寻找一个分类超平面,将不同类别的数据样本点分开,使不同类别的点之间的间隔最大,该分类超平面即为最大间隔超平面,对应的分类器称为最大间隔分类器,对于二分类问题,下图可描述SVM的空间特征。

假设数据样本为x1,x2,...,xn,分类超平面可表示为:wTx-b=0.其中x为分类超平面上的点;w为垂直于分类超平面的向量;b为位移量,用于改善分类超平面的灵活性,超平面不用必须通过原点。

两个分类超平面之间具有最大间隔,需要知道训练样本中的支撑向量、距离支撑向量最近的平行超平面,这些超平面可表示为:

wTx-b=1

wTx-b=-1

其中,w是分类超平面的法向量,长度未定;1和-1只是为了计算方便而取的常量,其他常量只要互为相反数即可。

如果给定的训练样本是线性可分的,那么就可以找到两个间距最大的平行超平面,并且这两个超平面之间没有任何训练样本,它们之间的距离为2/||w||2.所以最小化||w||2,就可以使这两个超平面之间的间隔最大化。

为了使所有训练样本点在上述两个平行需要超平面间隔区域以外,我们确保所有的训练数据样本点x1,x2,...,xn都满足以下条件之一,即

wTxi-b≥1

wTxi-b≤-1

二、算法改进

假定问题的目标函数及其约束条件如下:

max(1/||w||)

s.t.  yi(wTxi+b)≥1  i=1,...,n

求解1/||w||的最大值,相当于求解(1/2)||w||2的最小值,所以上述问题可以等价于如下约束不等式:  

min(1/2)||w||2

s.t.  yi(wTxi+b)≥1  i=1,...,n

通过将目标函数转化,求解SVM可以变成一个标准的凸优化问题(是指求取最小值的目标函数为凸函数的一类优化问题)。因为目标函数是二次的,而约束条件是线性的,所以这是一个凸二次规划问题。虽然这个问题是一个标准的二次规划问题,但同时具有它的特殊结构,通过Langrang对偶变换为对偶变量的优化问题后,可以找到一种更加有效的方法进行求解。

通过对每个约束条件加一个拉格朗日乘值,即引入拉格朗日乘子,可以通过拉格朗日函数将约束条件融入到目标函数之中。

L(w,b,α)=(1/2)||w||2-∑αi(yi(wTxi+b)-1)

令:θ(w)=max L(w,b,α)(αi≥0)

当某个约束条件不满足时,如:yi(wTxi+b)<1   那么有:θ(w)=∞

当所有约束条件都满足时,则:θ(w)=(1/2)||w||2   即为最初要最小化的变量。

在要求约束条件得到满足情况下最小化(1/2)||w||2,实际上等价于最小化θ(w)。因为如果约束条件没有得到满足,θ(w)就会等于无穷大,不会是所要求的最小值,则目标函数变为:

用p*表示这个问题的最优值,这个问题和最初的问题是等同的。通过把最小和最大的位置对换,可以获得:

交换后不再等价于原来的问题,这个新问题的最优值用q*来表示,并且q*<p*,因为最大一个值中最小的一个比最小值中最大的要大。第二个问题的最优解q*提供第一个问题的最优解p*的一个下界,在满足某些条件的情况下,这两者相等,可以通过求解第二个问题间接求解第一个问题。

因此,可以通过先求L对w,b的极小,再求L对α的极大。之所以从最小和最大化的原始问题p*转化为最大和最小化的对偶问题q*,是因为q*是p*的近似解,转化为对偶问题后,求解过程更容易。

通常情况下,这种变换需要满足KKT条件。通常一个最优化的数学模型能够表示成如下标准形式:

min f(x)

s.t. h(x)=0, j=1,...,p

gk(x)≤0, k=1,..,q

x∈XсRn

其中,f(x)是需要最小化的函数,h(x)是等式约束,g(x)是不等式约束,p和q分别为等式约束和不等式约束的个数。

假设XсRn为一个凸集,凸函数,f:X->R为一个凸函数。凸优化就是要找出一个点x*∈X,使得每一点 x∈X满足f(x*)≤f(x).

KKT条件是一个非线性规划问题,具有最优化解法的充分必要条件。KKT条件就是指上面最优化数学模型的标准形式中的最小点x*必须满足如下条件:

hj(x)=0,j=1,...,p,gk(x)≤0,k=1,...,q

λj≠0,μk≥0,μkgk(x)=0

通过观察,这里的问题是满足KKT条件的,因此可以将其转化为求解第二个问题。也就是说,现在原问题通过满足一定条件,已经转化成它的对偶问题。

而求解这个对偶学习问题,通常可以分为三个步骤:首先要让L(w,b,α)关于w和b最小化,然后求对α的极大,最后利用SMO算法求解对偶因子。

为求解线性不可分问题,首先需要给出分类超平面的定义。对于数据点x进行分类,实际上式通过把x代入到f(x)=wTx+b算出结果,然后根据正负号进行类别划分。

由前述推导,可以知道:

因此分类函数可以表述为:f(x)=(∑αiyixiTx+b=∑αiyi<xi ,x>+b

通过观察,可以看出对新点x的预测,只需要计算它与训练数据点的内积即可。这一点至关重要,是使用核函数进行非线性推广的基本前提。所有非支撑向量所对应的系数α都等于0,因此对于新点的内积计算,实际上只需要针对少量的支撑向量,而不是所有的训练数据。

假定数据是线性可分的,即可以找到一个分类超平面将两类数据完全分开。为处理非线性数据,可使用核函数方法对线性SVM进行推广。虽然通过映射φ(·)将原始数据映射到高维空间之后,能够线性分裂的概率大大增加,但是对于某些情况还是很难处理。例如并不是因为数据本身是非线性结构的,而只是因为数据有噪声。对于这种偏离正常位置很远的数据点,称之为野值点。在原来的SVM模型中,野值点的存在有可能造成很大影响,因为超平面本身就是只有少数几个支撑向量组成的。如果这些支撑向量里存在野值点,其影响就很大。

对于分类平面上的点值为0,边缘上的点值在[0,1/L]之间,其中,L为训练数据集个数,即数据集大小;对于野值点数据和内部的数据值为1/L,则原来的约束条件变为:

yi(wTxi+b)≥1-ξ,i=1,...,n

其中,ξi≥0称为松弛变量,对应数据点xi允许偏离的量。如果允许ξi任意大的话,那任意的超平面都符合条件了。在原来的目标函数后面加上一项,使得这些ξi的加和也要最小,即:

其中,C是一个参数,控制目标函数中的两项(寻找边界最大的超平面和保证数据点偏差最小)之间的权重。

ξi是需要优化的变量,而C是一个事先确定的常量。因此有:

s.t.  yi(wTxi+b)≥1-ξ  i=1,...,n

ξi≥0,i=1,...,n

将约束条件加入到目标函数之中,得到新的拉格朗日函数:

针对问题的分析方法和前面一样,在转换为另一个问题后,先使L针对w,b和ξ最小化:

将w代回L并化简,得到和原来一样的目标函数,即:

由于得到:C-αii=0

又:ɤi≥0

作为拉格朗日乘子的条件,因此有:αi≤C

所以整个对偶问题可表示为:

s.t. 0≤αi≤C, i=1,...,n

∑αiyi=0

可以看出唯一区别就是现在对偶变量α多了一个上限C。而Kernel化的非线性形式也一样,只要把<xi,xj>换成k(xi,xj)即可,可以获得完整的处理线性和非线性、能够容忍噪声和野值点的支撑向量机。

三、实验

基于内容的图像检索中,关联反馈机制能够提高检索性能。首先用结果户标记一些相关的检索作为正样本和一些不相关的结果作为负样本,然后图像检索系统基于这些反馈样本更新检索结果;接着上述两个步骤交替执行,可以逐渐学习用户需求,增强检索性能。

在关联反馈机制方面,可以通过调整各种特征维度的权重来适应用户偏好,估计正反馈样本的密度,将判别学习方法用于图像的特征选择。

基于分类方法的关联反馈机制成为图像检索领域的前沿课题,在各种二分类器中,基于SVM的关联反馈机制具有很好的泛化性能,基于SVM的主动学习方法将图像空间分为两部分,其中距离分类面最远的正样本通常作为最相关的样本,距离分类面最近的样本作为最具信息量的样本。

下面详细阐述基于SVM的图像检索系统的关联反馈方法。

SVM是一种有效的二分类算法,考虑一个线性可分的二分类问题:{xi,yi}i,并且yi={+1,-1}.其中,xi是一个n维向量,yi是向量所属的类别信息。

SVM通过一个超平面将两类样本点进行划分,即:wTx+b=0 .其中,w是一个输入向量,x是一个自适应权重向量,b是一个偏置。SVM通过最大化几何边界2/||w||获得最优超平面的参数w和b,并且满足:yi(wTxi+b)≥+1

通过引入拉格朗日系数,求解对偶问题可获得:

并且同时满足:                                                                   αi≥0

在对偶模式中,数据点仅出现内积形式。为了获得数据的更好表达,可将这些数据点通过替换操作映射到希尔伯特内积空间中:xi·xj->φ(xi)·φ(xj)=K(xi,xj).其中K(·)是一个核函数。

可以获得对偶问题的核函数表示形式:

对于任意给定的核函数,SVM分类器可以表示为: F(x)=sgn(f(x)). 其中,f(x)是SVM分类超平面的决策函数:f(x)=∑i=1lαiyiK(xi,x)+b

对于给定图像样本,当|f(x)|越高时,相应的预测确信度越高。对于给定模式,当|f(x)|越低时,意味着预测确信度越低。因此SVM的输出可以作为测量给定模式与查询模式之间相似度的度量。

%matlab编程实现
% kernel function
C = ; %% 拉格朗日乘子上界
ker = struct('type','linear') %% ker - 核参数(结构体变量)
% type - linear : k(x,y) = x'*y % test sample 构造两类训练样本
n = ;
randn('state',); % 'state'是对随机发生器的状态进行初始化,并且定义该状态初始值.用来产生该相同的随机数
x1 = randn(,n); % 返回一个2*n的随机项矩阵,满足正态分布
y1 = ones(,n); % 生成1行N列的元素为1的矩阵
x2 = +randn(,n);
y2 = -ones(,n); figure();
plot(x1(,:),x1(,:),'bx',x2(,:),x2(,:),'k.');
%以x1中第1行数据为横坐标,第2行数据为纵坐标,在坐标图中描点,每点用“蓝色x型”标记;
%以x2中第1行数据为横坐标,第2行数据为纵坐标,在坐标图中描点,每点用“黑色圆点”标记;
axis([- - ]);
title('C-SVC')
hold on; X = [x1,x2]; % 训练样本,n×d的矩阵,n为样本个数,d为样本维数
Y = [y1,y2]; % 训练目标,n×1的矩阵,n为样本个数,值为+1或- % train SVM
tic %tic用来保存当前时间,而后使用toc来记录程序完成时间,显示时间单位:秒
svm = svmTrain('svc_c',X,Y,ker,C);
t_train = toc % find sustain vector
a = svm.a;
epsilon = 1e-;
i_sv = find(abs(a)>epsilon);
plot(X(,i_sv),X(,i_sv),'ro'); % test output
[x1,x2] = meshgrid(-:0.1:,-:0.1:);
[rows,cols] = size(x1);
nt = rows*cols;
Xt = [reshape(x1,,nt);reshape(x2,,nt)]; tic
Yd = svmSim(svm,Xt);
t_sim = toc Yd = reshape(Yd,rows,cols);
contour(x1,x2,Yd,[ ],'m');
hold off;

四、算法特点

非线性映射是SVM的基本理论基础,SVM采用内积核函数代替样本内积向高维空间的非线性映射;获得在高维特征空间划分的最优超平面是SVM的最终目标,最大化分类超平面的思想是SVM的核心。

支撑向量是训练SVM过程中获得的在分类超平面上的样本点,在SVM对测试样本的分类决策中起决定作用;支撑向量是一种有着坚实理论基础的小样本学习方法。SVM的决策函数由少数几个支撑向量来确定,它的计算复杂性取决于支撑向量的数目,而不是样本空间的维数,避免了常规学习方法的“维数灾难”。在SVM方法中,通常少数支撑向量就可以决定最终结果,这样不但可以抓住关键样本、“剔除”大量冗余样本,而且使得该方法不但运算简单,而且具有较好的鲁棒性,这是由于增加或者啥暗处非支撑向量样本对模型没有影响,而支撑向量样本集具有一定的鲁棒性。

SVM对大规模训练数据样本难以进行分类操作,这是由于SVM借助二次规划来求解支撑向量,它涉及m阶矩阵的计算,其中m为训练样本的个数,当m很大时,训练过程中矩阵存储和计算将耗费大量内存和计算代价。

经典的SVM只给出二分类算法,而在真实的数据挖掘的应用中,一般需要解决的是多分类问题。通常多分类问题可以通过构造多个二分类SVM的组合来解决,如一对多模式、一对一模式等,只要机理是构造多个SVM分类器的组合,克服SVM固有缺点,结合其他算法的优势,提高多分类问题的分类精度。

视觉机器学习读书笔记--------SVM方法的更多相关文章

  1. 视觉机器学习读书笔记--------BP学习

    反向传播算法(Back-Propagtion Algorithm)即BP学习属于监督式学习算法,是非常重要的一种人工神经网络学习方法,常被用来训练前馈型多层感知器神经网络. 一.BP学习原理 1.前馈 ...

  2. 机器学习读书笔记(七)支持向量机之线性SVM

    一.SVM SVM的英文全称是Support Vector Machines,我们叫它支持向量机.支持向量机是我们用于分类的一种算法. 1 示例: 先用一个例子,来了解一下SVM 桌子上放了两种颜色的 ...

  3. 《你必须知道的.NET》读书笔记:方法表初窥

    一.窥探准备工作 public class Base { public void M() { Console.WriteLine("M in Base"); } public vi ...

  4. Effective Java 读书笔记之六 方法

    一.检查参数的有效性 1.考虑参数有哪些限制,把限制写到文档中,在方法的开头处通过显式地检查来实施这些限制. 二.必要时进行保护性拷贝 1.如果类具有从客户端得到或者返回的可变组件,类就必须考虑保护性 ...

  5. Spring揭秘 读书笔记 四----方法注入

    我们知道,拥有prototype类型scope的bean,在请求方每次向容器请求该类型对象的时候,容器都会返回一个全新的该对象实例. 我们看下面的例子: public class MockNewsPe ...

  6. [Clr via C#读书笔记]Cp8方法

    Cp8方法 构造器 作用就是初始化所有成员字段:.ctor:派生类和基类都有自己的构造函数.默认有一个无参数的构造函数,值字段初始化为0,引用字段初始化为null:可以有多个构造器: 值类型的初始化其 ...

  7. 机器学习读书笔记(五)AdaBoost

    一.Boosting算法 .Boosting算法是一种把若干个分类器整合为一个分类器的方法,在boosting算法产生之前,还出现过两种比较重要的将多个分类器整合为一个分类器的方法,即boostrap ...

  8. 机器学习读书笔记(二)使用k-近邻算法改进约会网站的配对效果

    一.背景 海伦女士一直使用在线约会网站寻找适合自己的约会对象.尽管约会网站会推荐不同的任选,但她并不是喜欢每一个人.经过一番总结,她发现自己交往过的人可以进行如下分类 不喜欢的人 魅力一般的人 极具魅 ...

  9. 机器学习读书笔记(一)k-近邻算法

    一.机器学习是什么 机器学习的英文名称叫Machine Learning,简称ML,该领域主要研究的是如何使计算机能够模拟人类的学习行为从而获得新的知识和技能,并且重新组织已学习到的知识和和技能,使之 ...

随机推荐

  1. LVS集群之DR模式 实现

    ps:做 dr 模式 之前,先把之前做过的操作清空掉 1.ipvsadm -ln 查看规则 2.ipvsadm -C 清空规则 3.ipvsadm -ln 确认 4.iptables -t nat - ...

  2. css div上下左右居中

    相信大家都会遇到这样的问题,要求一个块上下左右居中,在这里我总结了几个好用的方法 1.已知要居中的块width height 假设  content 要在f里上下左右居中 <div class= ...

  3. sql单表中某一字段重复,取最近3条或几条数据

    order by a.uid,a.id; sql查询语句,针对需求:一个表中某一字段是有重复的数据,针对该字段相同的值只取最近的3条或要求的几条: --记录铭心!

  4. nginx 配置https upstream 跳转失败

    访问首页没问题,但是在登录跳转重定向时域名被修改成upstream的名字 如果需要跳转的话会出现下面的情况: http://test-xxx-emove_pools/beehive/index ser ...

  5. scala中的面向对象定义类,构造函数,继承

    我们知道scala中一切皆为对象,函数也是对象,数字也是对象,它是一个比java还要面向对象的语言. 定义scala的简单类 class Point (val x:Int, val y:Int) 上面 ...

  6. 在IntelliJ IDEA中添加框架支持时找不到Hibernate的解决办法

    问题描述 第一次在Add Frameworks support界面中添加hibernate支持的时候,异常中断,导致没有成功添加. 第二次进入Add Frameworks support窗口时,发现找 ...

  7. iOS 线程间共享资源添加排它锁

    #import "ViewController.h" @interface ViewController () @property(nonatomic,strong)NSThrea ...

  8. <更新日期03-31-2016> 复利计算5.0 <已改进>

    作业要求: 1.客户说:帮我开发一个复利计算软件. 完成复利公式计算程序,并成功PUSH到github上. 客户提出: 2.如果按照单利计算,本息又是多少呢? 3.假如30年之后要筹措到300万元的养 ...

  9. SeekBar进度条简单案例

    SeekBar是进度条.我们使用进度条时,可以使用系统默认的进度条:也可以自定义进度条的图片和滑块图片等 向右拉进度条让图片显示出来 向右拉五角星加载有色进度条 baseSeekBar package ...

  10. DNS域名解析过程

    图1-10是DNS域名解析的主要请求过程实例图. 如图1-10所示,当一个用户在浏览器中输入www.abc.com时,DNS解析将会有将近10个步骤,这个过程大体描述如下.当用户在浏览器中输入域名并按 ...