SMO算法（转）

作者：[已重置]
链接：https://www.zhihu.com/question/40546280/answer/88539689
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

SMO(Sequential Minimal Optimization)是针对求解SVM问题的Lagrange对偶问题，一个二次规划式，开发的高效算法。传统的二次规划算法的计算开销正比于训练集的规模，而SMO基于问题本身的特性（KKT条件约束）对这个特殊的二次规划问题的求解过程进行优化。对偶问题中我们最后求解的变量只有Lagrange乘子 ${\vec \alpha }$ 向量，这个算法的基本思想就是每次都只选取一对 $\left( {{\alpha _i},{\alpha _j}} \right)$ ，固定 ${\vec \alpha }$ 向量其他维度的元素的值，然后进行优化，直至收敛。

SMO干了什么？
首先，整个对偶问题的二次规划表达如下：
$\begin{align} \mathop {\max }\limits_{\vec \alpha } & \quad \sum\limits_{i = 1}^n {{\alpha _i}} - \frac{1}{2}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^n {{\alpha _i}{\alpha _j}{y_i}{y_j}{\bf{x}}_i^T{{\bf{x}}_j}} } \\ s.t.& \quad \sum\limits_{i = 1}^n {{\alpha _i}{y_i}} = 0 \\ & \quad {\alpha _i} \ge 0, \quad i = 1,2, \ldots ,n \end{align}$
SMO在整个二次规划的过程中也没干别的，总共干了两件事：

选取一对参数 $\left( {{\alpha _i},{\alpha _j}} \right)$
固定 ${\vec \alpha }$ 向量的其他参数，将 $\left( {{\alpha _i},{\alpha _j}} \right)$ 代入上述表达式进行求最优解获得更新后的 $\left( {{\alpha _i},{\alpha _j}} \right)$

SMO不断执行这两个步骤直至收敛。

因为有约束 $\sum\limits_{i = 1}^n {{\alpha _i}{y_i}} = 0$ 存在，实际上 ${{\alpha _i}}$ 和 ${{\alpha _j}}$ 的关系也可以确定。 ${\alpha _i}{y_i} + {\alpha _j}{y_j} = C$ 这两个参数的和或者差是一个常数。
&amp;lt;img src="https://pic1.zhimg.com/071f3351b3eee2db40fea3ba944f9d7c_b.png" data-rawwidth="633" data-rawheight="274" class="origin_image zh-lightbox-thumb" width="633" data-original="https://pic1.zhimg.com/071f3351b3eee2db40fea3ba944f9d7c_r.png"&amp;gt;所以虽然宣传上说是选择了一对

所以虽然宣传上说是选择了一对 $\left( {{\alpha _i},{\alpha _j}} \right)$ ，但还是选择了其中一个，将另一个写作关于它的表达式代入目标函数求解。

为什么SMO跑的那么快，比提出之前的算法不知道高到哪里去了？
正如上面提到的，在固定其他参数以后，这就是一个单变量二次规划问题，仅有的约束也是这个变量 $\alpha _i \ge 0$ ，显然有闭式解。不必再调用数值优化算法。

KKT条件是对偶问题最优解的必要条件：
$\begin{cases} {{\alpha _i} \ge 0}\\ {{y_i}f\left( {{{\bf{x}}_i}} \right) - 1 \ge 0}\\ {{\alpha _i}\left( {{y_i}f\left( {{{\bf{x}}_i}} \right) - 1} \right) = 0} \end{cases}$

除了第一个非负约束以外，其他约束都是根据目标函数推导得到的最优解必须满足的条件，如果违背了这些条件，那得到的解必然不是最优的，目标函数的值会减小。

所以在SMO迭代的两个步骤中，只要 $\left( {{\alpha _i},{\alpha _j}} \right)$ 中有一个违背了KKT条件，这一轮迭代完成后，目标函数的值必然会增大。Generally speaking，KKT条件违背的程度越大，迭代后的优化效果越明显，增幅越大。

怎样跑的更快？
和梯度下降类似，我们要找到使之优化程度最大的方向（变量）进行优化。所以SMO先选取违背KKT条件程度最大的变量，那么第二个变量应该选择使目标函数值增大最快的变量，但是这个变量怎么找呢？比较各变量优化后对应的目标函数值的变化幅度？这个样子是不行的，复杂度太高了。

SMO使用了一个启发式的方法，当确定了第一个变量后，选择使两个变量对应样本之间最大的变量作为第二个变量。直观来说，更新两个差别很大的变量，比起相似的变量，会带给目标函数更大的变化。间隔的定义也可以借用偏差函数
${E_i} = \max \left( {{y_i}f\left( {{{\bf{x}}_i}} \right) - 1,0} \right)$
我们要找的也就是使对于 $\alpha_i$ 来说使 $\left| {{E_i} - {E_j}} \right|$ 最大的 $\alpha_j$

很惭愧，只做了一点微小的工作。

References
[1] Platt, John. "Sequential minimal optimization: A fast algorithm for training support vector machines." (1998).

SMO算法（转）的更多相关文章

机器学习——支持向量机(SVM)之Platt SMO算法
Platt SMO算法是通过一个外循环来选择第一个alpha值的,并且其选择过程会在两种方式之间进行交替: 一种方式是在所有数据集上进行单遍扫描,另一种方式则是在非边界alpha中实现单遍扫描. 所谓 ...
支持向量机原理(四)SMO算法原理
支持向量机原理(一) 线性支持向量机支持向量机原理(二) 线性支持向量机的软间隔最大化模型支持向量机原理(三)线性不可分支持向量机与核函数支持向量机原理(四)SMO算法原理支持向量机原理(五) ...
SVM-非线性支持向量机及SMO算法
SVM-非线性支持向量机及SMO算法如果您想体验更好的阅读:请戳这里littlefish.top 线性不可分情况线性可分问题的支持向量机学习方法,对线性不可分训练数据是不适用的,为了满足函数间隔大 ...
改进的SMO算法
S. S. Keerthi等人在Improvements to Platt's SMO Algorithm for SVM Classifier Design一文中提出了对SMO算法的改进,纵观SMO ...
[笔记]关于支持向量机（SVM）中 SMO算法的学习（一）理论总结
1. 前言最近又重新复习了一遍支持向量机(SVM).其实个人感觉SVM整体可以分成三个部分: 1. SVM理论本身:包括最大间隔超平面(Maximum Margin Classifier),拉格朗日 ...
关于SVM数学细节逻辑的个人理解（三）：SMO算法理解
第三部分:SMO算法的个人理解接下来的这部分我觉得是最难理解的?而且计算也是最难得,就是SMO算法. SMO算法就是帮助我们求解: s.t. 这个优化问题的. 虽然这个优化问题只剩下了α这一个变 ...
支持向量机(Support Vector Machine)-----SVM之SMO算法(转)
此文转自两篇博文有修改序列最小优化算法(英语:Sequential minimal optimization, SMO)是一种用于解决支持向量机训练过程中所产生优化问题的算法.SMO由微软研究院的 ...
支持向量机（五）SMO算法
11 SMO优化算法(Sequential minimal optimization) SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规 ...
机器学习之支持向量机（二）：SMO算法
注:关于支持向量机系列文章是借鉴大神的神作,加以自己的理解写成的:若对原作者有损请告知,我会及时处理.转载请标明来源. 序: 我在支持向量机系列中主要讲支持向量机的公式推导,第一部分讲到推出拉格朗日对 ...
支持向量机-SMO算法简化版
SMO:序列最小优化 SMO算法:将大优化问题分解为多个小优化问题来求解 SMO算法的目标是求出一系列的alpha和b,一旦求出这些alpha,就很容易计算出权重向量w,并得到分隔超平面工作原理:每 ...

随机推荐

linux非root用户执行开机启动程序
问题开机启动其他用户的程序或者说非root用户执行开机启动编写开机启动脚本编写开机启动脚本apple_tree,放到/etc/init.d,系统启动时会自动执行. 例如,/etc/init.d/ ...
Hadoop专业解决方案-第1章大数据和Hadoop生态圈
一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章大数据和Hadoop生态圈小组已经翻译完成,在此 ...
SpringCloud使用jpa之Rest方式
这个与上一篇的基本相同,需要修改的只有Dao层的文件: TablesDao.java package com.shinho.dao; import org.springframework.data.j ...
[.net]webform 版本冲突
ASP.NET Web Pages版本问题调试后浏览器提示: 检测到 ASP.NET Web Pages 的冲突版本: 指定的版本为“1.0.0.0”,而 bin 中的版本为“2.0.0.0”.要继 ...
浅析PHP7新功能及语法变化总结
标量类型声明有两种模式: 强制 (默认) 和严格模式. 现在可以使用下列类型参数(无论用强制模式还是严格模式): 字符串(string), 整数 (int), 浮点数 (float), 以及布尔值 ...
java的缓存框架
1.java里面有一些开源的缓存框架,比如ecache,memcache,redis等缓存框架. 2.使用缓存框架的原理就是减少数据库端的压力,将缓存数据放在内存里面,存储成键值对的格式,这样可以不去 ...
JAVA中关于set()和get()方法的理解及使用
对于JAVA初学者来说,set和get这两个方法似乎已经很熟悉了,这两个方法是JAVA变成中的基本用法,也是出现频率相当高的两个方法. 为了让JAVA初学者能更好的理解这两个方法的使用和意义,今天笔者 ...
solr查询空值、null、不存在的字段的方法
正常情况下我们都是按有值的方式去搜索,但是有时候有一些字段为null,solr中就没有存储进去,我们怎么获取这个字段不存在为条件的搜索结果了,我们只需要在搜索字段前加上负号,如下图摘要: Solr的 ...
mysql数据表自动导为python sqlalchemy可操作对象
1.pip install sqlacodegen pip install pymysql 在/usr/lib/python/site-packages/sqlacodegen/main.py中添 ...
【Flutter】Flutter 一些常用库
Flutter社区和资源传送门新: 慕课网<Flutter入门与案例实战> | 中文网<Flutter实战>电子书字体图标生成 http://fluttericon ...

SMO算法（转）

SMO算法（转）的更多相关文章

随机推荐

热门专题