SVM3 Soft Margin SVM
之前分为两部分讨论过SVM。第一部分讨论了线性SVM,并且针对线性不可分的数据,把原始的问题转化为对偶的SVM求解。http://www.cnblogs.com/futurehau/p/6143178.html
然后考虑到特征数量特别特别多的时候,引入核函数的求解。http://www.cnblogs.com/futurehau/p/6149558.html
但是,之前也遗留了一个问题,就是比如高斯核函数或其他的核函数,虽然large margin能够在一定程度上防止过拟合,但是加入你的核函数太过于powerful的话,还是很有可能带来overfit的问题。另一方面,之前都是基于hard Margin,就是要求你所有的数据都给我分正确,这很容易带来过拟合的问题。
所以,接下来就讨论soft margin来避免过拟合问题。简单来说soft margin就是允许模型犯一些的错误。
一、soft margin 的引入
如下图所示,我们把原来的hard margin转化为soft margin,允许你在一些点处犯错误,但是最小化的式子就需要改变,意思是你错误的点要尽可能的少。c是用来权衡soft margin和容许犯的错误大小的超参数。
稍微转化一下,表达式变为:
但是我们发现,这样一个表达式并不是一个QP问题的,因为取0取1这个的引入导致是非线性的,那么我们应该怎么转化呢?
这样思考,之前我们只考虑了分正确没,对于不正确的都一视同仁。我们可不可以改变一下呢?对于那些不正确的,如果离边界比较远的其实是大错误,如果离边界比较近的其实是小错误,这两类错误其实是应该区分开来的,所以引入新的表达式如下:
使用伊布c龙来记录违反的大小。表明你离我想要的值到底有多远。
这样,我们的问题就转化为:
观察这个表达式,其实也可以看为给定松弛因子做目标函数,给定一个L2的正则项。
二、soft margin 的 dual problem
好了,我们之前得到原始的soft margin 问题:
类似于之前的方法,我们需要把这个问题转换为对偶问题。
写出拉格朗日函数:
目标:
对伊布c隆求导得到:
带回原来表达式化简得到:
得到最终的表达式:
我们发现,最终的soft Margin dual problem的表达式和hard margin的表达式是内部是一样的,区别在于alpha的范围变化了。所以类似于之前的内部求偏导,我们可以得到:
对比之前,唯一的区别就是alpha的范围改变了。
三、参数b的计算与图形分析
3.1 b的求解
之前得到了几个参数,还差b。b的表达和之前有所不同,这里特别分析。
只有第二个等式C不等于alpha的时候才有确定的解,否则只能由kkt条件给出一个范围。
3.2 C的影响
3.3 alpha的物理意义
4. leave one out cross validation
还不太理解。
SVM3 Soft Margin SVM的更多相关文章
- Jordan Lecture Note-7: Soft Margin SVM
Soft Margin SVM (1)Recall 之前分析到SVM的模型为: \begin{align}\mathop{\min}&\quad \frac{1}{2}w^\prime w\ ...
- 机器学习:SVM(目标函数推导:Hard Margin SVM、Soft Margin SVM)
一.Hard Margin SVM SVM 的思想,最终用数学表达出来,就是在优化一个有条件的目标函数: 此为 Hard Margin SVM,一切的前提都是样本类型线性可分: 1)思想 SVM 算法 ...
- 机器学习——SVM详解(标准形式,对偶形式,Kernel及Soft Margin)
(写在前面:机器学习入行快2年了,多多少少用过一些算法,但由于敲公式太过浪费时间,所以一直搁置了开一个机器学习系列的博客.但是现在毕竟是电子化的时代,也不可能每时每刻都带着自己的记事本.如果可以掏出手 ...
- Support Vector Machine(3):Soft Margin 平衡之美
很多材料上面讲道“引入Soft Margin的原因是因为数据线性不可分”,个人认为有些错误,其实再难以被分解的数据,如果我们用很复杂的弯弯绕曲线去做,还是可以被分解,并且映射到高维空间后认为其线性可分 ...
- <老古董>线性支持向量机中的硬间隔(hard margin)和软间隔(soft margin)是什么
_________________________________________________________________________________________________ Th ...
- 走过路过不要错过 包你一文看懂支撑向量机SVM
假设我们要判断一个人是否得癌症,比如下图:红色得癌症,蓝色不得. 看一下上图,要把红色的点和蓝色的点分开,可以画出无数条直线.上图里黄色的分割更好还是绿色的分割更好呢?直觉上一看,就是绿色的线更好.对 ...
- 机器学习:SVM(scikit-learn 中的 SVM:LinearSVC)
一.基础理解 Hard Margin SVM 和 Soft Margin SVM 都是解决线性分类问题,无论是线性可分的问题,还是线性不可分的问题: 和 kNN 算法一样,使用 SVM 算法前,要对数 ...
- 机器学习:SVM(基础理解)
一.基础理解 1)简介 SVM(Support Vector Machine):支撑向量机,既可以解决分类问题,又可以解决回归问题: SVM 算法可分为:Hard Margin SVM.Soft Ma ...
- tensorflow实现svm iris二分类——本质上在使用梯度下降法求解线性回归(loss是定制的而已)
iris二分类 # Linear Support Vector Machine: Soft Margin # ---------------------------------- # # This f ...
随机推荐
- Linux分区介绍
分区的大小主要取决于个人的选择,以下内容可能会有一定帮助:/boot - 200 MB 实际需求大约 100 MB,如果有多个内核/启动镜像同时存在,建议分配 200 或者 300 MB./ - 15 ...
- bootstrap表格内容垂直居中
td{ vertical-align: middle !important;}
- 【java】 linux下利用nohup后台运行jar文件包程序
Linux 运行jar包命令如下: 方式一: java -jar XXX.jar 特点:当前ssh窗口被锁定,可按CTRL + C打断程序运行,或直接关闭窗口,程序退出 那如何让窗口不锁定? 方式二 ...
- 如何成为一名合格甚至优秀的个人草根站长(转载自ChinaZ)
这章本来不想写来的,后来琢磨琢磨还是废话一下吧.主要是想说下现在草根站长的状态和如何成为一名合格的甚至优秀的草站站长. 伟大的草根站长们,在某些媒体的超级忽悠下全来到网络上淘金来了,有在校的大学生,有 ...
- 02 Linux 下安装JDK并测试开发“Hello World!”
测试环境 主机系统:Win7 64位 虚拟机:VMware® Workstation 11.1.0 虚拟机系统:CentOS 6.5 64位 Kernel 2.6.32-431.e16.x86_6 ...
- ruby md5加签验签方法
# md5签名def md5_sign(data,key) return OpenSSL::Digest::MD5.hexdigest(data+key)end # md5验签def md5_veri ...
- try-catch(C# 参考)
https://msdn.microsoft.com/zh-cn/library/0yd65esw.aspx Try-catch 语句包含一个后接一个或多个 catch 子句的 try 块,这些子句指 ...
- SQL Server 2008 数据库通过镜像同步备份(数据库热备)
数据库镜像运行模式: 异步数据库镜像模式(异步,高性能模式) 同步数据库镜像模式(同步,高安全模式) 参考资料: http://technet.microsoft.com/zh-cn/library/ ...
- java内存溢出分析(二)
我们继续java内存溢出分析(一)的分析,点击Details>按钮,显示如下图,我们发现有一个对象数量达到280370216个,再点击其中的List objects 点击后,显示下图 至此,我们 ...
- (LinkedList) Remove Linked List Elements
Remove all elements from a linked list of integers that have value val. ExampleGiven: 1 --> 2 --& ...