SVM知识点

SVM(Support Vector Machine)，支持向量机，有监督学习模型，一种分类模型。在特征空间（输入空间为欧式空间或离散集合，特征空间为欧式空间或希尔伯特空间）中寻找间隔最大化的分离超平面的线性分类器。学习策略就是间隔最大化，可形式化为一个求解凸二次规划(QP)的问题，也等价于正则化的合页损失函数的最小化问题。

针对数据特点，处理方法或者说原理是：

(1).当训练样本线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分SVM；

(2).当训练数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性分类器，即线性支持向量机；

(3).当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。

一句话解释一下线性核和高斯核的区别：

Linear核主要用于线性可分的情形，参数少，速度快；高斯核主要用于线性不可分的情形，参数多，分类结果依赖于参数，可通过公式辨别。

1. 如果Feature的数量很大，跟样本数量差不多，这时候选用LR或者是LinearKernel的SVM

2. 如果Feature的数量比较小，样本数量一般，不算大也不算小，选用SVM+Gaussian Kernel

3. 如果Feature的数量比较小，而样本数量很多，需要手工添加一些feature变成第一种情况

当样本在原始空间线性不可分时，将样本由原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。(高维空间线性可分)

通过核函数可以学习非线性支持向量机，等价于隐式地在高维的特征空间中学习线性支持向量机。即传说中的核方法。

为什么SVM对缺失数据敏感？

SVM没有处理缺失值的策略(决策树有)，SVM希望样本在特征空间中线性可分，所以特征空间的好坏对SVM性能很重要。

为什么使用间隔最大化：

线性可分支持向量机利用间隔最大化求得最优分离超平面，这时，解是存在且唯一的。另一方面，此时的分隔超平面所产生的分类结果是最鲁棒的，对未知实例的泛化能力最强。

为什么将SVM的原始问题转换为其对偶问题来解决：

因为对偶问题往往更容易求解，原问题的求解包含约束条件，使问题求解变得复杂，将目标函数和约束重新整合到一个新函数，即拉格朗日函数，然后再通过这个函数来寻找最优解比较容易。

具体求解过程见李航统计学习方法第七章。

SVM用到的Python库和调参：

Sklearn库，调用sklearn.svm，-c 惩罚参数；kernel：0为线性，1为多项式，2为RBF核，3为sigmoid(tanh)；gamma：核函数参数；coef0：核函数的常数项。

https://www.zhihu.com/question/21094489上的例子解释的很通俗易懂。

SVM知识点的更多相关文章

SVM面试知识点总结
1. SVM 原理 SVM 是一种二类分类模型.它的基本思想是在特征空间中寻找间隔最大的分离超平面使数据得到高效的二分类,具体来讲,有三种情况(不加核函数的话就是个线性模型,加了之后才会升级为一个非线 ...
关于SVM的一些知识点
SVM支持向量机定义:支持向量机是主要用于解决分类问题的学习模型.它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器. 分类 1-当训练样本线性可分,通过硬间隔最大化,学习一个线性分类 ...
EasyPR--开发详解（6）SVM开发详解
在前面的几篇文章中,我们介绍了EasyPR中车牌定位模块的相关内容.本文开始分析车牌定位模块后续步骤的车牌判断模块.车牌判断模块是EasyPR中的基于机器学习模型的一个模块,这个模型就是作者前文中从机 ...
Atitit 图像处理知识点体系知识图谱路线图attilax总结 v4 qcb.xlsx
Atitit 图像处理知识点体系知识图谱路线图attilax总结 v4 qcb.xlsx 分类图像处理知识点体系 v2 qb24.xlsx 分类分类理论知识图像金字塔常用底层操作卷积扫描 ...
支持向量机(SVM)基础
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gm ...
SVM入门
前言: 又有很长的一段时间没有更新博客了,距离上次更新已经有两个月的时间了.其中一个很大的原因是,不知道写什么好-_-,最近一段时间看了看关于SVM(Support Vector Machine)的文 ...
常用的机器学习&数据挖掘知识点【转】
转自: [基础]常用的机器学习&数据挖掘知识点 Basis(基础): MSE(Mean Square Error 均方误差),LMS(LeastMean Square 最小均方),LSM(Le ...
支持向量机(SVM)利用网格搜索和交叉验证进行参数选择
上一回有个读者问我:回归模型与分类模型的区别在哪?有什么不同,我在这里给他回答一下 : : : : 回归问题通常是用来预测一个值,如预测房价.未来的天气情况等等,例如一个产品的实际价格为500元,通过 ...
机器学习中的算法(2)-支持向量机(SVM)基础
版权声明:本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gma ...

随机推荐

PL/SQL规范、块、过程、函数、包、触发器
1.pl/sql规范标识符号的命名规范 1) 定义变量,用 v- 作为前缀 v-sal 2)定义常亮, 用 c- 作为前缀 c-rate 3) 定义游标,用 cursor作为后缀 emp_curso ...
简述 private、 protected、 public、 internal 修饰符的访问权限
简述 private. protected. public. internal 修饰符的访问权限. private : 私有成员, 在该类的内部才可以访问. protected : 保护成员,该类内部 ...
JS JavaScript闭包和作用域
JavaScript高级程序设计中对闭包的定义:闭包是指有权访问另外一个函数作用域中变量的函数. 从概念上,闭包有两个特点: 1.函数 2.能访问另外一个函数的作用域中的变量在ES6之前,JavaS ...
springboot jar 部署到linux之后获取类资源文件问题-- 仅限linux 下情况比较特殊需要获取打到jar内的讲台资源只能通过流获取，根据路径获取不到指定文件 nullpointExption
https://blog.csdn.net/qq_27000425/article/details/72897282 ClassPathResource类,如果没有指定相对的类名,该类将从类的根路径开 ...
MySQL表结构（含数据类型、字段备注注释）导出成Excel
方法一: 1.用的是Navicat Premium,可以换成任意图形化客户端 SELECT COLUMN_NAME 列名, COLUMN_TYPE 数据类型, DATA_TYPE 字段类型, CHAR ...
MySQL数据库主从（主主）配置
一.系统环境: centos7.4 (centos 1708) mysql 5.7 master主机的IP地址为192.168.159.50 slave主机的IP地址为192.168.159.51 M ...
FBI树
题目描述我们可以把由"0"和"1"组成的字符串分为三类:全"0"串称为B串,全"1"串称为I串,既含"0&q ...
POJ2406 Power Strings(KMP)
Time Limit: 3000MS Memory Limit: 65536K Total Submissions: 56162 Accepted: 23370 Description Giv ...
LVS NAT,DR,TUN三种负载原理
负载均衡简单介绍用通俗的话来说负载均衡,就是通过不同的调度机制将用户的请求分派到后端不同的服务器.缓解服务器的请求压力,实现负载均衡的方案有多种,下面简单说说了解的几种方式: DNS 负载:利用DN ...
CentOS 7.4使用yum源安装php7.2
1.如果之前已经安装我们先卸载一下 yum -y remove php* 2.由于linux的yum源不存在php7.x,所以我们要更改yum源 rpm -Uvh https://dl.fedorap ...