支持向量机(SVM)介绍

目标

本文档尝试解答如下问题:

如何使用OpenCV函数 CvSVM::train 训练一个SVM分类器，以及用 CvSVM::predict 测试训练结果。

什么是支持向量机(SVM)?

支持向量机 (SVM) 是一个类分类器，正式的定义是一个能够将不同类样本在样本空间分隔的超平面。换句话说，给定一些标记(label)好的训练样本 (监督式学习), SVM算法输出一个最优化的分隔超平面。

如何来界定一个超平面是不是最优的呢? 考虑如下问题：

假设给定一些分属于两类的2维点，这些点可以通过直线分割，我们要找到一条最优的分割线.

Note

在这个示例中，我们考虑卡迪尔平面内的点与线，而不是高维的向量与超平面。这一简化是为了让我们以更加直觉的方式建立起对SVM概念的理解，但是其基本的原理同样适用于更高维的样本分类情形。

在上面的图中，你可以直觉的观察到有多种可能的直线可以将样本分开。那是不是某条直线比其他的更加合适呢? 我们可以凭直觉来定义一条评价直线好坏的标准:

距离样本太近的直线不是最优的，因为这样的直线对噪声敏感度高，泛化性较差。因此我们的目标是找到一条直线，离所有点的距离最远。

由此， SVM算法的实质是找出一个能够将某个值最大化的超平面，这个值就是超平面离所有训练样本的最小距离。这个最小距离用SVM术语来说叫做 间隔(margin) 。概括一下，最优分割超平面 最大化 训练数据的间隔。

如何计算最优超平面?

下面的公式定义了超平面的表达式:

叫做 权重向量 ，叫做 偏置(bias) 。

源码

#include <opencv2/core/core.hpp>

#include <opencv2/highgui/highgui.hpp>

#include <opencv2/ml/ml.hpp>

using namespace cv;

int main()

{

    // Data for visual representation

    int width = 512, height = 512;

    Mat image = Mat::zeros(height, width, CV_8UC3);

    // Set up training data

    float labels[4] = {1.0, -1.0, -1.0, -1.0};

    Mat labelsMat(3, 1, CV_32FC1, labels);

    float trainingData[4][2] = { {501, 10}, {255, 10}, {501, 255}, {10, 501} };

    Mat trainingDataMat(3, 2, CV_32FC1, trainingData);

    // Set up SVM's parameters

    CvSVMParams params;

    params.svm_type    = CvSVM::C_SVC;

    params.kernel_type = CvSVM::LINEAR;

    params.term_crit   = cvTermCriteria(CV_TERMCRIT_ITER, 100, 1e-6);

    // Train the SVM

    CvSVM SVM;

    SVM.train(trainingDataMat, labelsMat, Mat(), Mat(), params);

    Vec3b green(0,255,0), blue (255,0,0);

    // Show the decision regions given by the SVM

    for (int i = 0; i < image.rows; ++i)

        for (int j = 0; j < image.cols; ++j)

        {

            Mat sampleMat = (Mat_<float>(1,2) << i,j);

            float response = SVM.predict(sampleMat);

            if (response == 1)

                image.at<Vec3b>(j, i)  = green;

            else if (response == -1)

                 image.at<Vec3b>(j, i)  = blue;

        }

    // Show the training data

    int thickness = -1;

    int lineType = 8;

    circle( image, Point(501,  10), 5, Scalar(  0,   0,   0), thickness, lineType);

    circle( image, Point(255,  10), 5, Scalar(255, 255, 255), thickness, lineType);

    circle( image, Point(501, 255), 5, Scalar(255, 255, 255), thickness, lineType);

    circle( image, Point( 10, 501), 5, Scalar(255, 255, 255), thickness, lineType);

    // Show support vectors

    thickness = 2;

    lineType  = 8;

    int c     = SVM.get_support_vector_count();

    for (int i = 0; i < c; ++i)

    {

        const float* v = SVM.get_support_vector(i);

        circle( image,  Point( (int) v[0], (int) v[1]),   6,  Scalar(128, 128, 128), thickness, lineType);

    }

    imwrite("result.png", image);        // save the image 

    imshow("SVM Simple Example", image); // show it to the user

    waitKey(0);

}

解释

建立训练样本

本例中的训练样本由分属于两个类别的2维点组成，其中一类包含一个样本点，另一类包含三个点。
float labels[4] = {1.0, -1.0, -1.0, -1.0};

float trainingData[4][2] = {{501, 10}, {255, 10}, {501, 255}, {10, 501}};
函数 CvSVM::train 要求训练数据储存于float类型的 Mat 结构中，因此我们定义了以下矩阵:
Mat trainingDataMat(3, 2, CV_32FC1, trainingData);

Mat labelsMat      (3, 1, CV_32FC1, labels);

设置SVM参数

此教程中，我们以可线性分割的分属两类的训练样本简单讲解了SVM的基本原理。然而，SVM的实际应用情形可能复杂得多 (比如非线性分割数据问题，SVM核函数的选择问题等等)。总而言之，我们需要在训练之前对SVM做一些参数设定。这些参数保存在类 CvSVMParams 中。
```
CvSVMParams params;

params.svm_type    = CvSVM::C_SVC;

params.kernel_type = CvSVM::LINEAR;

params.term_crit   = cvTermCriteria(CV_TERMCRIT_ITER, 100, 1e-6);
```
- SVM类型. 这里我们选择了 CvSVM::C_SVC 类型，该类型可以用于n-类分类问题 (n 2)。这个参数定义在 CvSVMParams.svm_type 属性中.
  
  Note
  
  CvSVM::C_SVC 类型的重要特征是它可以处理非完美分类的问题 (及训练数据不可以完全的线性分割)。在本例中这一特征的意义并不大，因为我们的数据是可以线性分割的，我们这里选择它是因为它是最常被使用的SVM类型。
- SVM 核类型. 我们没有讨论核函数，因为对于本例的样本，核函数的讨论没有必要。然而，有必要简单说一下核函数背后的主要思想，核函数的目的是为了将训练样本映射到更有利于可线性分割的样本集。映射的结果是增加了样本向量的维度，这一过程通过核函数完成。此处我们选择的核函数类型是 CvSVM::LINEAR 表示不需要进行映射。该参数由 CvSVMParams.kernel_type 属性定义。
- 算法终止条件. SVM训练的过程就是一个通过迭代方式解决约束条件下的二次优化问题，这里我们指定一个最大迭代次数和容许误差，以允许算法在适当的条件下停止计算。该参数定义在 cvTermCriteria 结构中。

训练支持向量机

调用函数 CvSVM::train 来建立SVM模型。

CvSVM SVM;

SVM.train(trainingDataMat, labelsMat, Mat(), Mat(), params);

SVM区域分割

函数 CvSVM::predict 通过重建训练完毕的支持向量机来将输入的样本分类。本例中我们通过该函数给向量空间着色，及将图像中的每个像素当作卡迪尔平面上的一点，每一点的着色取决于SVM对该点的分类类别：绿色表示标记为1的点，蓝色表示标记为-1的点。
Vec3b green(0,255,0), blue (255,0,0);

for (int i = 0; i < image.rows; ++i)

    for (int j = 0; j < image.cols; ++j)

    {

    Mat sampleMat = (Mat_<float>(1,2) << i,j);

    float response = SVM.predict(sampleMat);

    if (response == 1)

       image.at<Vec3b>(j, i)  = green;

    else

    if (response == -1)

       image.at<Vec3b>(j, i)  = blue;

    }

支持向量

这里用了几个函数来获取支持向量的信息。函数 CvSVM::get_support_vector_count 输出支持向量的数量，函数 CvSVM::get_support_vector 根据输入支持向量的索引来获取指定位置的支持向量。通过这一方法我们找到训练样本的支持向量并突出显示它们。
```
int c     = SVM.get_support_vector_count();

for (int i = 0; i < c; ++i)

{

const float* v = SVM.get_support_vector(i); // get and then highlight with grayscale

circle(   image,  Point( (int) v[0], (int) v[1]),   6,  Scalar(128, 128, 128), thickness, lineType);

}
```

结果

程序创建了一张图像，在其中显示了训练样本，其中一个类显示为白色圆圈，另一个类显示为黑色圆圈。
训练得到SVM，并将图像的每一个像素分类。分类的结果将图像分为蓝绿两部分，中间线就是最优分割超平面。
最后支持向量通过灰色边框加重显示。

翻译者¶

niesu@ OpenCV中文网站 <sisongasg@hotmail.com>

from: http://www.opencv.org.cn/opencvdoc/2.3.2/html/doc/tutorials/ml/introduction_to_svm/introduction_to_svm.html#introductiontosvms

OpenCV支持向量机(SVM)介绍的更多相关文章

OpenCV支持向量机SVM对线性不可分数据的处理
支持向量机对线性不可分数据的处理目标本文档尝试解答如下问题: 在训练数据线性不可分时,如何定义此情形下支持向量机的最优化问题. 如何设置 CvSVMParams 中的参数来解决此类问题. 动机为 ...
opencv 支持向量机SVM分类器
支持向量机SVM是从线性可分情况下的最优分类面提出的.所谓最优分类,就是要求分类线不但能够将两类无错误的分开,而且两类之间的分类间隔最大,前者是保证经验风险最小(为0),而通过后面的讨论我们看到,使分 ...
支持向量机SVM介绍
SVM为了达到更好的泛化效果,会构建具有"max-margin"的分类器(如下图所示),即最大化所有类里面距离超平面最近的点到超平面的距离,数学公式表示为$$\max\limits ...
OPENCV SVM介绍和自带例子
依据机器学习算法如何学习数据可分为3类:有监督学习:从有标签的数据学习,得到模型参数,对测试数据正确分类:无监督学习:没有标签,计算机自己寻找输入数据可能的模型:强化学习(reinforcement ...
OpenCV 学习笔记 07 支持向量机SVM（flag）
1 SVM 基本概念本章节主要从文字层面来概括性理解 SVM. 支持向量机(support vector machine,简SVM)是二类分类模型. 在机器学习中,它在分类与回归分析中分析数据的监督 ...
机器学习：Python中如何使用支持向量机(SVM)算法
(简单介绍一下支持向量机,详细介绍尤其是算法过程可以查阅其他资) 在机器学习领域,支持向量机SVM(Support Vector Machine)是一个有监督的学习模型,通常用来进行模式识别.分类(异 ...
以图像分割为例浅谈支持向量机(SVM)
1. 什么是支持向量机? 在机器学习中,分类问题是一种非常常见也非常重要的问题.常见的分类方法有决策树.聚类方法.贝叶斯分类等等.举一个常见的分类的例子.如下图1所示,在平面直角坐标系中,有一些点 ...
一步步教你轻松学支持向量机SVM算法之案例篇2
一步步教你轻松学支持向量机SVM算法之案例篇2 (白宁超 2018年10月22日10:09:07) 摘要:支持向量机即SVM(Support Vector Machine) ,是一种监督学习算法,属于 ...
一步步教你轻松学支持向量机SVM算法之理论篇1
一步步教你轻松学支持向量机SVM算法之理论篇1 (白宁超 2018年10月22日10:03:35) 摘要:支持向量机即SVM(Support Vector Machine) ,是一种监督学习算法,属于 ...

随机推荐

lnmp创建站点
一.创建站点 1.输入命令 lnmp vhost add 输入域名 www.xxx.com 回车回车回车 y创建 n不创建网站如果有目录权限更改目录权限 chown -R www:www /h ...
自己的vim配置
nmap <F11> :source ~/.vimrc<CR> "n 普通模式 F11映射为 :source ~/.vimrc winpos 5 5 "wi ...
web----框架基础
Web框架本质: 众所周知,对于所有的Web应用,本质上其实就是一个socket服务端,用户的浏览器其实就是一个socket客户端. 真实开发中的python web程序来说,一般会分为两部分:服务器 ...
poj3349 散列表（hash）
就是散列表的应用,把每片哈希值相同的雪花排到一条链上去即可,每片雪花x的哈希值 hash(x)=sum(x的六角)+mul(x的六角),会爆int #include<iostream> # ...
python 全栈开发，Day28(复习,os模块,导入模块import和from)
一.复习 collections 增加了一些扩展数据类型 :namedtuple orderdict defaltdict队列和栈time 时间三种格式 : 时间戳结构化字符串random 随机 ...
python 全栈开发，Day1(python介绍,变量,if,while)
python基础一一,Python介绍 python的出生与应用 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆(中文名字:龟叔)为 ...
HDU1730 Northcott Game 尼姆博弈
Northcott Game Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) T ...
HDU 1029 某个数出现的次数大于等于(N+1)/2的是哪个 map水题
题意:输入n个数 n为奇数问某个数出现的次数大于等于(N+1)/2的是哪个输出来Sample Input51 3 2 3 3111 1 1 1 1 5 5 5 5 5 571 1 1 1 1 1 ...
windows下的python环境搭建（python2和python3不兼容，python2用的多）
Windows平台下搭建python开发环境以下为在 Window 平台上安装 Python 的简单步骤: 打开WEB浏览器访问http://www.python.org/download/ 在下载 ...
【LeetCode】163. Missing Range
Difficulty: Medium More:[目录]LeetCode Java实现 Description Given a sorted integer array where the rang ...

OpenCV支持向量机(SVM)介绍