LibSVM是一款简单易用的支持向量机工具包。包括了C和Java的开发源代码。大家能够訪问其官网进行了解和下载相关文件。

这里以其官网的第一个数据集a1a 为例。练习使用多项式核和径向基核来对数据集进行分类。

1、准备工作

因为从官网下的最新的2015.12月公布的libsvm-3.21版本号中已生成的exe文件不支持Windows32位系统,所以使用的之前的一版libsvm-3.20

将其下下来打开,里面包括了下面文件:



当中data里面放的是LibSVM分享的数据集a1a;

gnuplot是一个图像绘画工具,能够将数据可视化。

直接点击进行安装。路径能够自己选择,本例中安装路径为F:\Program Files\gnuplot。

libsvm-3.20是一个已开发好的集成工具包,我们拿来直接用。

将libsvm-3.20压缩包解压。路径能够自己选择。本例中解压路径为F:\Program Files\libsvm-3.20。

打开tools目录,然后分别打开easy.py和grid.py,将easy.py中出如今else语句中的gnuplot_exe和 grid.py中self.gnuplot_pathname改动为gnuplot.exe所在路径。例如以下:

如今还差一个工具,就是python。

没有安装python的能够从python官网 下载安装。

路径能够自己选择,本例中安装路径为F:\Program Files\Python。

以上几步完毕后,准备工作就结束了。

2、LibSVM的使用

0. 假设数据集较小的话,能够直接在libsvm-3.20中的tools 目录下使用命令:python easy.py training_file [testing_file]。否则处理过程例如以下:

1. 使用网格搜索grid.py训练出最优參数惩处因子C和參数g,g也就是核函数公式中的γ。 过程例如以下:

首先将data中的两个数据集文件拷贝到刚解压的libsvm-3.20中的tools 目录下,然后打开cmd命令行,通过cd进入到tools目录下。输入例如以下命令。如图:



按回车后,程序開始运行,运行结束后,会出现例如以下结果:



最后一行三个数字分别表示,寻找到的最优參数C=2.0,g=0.0078125,准确率=82.9907。

同一时候会在tools目录下生成一个gnuplot画出结果图片,例如以下:



能够看到。gnuplot是对数据的可视化表示。

2 训练模型

在获得最优參数后。我们就能够对训练数据集进行训练。来获得训练模型,过程例如以下:

首先从cmd命令行中进入libsvm-3.20中的windows目录。能够看到目录中有svm-toy.exe、svm-scale.exe、svm-train.exe、svm-predict.exe四个可运行文件。当中:

svm-toy.exe是一个可视化应用程序,显示了对平面中数据点的分类。

有change、run、clear、save、load及參数设置框,默认最大分类数为3,大家能够点点看,效果例如以下:

svm-scale.exe是对输入的数据特征进行归一化缩放,从而避免某些过大或过小特征值对分类效果的影响。

使用方式例如以下:

svm-scale [options] data_filename,当中options列表有下面几种:

-l lower : x缩放最小值。默觉得-1

-u upper : x缩放最大值,默觉得1

-y y_lower y_upper : y scaling limits (default: no y scaling)

-s save_filename : save scaling parameters to save_filename

-r restore_filename : restore scaling parameters from restore_filename

svm-train.exe对训练集训练,产生训练模型。

使用方式例如以下:

svm-train [options] training_set_file [model_file],当中经常使用options列表有下面几种:

-s svm_type : SVM类型 (默认0)

0 – C-SVC (多类分类器)

1 – nu-SVC (多类分类器)

2 – one-class SVM

3 – epsilon-SVR (回归)

4 – nu-SVR (回归)

-t kernel_type : 核函数类型 (默认 2)

0 – 线性核:μ′∗ν

1 – 多项式核:(γ∗μ′∗ν+coef0)degree

2 – 径向基核:exp(−γ∗||μ−ν||2)

3 – sigmoid核:tanh(γ∗μ′∗ν+coef0)

4 – precomputed kernel (kernel values in training_set_file)

-d degree : 多项式核最高项次数 (default 3)

-g gamma : 核函数中γ 值(默认1N。N为特征数目)

-r coef0 : 多项式核与sigmoid核中的參数(default 0)

-c cost : 设置C-SVC, e -SVR和v-SVR的损失函数(default 1)

svm-predict.exe利用測试集和生成的训练模型而得到预測模型,使用方式例如以下:

svm-predict [options] test_file model_file output_file。当中options列表有:

-b probability_estimates: 是否预測概率预计。用0或1表示(默认0);对于for one-class SVM ,仅仅有0可选。

介绍完这几个可运行文件后,下面我们就要用它们来训练和预測模型。

1.对于a1a数据集,特征值为0或者1。故不须要使用svm-scale.exe来缩放数据,若有数据集的特征值差异较大,应首先使用svm-scale.exe进行数据缩放。

2.命令行进入windows目录。输入命令:svm-train.exe -c 2.0 -g 0.0078125 ../tools/adultTrain.txt ../tools/adultTrain.model,生成训练模型文件adultTrain.model,演演示样例如以下:



当中,iter表示迭代计算次数。

nu即核函数中的ν參数;

obj为二次规划求解的最小值;

rho为偏置b;

nSV为标准支持向量个数,即满足0<αi< C的个数。

nBSV为边界上的支持向量个数。即满足αi= C的个数;

Total nSV为支持向量总个数。

3.输入命令:svm-predict.exe ../tools/adultTest.t ../tools/adultTrain.model ../tools/audltPredict.model,利用測试集和训练模型文件获得预測模型文件,并得到模型在測试集上的分类准确率,颜色例如以下:

4.作为对照。同一时候训练了多项式核函数(參数最优)和径向基核函数(未參数最优)。结果分别例如以下:

三者比較可知,选择了參数最优的径向基核在该数据集上的分类效果最好,准确率为84.0225。

理解支持向量机(四)LibSVM工具包的使用的更多相关文章

  1. Java反射理解(四)-- 获取成员变量构造函数信息

    Java反射理解(四)-- 获取成员变量构造函数信息 步骤 获取成员变量信息: obj.getClass() 获取类类型对象 成员变量也是对象,java.lang.reflect.Field 类中封装 ...

  2. 机器学习(四):通俗理解支持向量机SVM及代码实践

    上一篇文章我们介绍了使用逻辑回归来处理分类问题,本文我们讲一个更强大的分类模型.本文依旧侧重代码实践,你会发现我们解决问题的手段越来越丰富,问题处理起来越来越简单. 支持向量机(Support Vec ...

  3. java基础基础总结----- 数组深入理解(四)

    一.数组的基本概念 数组可以看成是多个相同类型数据组合,对这些数据的统一管理. 数组变量属引用类型,数组也可以看成是对象,数组中的每个元素相当于该对象的成员变量. 数组的元素可以是任何数据类型,包括基 ...

  4. 理解支持向量机(三)SMO算法

    在支持向量机模型的求解中,我们用到了SMO算法来求解向量α. 那么什么是SMO算法?在讲SMO算法之前.我们须要先了解下面坐标上升法. 1.坐标上升法 如果有优化问题: W是α向量的函数.利用坐标上升 ...

  5. 深入理解JVM(四) -- 垃圾内存回收的判定方法和内容

    上一篇文章我们学到了对象在内存中是如何存储的已经是如何被访问的,这篇文章将介绍当内存空间不够时,虚拟机将怎样判定对象可不可以被回收已经哪些地方会发生回收. 垃圾回收主要(不是全部)发生在堆内存中,当一 ...

  6. 深入理解C语言-深入理解内存四区

    数组与指针 当数组做函数参数的时候,会退化为一个指针 此时在函数内是得不到数组大小的 因此,数组做函数参数的时候需要传递数组大小,也就是多传递一个参数 void func(int arr[], int ...

  7. 正确理解这四个重要且容易混乱的知识点:异步,同步,阻塞,非阻塞,5种IO模型

    本文讨论的背景是Linux环境下的network IO,同步IO和异步IO,阻塞IO和非阻塞IO分别是什么 概念说明 在进行解释之前,首先要说明几个概念: - 用户空间和内核空间 - 进程切换 - 进 ...

  8. jvm入门及理解(四)——运行时数据区(堆+方法区)

    一.堆 定义: Heap,通过new关键字创建的对象,都存放在堆内存中. 特点 线程共享,堆中的对象都存在线程安全的问题 垃圾回收,垃圾回收机制重点区域. jvm内存的划分: JVM内存划分为堆内存和 ...

  9. 理解RxJava:(四)Reactive Android

    在前三部分,我在通用层面介绍了RxJava的工作原理.但是作为一个Android开发者,如何在工作中使用它呢?下面是一些给Android开发者的RxJava的具体应用. RxAndroid RxAnd ...

随机推荐

  1. Tomcat学习笔记(十三)

    服务器组件和服务组件 服务器组件 org.apache.catalina.Server接口的实例表示Catalina的整个servlet引擎,包含了所有的组件.使用一种优雅的方法来启动/关闭整个系统, ...

  2. windows 系统下TortoiseGit 的安装

    git 常用的使用工具: Windows 支持下载安装TortoiseGit Mac 下 推荐使用 sourcetree Windows下的 TortoiseGit 安装 1. 进入 小乌龟官网 To ...

  3. libaio.so.1: cannot open shared object file

    <pre code_snippet_id="275763" snippet_file_name="blog_20140404_1_5530152" nam ...

  4. 生成 RSA 私钥及公钥

    $ openssl # 进入 OpenSSL 程序 OpenSSL> genrsa -out rsa_private_key.pem 1024 # 生成私钥 OpenSSL> pkcs8 ...

  5. 行为型设计模式之模板方法(Template Method)

    结构 意图 定义一个操作中的算法的骨架,而将一些步骤延迟到子类中.Te m p l a t e M e t h o d 使得子类可以不改变一个算法的结构即可重定义该算法的某些特定步骤. 适用性 一次性 ...

  6. [bzoj2301][HAOI2011]Problem B —— 莫比乌斯反演+容斥原理

    题意 给定a, b, c, d, k,求出: \[\sum_{i=a}^b\sum_{j=c}^d[gcd(i, j) = k]\] 题解 为方便表述,我们设 \[calc(\alpha, \beta ...

  7. error C4996: ‘Json::Reader::Char’: Use CharReader and CharReaderBuilder instead

    1.编译下面代码时,遇到标题中的错误 const char* str = "{\"name\":\"xiaoming\",\"age\&qu ...

  8. 【linux高级程序设计】(第十五章)UDP网络编程应用 3

    UDP组播通信 组播IP地址: D类IP地址  1110.**********  224.0.0.1 ~ 239.255.255.255 组播MAC地址:低23位,直接对应IP地址, 从右数第24位为 ...

  9. Selenium2+python自动化11-定位一组元素find_elements【转载】

    前言 前面的几篇都是讲如何定位一个元素,有时候一个页面上有多个对象需要操作,如果一个个去定位的话,比较繁琐,这时候就可以定位一组对象. webdriver 提供了定位一组元素的方法,跟前面八种定位方式 ...

  10. js-限制参与活动的范围(微信H5活动)

    近期接到大连某个项目,一个H5的活动,其中有一个需求就是:这个活动的参与者仅限大连地区的用户 所以参考了微信API 得出的操作结果为: wx.ready(function() { wx.getLoca ...