SVM基本使用　　

　　SVM在解决分类问题具有良好的效果，出名的软件包有libsvm(支持多种核函数),liblinear。此外python机器学习库scikit-learn也有svm相关算法，sklearn.svm.SVC和

sklearn.svm.LinearSVC 分别由libsvm和liblinear发展而来。

　　推荐使用SVM的步骤为：

将原始数据转化为SVM算法软件或包所能识别的数据格式；
将数据标准化；(防止样本中不同特征数值大小相差较大影响分类器性能)
不知使用什么核函数，考虑使用RBF；
利用交叉验证网格搜索寻找最优参数(C, γ)；（交叉验证防止过拟合，网格搜索在指定范围内寻找最优参数）
使用最优参数来训练模型；
测试。

下面利用scikit-learn说明上述步骤：

 import numpy as np

 from sklearn.svm import SVC

 from sklearn.preprocessing import StandardScaler

 from sklearn.model_selection import GridSearchCV, train_test_split

 def load_data(filename)

     '''

     假设这是鸢尾花数据,csv数据格式为：

     0,5.1,3.5,1.4,0.2

     0,5.5,3.6,1.3,0.5

     1,2.5,3.4,1.0,0.5

     1,2.8,3.2,1.1,0.2

     每一行数据第一个数字(0,1...)是标签,也即数据的类别。

     '''

     data = np.genfromtxt(filename, delimiter=',')

     x = data[:, 1:]  # 数据特征

     y = data[:, 0].astype(int)  # 标签

     scaler = StandardScaler()

     x_std = scaler.fit_transform(x)  # 标准化

     # 将数据划分为训练集和测试集，test_size=.3表示30%的测试集

     x_train, x_test, y_train, y_test = train_test_split(x_std, y, test_size=.3)

     return x_train, x_test, y_train, y_test

 def svm_c(x_train, x_test, y_train, y_test):

     # rbf核函数，设置数据权重

     svc = SVC(kernel='rbf', class_weight='balanced',)

     c_range = np.logspace(-5, 15, 11, base=2)

     gamma_range = np.logspace(-9, 3, 13, base=2)

     # 网格搜索交叉验证的参数范围，cv=3,3折交叉

     param_grid = [{'kernel': ['rbf'], 'C': c_range, 'gamma': gamma_range}]

     grid = GridSearchCV(svc, param_grid, cv=3, n_jobs=-1)

     # 训练模型

     clf = grid.fit(x_train, y_train)

     # 计算测试集精度

     score = grid.score(x_test, y_test)

     print('精度为%s' % score)

 if __name__ == '__main__':
40 　　svm_c(*load_data('example.csv'))

其它内容

网格搜索小技巧

　　网格搜索法中寻找最优参数中为寻找最优参数，网格大小如果设置范围大且步长密集的话难免耗时，但是不这样的话又可能找到的参数不是很好，针对这解决方法是，先在大范围，大步长的粗糙网格内寻找参数。在找到的参数左右在设置精细步长找寻最优参数比如：

一开始寻找范围是 C = 2⁻⁵ , 2 ⁻³ , . . . , 2 ¹⁵ and γ = 2⁻¹⁵ , 2 ⁻¹³ , . . . , 2 ³ .由此找到的最优参数是(2³ , 2 ⁻⁵ )；
然后设置更小一点的步长，参数范围变为2¹ , 2 ^1.25 , . . . , 2 ⁵ and γ = 2⁻⁷ , 2 ^−6.75 , . . . , 2⁻³ 在这个参数范围再寻找最优参数。

　　这样既可以避免一开始就使用大范围，小步长而导致分类器进行过于多的计算而导致计算时间的增加。

线性核和RBF的选择

　　如果训练样本的特征数量过于巨大，也许就不需要通过RBF等非线性核函数将其映射到更高的维度空间上，利用非线性核函数也并不能提高分类器的性能。利用linear核函数也可以获得足够好的结果，此外，也只需寻找一个合适参数C，但是利用RBF核函数取得与线性核函数一样的效果的话需要寻找两个合适参数(C, γ)。

　　分三种情况讨论：

样本数量远小于特征数量：这种情况，利用情况利用linear核效果会高于RBF核。
样本数量和特征数量一样大：线性核合适，且速度也更快。liblinear更适合
样本数量远大于特征数量：非线性核RBF等合适。

本文主要参考这篇A Practical Guide to Support Vector Classification

libsvm：A Library for Support Vector Machines

liblinear : A Library for Large Linear Classification

sklearn : scikit-learn Machine Learning in Python

其它文章：

Python直接运行目录或者zip文件

通过生物学数据预测年龄-1

sklearn svm基本使用的更多相关文章

sklearn.svm.LinearSVC文档学习
https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html#sklearn.svm.LinearSVC 1 ...
SVM的sklearn.svm.SVC实现与类参数
SVC继承了父类BaseSVC SVC类主要方法: ★__init__() 主要参数: C: float参数默认值为1.0 错误项的惩罚系数.C越大,即对分错样本的惩罚程度越大,因此在训练样本中准确 ...
sklearn.svm.SVC 参数说明
原文地址:sklearn.svm.SVC 参数说明 ============================== 资源: sklearn官网+DOC 库下载GitHub =============== ...
sklearn.svm.SVC参数说明
摘自:https://blog.csdn.net/szlcw1/article/details/52336824 本身这个函数也是基于libsvm实现的,所以在参数设置上有很多相似的地方.(PS: l ...
sklearn系列之 sklearn.svm.SVC详解
首先我们应该对SVM的参数有一个详细的认知: sklearn.svm.SVC 参数说明: 本身这个函数也是基于libsvm实现的,所以在参数设置上有很多相似的地方.(PS: libsvm中的二次规划问 ...
机器学习之sklearn——SVM
sklearn包对于SVM可输出支持向量,以及其系数和数目: print '支持向量的数目: ', clf.n_support_ print '支持向量的系数: ', clf.dual_coef_ p ...
[Example of Sklearn] - SVM usge
reference : http://www.csdn.net/article/2012-12-28/2813275-Support-Vector-Machine SVM是什么? SVM是一种训练机器 ...
针对sklearn.svm中的"dual_coef_"理解
1.决策函数的表达式公式: 其中: 2.SVM经过训练后,所得到的"dual_coef_" 其实"dual_coef_"就是"ai*yi" ...
sklearn.svm包中的SVC(kernel=”linear“)和LinearSVC的区别
参考:https://stackoverflow.com/questions/45384185/what-is-the-difference-between-linearsvc-and-svckern ...

随机推荐

JDBC数据库连接参数备忘
database driver url remark MySql com.mysql.jdbc.Driver jdbc:mysql://localhost:3306/xxx mysql-connect ...
Maven项目强制更新，解决Failed to read artifact descriptor for xxx.jar问题
导入的maven项目pom.xml现红叉分析原因:在maven本地仓库中找不到相应的jar包. 解决方案:让maven强制更新依赖. 项目右击菜单,Maven -> Update Projec ...
Ubuntu下安装pytorch（GPU版）
我这里主要参考了:https://blog.csdn.net/yimingsilence/article/details/79631567 并根据自己在安装中遇到的情况做了一些改动. 先说明一下我的U ...
Selenium分布式自动化测试平台 Standalone Server 4.0 搭建
最新的selenium测试平台大概有这么几个组件 Selenium Standalone Server: 用来搭建远程测试平台以及分布式测试. Selenium WebDriver: 最基础的用来创建 ...
windows，mac os与 linux 3系统共存
硬盘1,C盘 win7 ,D盘 win7文件,E盘 mac os系统通过easybcd引导, 选项1 ,window 7 选项2,mac --便捷式/外接存储介质(是一个制作好的专门引导mac的工具 ...
页面启动jquery
IDEAL启动项目的时候报java.lang.NoClassDefFoundError: javax/servlet/Filter错误
<dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring- ...
C# webapi简单学习
创建WebApi项目: 在VS工具中创建一个ASP.NET Web应用程序选择Webapi 一个webapi项目就创建好了这里简单的写一个post和get两种请求的方法,由于post请求参数需要参 ...
mui-H5获取当前手机通讯录
mui.plusReady(function() { // 扩展API加载完毕,现在可以正常调用扩展API plus.contacts.getAddressBook(plus.contacts.ADD ...
Selenium Extent Report的设置
Extent Report需要在线加载css,不然生成的html report会很难看. 但可以设置不在线加载css,而是使用本地css,在使用htmlreporter加上这句 htmlReporte ...

sklearn svm基本使用

SVM基本使用

其它内容

网格搜索小技巧

线性核和RBF的选择

sklearn svm基本使用的更多相关文章

随机推荐

热门专题

SVM基本使用