更新、更全的《机器学习》的更新网站，更有python、go、数据结构与算法、爬虫、人工智能教学等着你：https://www.cnblogs.com/nickchen121/p/11686958.html

scikit-learn库之支持向量机

在scikit-learn库中针对数据是否线性可分，主要将支持向量机分为以下三种分类模型LinearSVC、SVC和NuSVC；还有三种回归模型LinearSVR、SVR和NuSVR。

接下来将会讨论上述六者的区别，由于SVC应用场景较为广泛，主要细讲SVC，其他的只讲与SVC的区别。由于是从官方文档翻译而来，翻译会略有偏颇，有兴趣的也可以去scikit-learn官方文档查看https://scikit-learn.org/stable/modules/classes.html#module-sklearn.svm

一、SVC

1.1 使用场景

SVC模型基于较为灵活，既可以支持线性可分数据，又可以支持线性不可分数据的分类。

1.2 代码

import numpy as np

X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])

y = np.array([1, 1, 2, 2])

from sklearn.svm import SVC

clf = SVC(gamma='auto')

clf.fit(X, y)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,

  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',

  max_iter=-1, probability=False, random_state=None, shrinking=True,

  tol=0.001, verbose=False)

print(clf.predict([[-0.8, -1]]))

[1]

print(clf.fit_status_)

1.3 参数详解

C：惩罚系数，float类型。如果C越大，惩罚程度越大，模型泛化能力降低；如果C越小，则容许训练样本中有一些误分类错误样本，泛化能力强，一般噪声较多推荐C小点。默认为1。
kernel：核函数，str类型。默认为'rbf'，可选核函数有
- 'linear'：线性核函数
- 'poly'：多项式核函数
- 'rbf'：径向核函数(高斯核)
- 'sigmoid'：Sigmoid核函数
- 'precomputed'：核矩阵，即自己不使用核函数的情况下已经计算了核函数矩阵
degree：核函数参数，int类型。只有当kernel='poly'时才有用，即表示多项式核函数的阶数，对应核函数中的\(d\)。默认为3。
gamma：核函数参数，float类型。只有当kernel={'rbr','poly','sigmoid'}时才有用，对应核函数中的\(\gamma\)。默认为'auto'，即表示其值为样本特征数的倒数。
coef0：核函数参数，float类型。只有当kernel={'poly','sigmoid'}时才有用，对应核函数中的\(r\)。默认为0。
shrinking：启发式收缩，bool类型。是否采用启发式收缩方式。默认为True。
probability：概率估计，bool类型。是否启用概率估计，必须得在fit()之前设置为True，会使得fit()速度变慢。默认为False。
tol：误差精度，float类型。支持向量机停止训练的误差精度。默认为1e-3。
cache_size：缓存大小，float类型。指定训练所需要的内存大小。默认为200，单位为MB。
class_weight：样本类别权重，{dict类型,'balanced'}。给每个类别指定不同的权重，'balanced'将自动分配不同类别样本的权重。可选参数。
verbose：日志冗长度，int类型。verbose=0，不输出训练过程；verbose=1，输出部分训练过程；verbose>1，输出所有的训练过程。默认为0。
max_iter：迭代次数，int类型。算法迭代次数，算法迭代到一定次数会收敛。默认为-1，表示不限制。
decision_function_shape：决策函数，str类型。决可选参数'ovo'和'ovr'，'ovo'表示一对一，'ovr'表示一对多。默认为'ovr'。
random_state：随机数种子，int类型。使用后可以保证随机数不会随着时间的变化而变化。默认为None。

1.4 属性

support_：array-like类型。所有支持向量的索引。
support_vectors_：array-like类型。所有的支持向量。
n_support_：array-like类型。每个类有多少个支持向量。
dual_coef_：array类型。决策函数中支持向量的系数。
coef_：array类型。原始问题中特征的系数，只可用于线性核中。
intercept_：array类型。决策函数的截距。
fit_status_：int类型。如果训练模型成功返回0，失败返回1并报警。
probA_：array类型。
probB_：array类型。如果probability=True，则可以估计A和B类各自在决策函数中的概率大小；如果probability=False，则返回空数组。不支持多分类问题的输出打印。

1.5 方法

decision_functino(X)：求出样本X的决策函数。
fit(X,y)：把数据放入模型中训练模型。
get_params([deep])：返回模型的参数，可以用于Pipeline中。
predict(X)：预测样本X的分类类别。
score(X,y[,sample_weight])：基于报告决定系数\(R^2\)评估模型。
set_prams(**params)：创建模型参数。

二、LinearSVC

LinearSVC模型即普通的线性可分支持向量机，即对线性不可分的数据不能使用。因为该模型不需要调参，并且速度快，所以如果非常明确数据一定是线性可分的情况下可以使用该模型，否则模型准确度反倒会变得很低，。

三、NuSVC

NuSVC模型基于SVC模型，它增加了nu参数可以控制模型的错误率。

四、LinearSVR

LinearSVR限制了只能使用线性核函数，相比较于LinearSVM不同之处在于损失函数的度量，其中它的损失函数参数loss='epsilon_insensitive'时，为类似于线性支持向量机的有松弛因子的损失度量，损失度量满足

\[-\epsilon-\xi_i\geq{y_i}-\omega\phi(x_i)-b\leq\epsilon+\xi_i
\]

而loss='squared_epsilon_insensitive'，为少了松弛因子的损失度量方式，即损失度量满足

\[({y_i}-\omega\phi(x_i)-b)^2\leq\epsilon+\xi_i
\]

一般情况下使用'epsilon_insensitive'足够了。

五、SVR

SVR模型相较于LinearSVR模型可以使用核函数，既可以对线性不可分数据做回归。

六、NuSVR

NuSVR模型相较于SVR模型，增加了nu参数可以控制模型的错误率。

02-35 scikit-learn库之支持向量机的更多相关文章

Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
【网络爬虫入门02】HTTP客户端库Requests的基本原理与基础应用
[网络爬虫入门02]HTTP客户端库Requests的基本原理与基础应用广东职业技术学院欧浩源 1.引言实现网络爬虫的第一步就是要建立网络连接并向服务器或网页等网络资源发起请求.urllib是 ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
Scikit Learn
Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.
Python第三方库（模块）"scikit learn"以及其他库的安装
scikit-learn是一个用于机器学习的 Python 模块. 其主页:http://scikit-learn.org/stable/. GitHub地址: https://github.com/ ...
【python】版本35 正则-非库-爬虫-读写xlw文件
#交代:代码凌乱,新手一个,论坛都是高手,我也是鼓了很大勇气,发出来就是被批评和进步的 #需求:需要对某网站的某id子标签批量爬取,每个网页的id在xlw里,爬取完,再批量存取到这xlw里的第6行 ...
Query意图分析：记一次完整的机器学习过程（scikit learn library学习笔记）
所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.假设现在有一个O2O领域的 ...

随机推荐

【Offer】[50-2] 【字符流中第一个只出现一次的字符】
题目描述思路分析测试用例 Java代码代码链接题目描述请实现一个函数用来找出字符流中第一个只出现一次的字符.例如,当从字符流中只读出前两个字符"go"时,第一个只出现一次 ...
Go操作kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据,具有高性能.持久化.多副本备份.横向扩展等特点.本文介绍了如何使用Go语言发送和接收kafka消息. s ...
java8函数式接口详解、函数接口详解、lambda表达式匿名函数、方法引用使用含义、函数式接口实例、如何定义函数式接口
函数式接口详细定义函数式接口只有一个抽象方法由于default方法有一个实现,所以他们不是抽象的. 如果一个接口定义了一个抽象方法,而他恰好覆盖了Object的public方法,仍旧不算做接口的抽 ...
CXF添加拦截器和自定义拦截器
前面讲了如何采用CXF开发webservice,现在来讲如何添加拦截器和自定义拦截器. 服务端代码: HelloWorld implementor=new HelloWorldImpl(); Stri ...
我的MarkDown入门
目录 0.前言 1.软件准备 2.基本语法 2.1斜体&加粗 2.2分级标题 2.3分割线 2.4超链接 2.5列表 2.6引用 2.7插入代码 2.8插入图像 2.9插入表格 2.10目录 ...
上传文件的C#代码
1 <%@ WebHandler Language="C#" Class="UpLoadFile" %> 2 3 using System; 4 u ...
纯css制作电闪雷鸣的天气图标
效果效果图如下实现思路使用box-shadow属性写几个圆,将这些圆错落的组合在一起,形成云朵图案 after伪元素写下面的投影样式 before伪元素写黄色闪电的样式 dom结构用两个嵌 ...
漫谈Java中的OOPS
什么是OOPS? 面向对象编程是一种编程概念,其工作原理是对象是程序中最重要的部分.它允许用户创建他们想要的对象,然后创建处理这些对象的方法.操作这些对象以获得结果是面向对象编程的目标. 面向对象编程 ...
Elastic Stack 笔记（二）Elasticsearch5.6 安装 IK 分词器和 Head 插件
博客地址:http://www.moonxy.com 一.前言 Elasticsearch 作为开源搜索引擎服务器,其核心功能在于索引和搜索数据.索引是把文档写入 Elasticsearch 的过程, ...
nfs 存储服务
今日内容: NFS 1.什么是nfs? network file system 网络文件系统 nfs共享存储 2.nfs能干什么? nfs 能为不同主机系统之间实现文件的共享 3.为什么要使用n ...

02-35 scikit-learn库之支持向量机