[机器学习]回归--Support Vector Regression(SVR)

SVM分类，就是找到一个平面，让两个分类集合的支持向量或者所有的数据（LSSVM）离分类平面最远；

SVR回归，就是找到一个回归平面，让一个集合的所有数据到该平面的距离最近。

SVR是支持向量回归(support vector regression)的英文缩写，是支持向量机(SVM)的重要的应用分支。

传统回归方法当且仅当回归f(x)完全等于y时才认为预测正确，如线性回归中常用(f(x)−y)2来计算其损失。

而支持向量回归则认为只要f(x)与y偏离程度不要太大，既可以认为预测正确，不用计算损失，具体的，就是设置阈值α,只计算|f(x)−y|>α的数据点的loss，如下图所示，阴影部分的数据点我们都认为该模型预测准确了，只计算阴影外的数据点的loss：

数据处理
preprocessing.scale()作用：
scale()是用来对原始样本进行缩放的，范围可以自己定，一般是[0,1]或[-1,1]。
缩放的目的主要是
1）防止某个特征过大或过小，从而在训练中起的作用不平衡；
2）为了计算速度。因为在核计算中，会用到内积运算或exp运算，不平衡的数据可能造成计算困难。

对于SVM算法，我们首先导入sklearn.svm中的SVR模块。SVR()就是SVM算法来做回归用的方法（即输入标签是连续值的时候要用的方法），通过以下语句来确定SVR的模式（选取比较重要的几个参数进行测试。随机选取一只股票开始相关参数选择的测试）。
svr = SVR(kernel=’rbf’, C=1e3, gamma=0.01)

kernel:核函数的类型，一般常用的有’rbf’，’linear’，’poly’，等如图4-1-2-1所示，发现使用rbf参数时函数模型的拟合效果最好。

C:惩罚因子

C表征你有多么重视离群点，C越大越重视，越不想丢掉它们。C值大时对误差分类的惩罚增大，C值小时对误差分类的惩罚减小。当C越大，趋近无穷的时候，表示不允许分类误差的存在，margin越小，容易过拟合；当C趋于0时，表示我们不再关注分类是否正确，只要求margin越大，容易欠拟合。如图所示发现当使用1e3时最为适宜。

gamma:

是’rbf’，’poly’和’sigmoid’的核系数且gamma的值必须大于0。随着gamma的增大，存在对于测试集分类效果差而对训练分类效果好的情况，并且容易泛化误差出现过拟合。如图发现gamma=0.01时准确度最高。

我们这次用的数据是公司内部不同的promotion level所对应的薪资

下面我们来看一下在Python中是如何实现的

import numpy as np

import matplotlib.pyplot as plt

import pandas as pd

dataset = pd.read_csv('Position_Salaries.csv')

X = dataset.iloc[:, 1:2].values

# 这里注意：1:2其实只有第一列，与1 的区别是这表示的是一个matrix矩阵，而非单一向量。

y = dataset.iloc[:, 2].values

接下来，处理数据：

# Reshape your data either using array.reshape(-1, 1) if your data has a single feature

# array.reshape(1, -1) if it contains a single sample.

X = np.reshape(X, (-1, 1))

y = np.reshape(y, (-1, 1))

# Feature Scaling

from sklearn.preprocessing import StandardScaler

sc_X = StandardScaler()

sc_y = StandardScaler()

X = sc_X.fit_transform(X)

y = sc_y.fit_transform(y)

接下来，进入正题，开始SVR回归：

# Fitting SVR to the dataset

from sklearn.svm import SVR

regressor = SVR(kernel = 'rbf')

regressor.fit(X, y)

# Predicting a new result

y_pred = regressor.predict(sc_X.transform(np.array([[6.5]])))

# 转换回正常预测值

y_pred = sc_y.inverse_transform(y_pred)

# 图像中显示

plt.scatter(X, y, color = 'red')

plt.plot(X, regressor.predict(X), color = 'blue')

plt.title('Truth or Bluff (SVR)')

plt.xlabel('Position level')

plt.ylabel('Salary')

plt.show()

# Visualising the SVR results (for higher resolution and smoother curve)

X_grid = np.arange(min(X), max(X), 0.01) # choice of 0.01 instead of 0.1 step because the data is feature scaled

X_grid = X_grid.reshape((len(X_grid), 1))

plt.scatter(X, y, color = 'red')

plt.plot(X_grid, regressor.predict(X_grid), color = 'blue')

plt.title('Truth or Bluff (SVR)')

plt.xlabel('Position level')

plt.ylabel('Salary')

plt.show()

[机器学习]回归--Support Vector Regression(SVR)的更多相关文章

机器学习技法：06 Support Vector Regression
Roadmap Kernel Ridge Regression Support Vector Regression Primal Support Vector Regression Dual Summ ...
机器学习技法笔记：06 Support Vector Regression
Roadmap Kernel Ridge Regression Support Vector Regression Primal Support Vector Regression Dual Summ ...
[Scikit-learn] 1.4 Support Vector Regression
SVM算法既可用于回归问题,比如SVR(Support Vector Regression,支持向量回归) 也可以用于分类问题,比如SVC(Support Vector Classification ...
翻译——2_Linear Regression and Support Vector Regression
续上篇 1_Project Overview, Data Wrangling and Exploratory Analysis 使用不同的机器学习方法进行预测线性回归在这本笔记本中,将训练一个线性 ...
support vector regression与 kernel ridge regression
前一篇,我们将SVM与logistic regression联系起来,这一次我们将SVM与ridge regression(之前的linear regression)联系起来. (一)kernel r ...
【Support Vector Regression】林轩田机器学习技法
上节课讲了Kernel的技巧如何应用到Logistic Regression中.核心是L2 regularized的error形式的linear model是可以应用Kernel技巧的. 这一节,继续 ...
[机器学习]回归--Decision Tree Regression
CART决策树又称分类回归树,当数据集的因变量为连续性数值时,该树算法就是一个回归树,可以用叶节点观察的均值作为预测值:当数据集的因变量为离散型数值时,该树算法就是一个分类树,可以很好的解决分类问题. ...
【机器学习】从SVM到SVR
注:最近在工作中,高频率的接触到了SVM模型,而且还有使用SVM模型做回归的情况,即SVR.另外考虑到自己从第一次知道这个模型到现在也差不多两年时间了,从最开始的腾云驾雾到现在有了一点直观的认识,花费 ...
[Scikit-learn] 1.4 Support Vector Machines - Linear Classification
Outline: 作为一种典型的应用升维的方法,内容比较多,自带体系,以李航的书为主,分篇学习. 函数间隔和几何间隔最大间隔凸最优化问题凸二次规划问题线性支持向量机和软间隔最大化添加的约束很 ...

随机推荐

ORM创建多表以及多表的增删改查
一. 多表的创建 1. 一对一在哪个表中设置都行,但是添加数据的时候需要现在没有外键的表中添加数据 models.OneToOneField(to="表名",to_field=& ...
Lua5.2&Lua5.3中废除的方法
Lua5.2和Lua5.3中居然把 table.getn() 废除了, webAdd = {"QQ", "BaiDu", "SMW"} fo ...
MySQL数据库（二）－数据库的增删改查
简介: 以下是MySQL最基本的增删改查语句．在进行“增删改查”的操作之前,先建立一个包含数据表student的数据库,新建表grade(具体操作可以见上一篇)．一.＂增＂-添加数据 1.1 为表中 ...
redis_字典_哈希hash
字典.哈希表基本数据结构 redis字典使用哈希表作为底层实现,基本结构就是数组+散列 typedef struct dictht { // 哈希表数组 dictEntry **table; // 哈 ...
navicat连接mysql出现2059错误
最近在学习django的时候需要用到数据库,于是便下载了navicat准备和mysql配套使用,但是在连接的时候确出现了如下问题: 网上查询过后,发现这个错误出现的原因是在mysql8之前的版本中加密 ...
基于面向方面和UML的实时系统建模研究
一.基本信息标题:基于面向方面和UML的实时系统建模研究时间:2010 出版源:计算机技术与发展领域分类:面向方向:实时系统:横切关注点:统一建模语言: 二.研究背景问题定义:实时系统建模研究 ...
Xcode中SVN不能提交.a文件的解决方法
我是搬运工!!!方便自己使用!!! 方案一: 在mac下很多svn管理工具默认都不能上传.a文件,这让人很苦恼.从网上扒了下,用命令行可以解决此问题. 打开终端,cd 进入到需要上传的.a文件所在的文 ...
谈谈一些有趣的CSS题目（十六）-- 奇妙的 background-clip: text
开本系列,谈谈一些有趣的 CSS 题目,题目类型天马行空,想到什么说什么,不仅为了拓宽一下解决问题的思路,更涉及一些容易忽视的 CSS 细节. 解题不考虑兼容性,题目天马行空,想到什么说什么,如果解题 ...
Numpy学习四：numpy.power()用法
numpy.power(n, x) 对数组n的元素分别求x次方.x可以是数字,也可以是数组,但是n和x的列数要相同.
使用 VS Code 开发和调试 .NET Core 程序
电脑不想装几十个G的 VS2017,那就用 VS Code 吧目标: 创建一个类库项目 Skany.Core,并用 Nuget 引用第三方组件 Hash 实现加密算法创建一个单元测试项目 Skan ...

[机器学习]回归--Support Vector Regression(SVR)

[机器学习]回归--Support Vector Regression(SVR)的更多相关文章

随机推荐

热门专题