如何转成libsvm支持的数据格式并做回归分析
本次实验的数据是来自老师给的2006-2008年的日期,24小时的温度、电力负荷数据,以及2009年的日期,24小时的温度数据,目的是预测2009年每天24小时的电力负荷,实验数据本文不予给出。
用libsvm进行预测的步骤大体是:将数据进行归一化处理,并转换成livsvm需要的格式,然后进行参数择优,用选的最佳参数使用2006-2008 3年的数据建立模型,再用该模型预测2009年的电力负荷。实际过程中,我先用2006-2007年的数据建模,预测2008年的数据,以得到测试误差。事实证明,用2006-2007 两年的数据建模来预测2008年的电力负荷,效果要比单用2007年的数据建模预测2008年的电力负荷的效果好。所以最终我是用2006-2008 三年的数据进行建模,来预测。
libsvm训练模型时,设置的参数有:
-s SVM类型,取值有 0,1,2,3,4 回归的话选3或4.
-t 核函数类型,取值有0,1,2,3 0是线性核函数,1是多项式核函数,2是RBF径向基核函数,3是sigmoid 核函数。
-g gamma,这是针对多项式、RBF、sigmoid 核函数才有的参数选项。默认是1/k,k是属性数/类别数。
-c 为 c-SVC、e-SVR 和 nu-SVR 设置的损失函数,默认为1.
详细的参数描述见 LIBSVM使用方法及参数设置(转)。
下面是进行回归预测的步骤:
1.将数据转换成libsvm需要的格式
数据格式需要:
| target属性 | 第1个属性:值 | 第2个属性:值 | … |
|---|---|---|---|
| 2 | 1:7 | 2:5 | … |
| 1 | 1:4 | 2:2 | … |
即如果是分类问题的话,第一列是类别属性。
在网上下载一个 write4libsvm.m 格式转换程序,在matlab中直接运行,然后选择需要转换的数据文件即可,非常简便易用。
write4libsvm.m
function write4libsvm
% 为了使得数据满足libsvm的格式要求而进行的数据格式转换 注意原始格式是mat的数据格式,转化成txt或者dat都可以。
% 原始数据保存格式为:
% [标签 第一个属性值 第二个属性值...]
% 转换后文件格式为满足libsvm的格式要求,即:
% [标签 :第一个属性值 :第二个属性值 :第三个属性值 ...]
% Genial@ustc
%
[filename, pathname] = uigetfile( {'*.mat', ...
'数据文件(*.mat)'; ...
'*.*', '所有文件 (*.*)'}, ...
'选择数据文件');
try
S=load([pathname filename]);
fieldName = fieldnames(S);
str = cell2mat(fieldName);
B = getfield(S,str);
[m,n] = size(B);
[filename, pathname] = uiputfile({'*.txt;*.dat' ,'数据文件(*.txt;*.dat)';'*.*','所有文件 (*.*)'},'保存数据文件');
fid = fopen([pathname filename],'w');
)
:m
fprintf(fid,));
:n
fprintf(fid,));
fprintf(fid,':');
fprintf(fid,'%d',B(k,kk));
end
k
fprintf(fid,'\n');
end
fclose(fid);
else
msgbox('无法保存文件!');
end
catch
end
2. 选择核函数类型
我选择的是RBF核函数。
2.将数据做归一化处理
不做归一化处理的话,最后预测误差会很大。
通过程序对属性进行归一化处理。一开始我并没有做归一化处理,结果测试误差MAPE达14%,做属性归一化处理后,测试数据的MAPE是3.9556% 。
clear;
load('X1.mat');% X1.mat 是训练集。
load('X2.mat');% X2.mat 是测试集。
X1_1 =normalization(X1);
X2_1 =normalization(X2);
%另存为X1_1.mat X2_1.mat 然后运行 **write4libsvm.m** 转成符合需要的格式的文件 X1_1.csv 和 X2_1.csv。
%进入D:\softwares_diy\MATLAB\R2014a\toolbox\libsvm-.21目录,将D:\softwares_diy\MATLAB\R2014a\toolbox\libsvm-3.21\matlab添加到路径
[Y1, X1] = libsvmread('X1_1.csv');% Y1 X1 是2006-2008年的数据。
[Y2, X2] = libsvmread('X2_1.csv');%Y2 X2 是2009年的数据。
Y1_train = Y1(:,:); %-07年的数据做训练
X1_train = X1(:,:);
Y1_test = Y1(:end,:);%08年的数据做测试
X1_test = X1(:end,:);
3.参数寻优
需调整的重要参数是 -c 和 -g。 -c指定损失函数,-g是针对多项式、RBF、sigmoid核函数的γ值设置。
我用程序 SVM.cg.m 通过指定c的变化范围和g的变化范围来寻找最优的参数c和g。
这是 预测代码:
%寻找最优的 c 和 g result1 = []; % -07年的数据训练,08年的数据做测试。 %SVMcg(train_label,train,cmin,cmax,gmin,gmax,v,cstep,gstep,accstep) %参数 c的变化范围是 [^cmin,^cmax] %参数g的变化范围是[^gmin,^gmax] %cstep是c的变化步长,gstep是g的变化步长。 [bestacc,bestc,bestg] = SVMcg(Y1_train,X1_train,,,-,,,,,0.9); %跑了很久才出来 cmd = ['-s 3 -t 2',' -c ',num2str(bestc),' -g ',num2str(bestg)]; model = libsvmtrain(Y1_train, X1_train, cmd); [y_08_pre,mse,decision_values] = libsvmpredict(Y1_test,X1_test,model); MAPE = mean(abs(y_test_pre-Y1_test)./Y1_test);%计算08年的MAPE RMSE = sqrt(mean((y_test_pre-Y1_test).^)); MAE = mean(abs(y_test_pre-Y1_test)); MSE = mean((y_test_pre-Y1_test).^); clear model cmd y_test_pre mse decision_values MAPE RMSE MAE MSE bestacc bestc bestg; %-08年的数据做训练,09年测试。 [bestacc,bestc,bestg] = SVMcg(Y1,X1,,,-,,,,,0.9); cmd = ['-s 3 -t 2',' -c ',num2str(bestc),' -g ',num2str(bestg)]; model = libsvmtrain(Y1, X1, cmd); [y_09_pre,mse,decision_values] = libsvmpredict(Y2,X2,model);
其中 y_09_pre 是预测的 2009年每天24小时的电力负荷,由于并没有2009年电力负荷的真实值,所以忽略libsvmpredict的返回值mse。
SVM.cg.m
function [bestacc,bestc,bestg] = SVMcg(train_label,train,cmin,cmax,gmin,gmax,v,cstep,gstep,accstep)
%SVMcg cross validation by faruto
%Email:farutoliyang@gmail.com QQ: http://blog.sina.com.cn/faruto BNU
%last modified
%Super Moderator @ www.ilovematlab.cn
%% about the parameters of SVMcg
accstep = 1.5;
end
accstep = 1.5;
cstep = ;
gstep = ;
end
accstep = 1.5;
v = ;
cstep = ;
gstep = ;
end
accstep = 1.5;
v = ;
cstep = ;
gstep = ;
gmax = ;
end
accstep = 1.5;
v = ;
cstep = ;
gstep = ;
gmax = ;
gmin = -;
end
accstep = 1.5;
v = ;
cstep = ;
gstep = ;
gmax = ;
gmin = -;
cmax = ;
end
accstep = 1.5;
v = ;
cstep = ;
gstep = ;
gmax = ;
gmin = -;
cmax = ;
cmin = -;
end
%% X:c Y:g cg:acc
[X,Y] = meshgrid(cmin:cstep:cmax,gmin:gstep:gmax);
[m,n] = size(X);
cg = zeros(m,n);
%% record acc with different c & g,and find the bestacc with the smallest c
bestc = ;
bestg = ;
bestacc = ;
basenum = ;
:m
:n
cmd = ['-v ',num2str(v),' -c ',num2str( basenum^X(i,j) ),' -g ',num2str( basenum^Y(i,j) )];
cg(i,j) = libsvmtrain(train_label, train, cmd);
if cg(i,j) > bestacc
bestacc = cg(i,j);
bestc = basenum^X(i,j);
bestg = basenum^Y(i,j);
end
if ( cg(i,j) == bestacc && bestc > basenum^X(i,j) )
bestacc = cg(i,j);
bestc = basenum^X(i,j);
bestg = basenum^Y(i,j);
end
end
end
%% to draw the acc with different c & g
[C,h] = contour(X,Y,cg,:accstep:);
clabel(C,h,,'Color','r');
xlabel();
ylabel();
grid on;
如何转成libsvm支持的数据格式并做回归分析的更多相关文章
- 将Maven项目转换成Eclipse支持的Java项目
当我们通过模版(比如最简单的maven-archetype-quikstart插件)生成了一个maven的项目结构时,如何将它转换成eclipse支持的java project呢? 1. 定位到mav ...
- Openssl生成RSA公私钥以及将公钥转换成C#支持的格式
Openssl生成RSA公私钥以及将公钥转换成C#支持的格式 1.RSA算法介绍 RSA算法是一种非对称密码算法,所谓非对称,就是指该算法需要一对密钥,使用其中一个加密,则需要用另一个才能解密.RSA ...
- putty秘钥转换成xhell支持的格式
使用XShell导入KEY的时候报“Failed to import the user key!”错误 这个错误表明导入的private key文件不是XShell所支持的,有三种可能: 将Publi ...
- 让VS 2010在调试字符串时,支持Json数据格式友好显示
阅读本文如果对Microsoft.VisualStudio.DebuggerVisualizers的用法不熟悉的,可以参考这篇文章.http://www.cnblogs.com/devil0153/a ...
- js将对象转成字符串-支持微信
最近写一个微信项目时用到了 把对象转成字符串,因为我需要把它存在cookie中,碰到了一些问题,在这里分享一下. 要转换的就是这货~ var FBinf = { "workPlacesCod ...
- poi excel自己主动转换成javabean 支持引用类型属性二级转换
近期项目须要使用excel导入功能.导入学生的时候须要指定所在班级,使用excel一次性导入! 将曾经的代码改改支持属性内引用类的转换. 測试对象为User对象,javabean结构: private ...
- poi excel自动转换成javabean 支持引用类型属性二级转换
最近项目需要使用excel导入功能,导入学生的时候需要指定所在班级,使用excel一次性导入! 将以前的代码改改支持属性内引用类的转换. 测试对象为User对象,javabean结构: private ...
- SpringBoot支持Xml数据格式显示
第一步:pom文件添加依赖 <dependency> <groupId>com.fasterxml.jackson.dataformat</groupId> < ...
- [原]使用global mapper 修改影像数据DOM的投影变换(将数据转换成osgearth支持的投影)
osgearth默认使用的投影基准面为: Geographic(Latitude/Longitude)的 WGS84 有这样一份数据需要修改: 1.在菜单栏种选择“工具”---->“配置” 2. ...
随机推荐
- 随机带权选取文件中一行 分类: linux c/c++ 2014-06-02 00:11 344人阅读 评论(0) 收藏
本程序实现从文件中随即选取一行,每行被选中的概率与改行长度成正比. 程序用一次遍历,实现带权随机选取. 算法:假设第i行权重wi(i=1...n).读取到文件第i行时,以概率wi/(w1+w2+... ...
- TRUNCATE TABLE 与 DELETE (转)
TRUNCATE TABLE 删除表中的所有行,而不记录单个行删除操作.TRUNCATE TABLE 与没有 WHERE 子句的 DELETE 语句类似:但是,TRUNCATE TABLE 速度更快, ...
- Android SDK镜像更新网速慢的解决问题
通过更换代理解决 Android SDK 在线更新镜像服务器资源:大连东软信息学院镜像服务器地址:http://mirrors.neusoft.edu.cn 端口:80北京化工大学镜像服务器地址:IP ...
- R in action读书笔记(21)第十六章 高级图形进阶(上)
16.1 R 中的四种图形系统 基础图形函数可自动调用,而grid和lattice函数的调用必须要加载相应的包(如library(lattice)).要调用ggplot2函数需下载并安装该包(inst ...
- darknet在windows上的安装编译与使用
darknet(https://github.com/pjreddie/darknet)实现了YOLO网络模型,能快速准确识别多达9000种物体.但其在windows系统上的安装却并非一帆风顺,本文进 ...
- php的一个魔法常亮__DIR__
我们知道PHP中提供了一个魔术常量(magic constant)__FILE__,用来指向当前执行的PHP脚本.但PHP没有直接提供该脚本所在目录的常量.也就是说如果我们要得到当前PHP脚本所在的目 ...
- 物联网初学者智能家居必备迅为iTOP-4412开发板
更情点击了解:http://www.topeetboard.com 1. 手把手全视频教程: 第一部分:迅为电子开发板入门视频 第二部分:Linux系统编程 第三部分:Itop-4412开发板硬件设 ...
- springboot学习笔记(二)
首先我们来看一看,springboot启动类@RestController//@ResponseBody+@Controller@SpringBootApplicationpublic class H ...
- MySQL(MMM架构使用)
本案例要求基于普通版的MySQL服务器改造MMM架构,完成以下任务操作:启动MMM集群架构设置集群中服务器为online状态MySQL-MMM架构部署完成后需要启动,数据库端启动mmm-agent进程 ...
- 类方法__setattr__,__delattr__,__getattr__
__getattr__,_delattr_,_getattr_ class Foo: x = 1 def __init__(self, y): self.y = y def __getattr__(s ...