机器学习算法实现解析——libFM之libFM的训练过程之SGD的方法
本节主要介绍的是libFM源码分析的第五部分之一——libFM的训练过程之SGD的方法。
5.1、基于梯度的模型训练方法
在libFM中,提供了两大类的模型训练方法,一类是基于梯度的训练方法,另一类是基于MCMC的模型训练方法。对于基于梯度的训练方法,其类为fm_learn_sgd
类,其父类为fm_learn
类,主要关系为:
fm_learn_sgd
类是所有基于梯度的训练方法的父类,其具体的代码如下所示:
#include "fm_learn.h"
#include "../../fm_core/fm_sgd.h"
// 继承自fm_learn
class fm_learn_sgd: public fm_learn {
protected:
//DVector<double> sum, sum_sqr;
public:
int num_iter;// 迭代次数
double learn_rate;// 学习率
DVector<double> learn_rates;// 多个学习率
// 初始化
virtual void init() {
fm_learn::init();
learn_rates.setSize(3);// 设置学习率
// sum.setSize(fm->num_factor);
// sum_sqr.setSize(fm->num_factor);
}
// 利用梯度下降法进行更新,具体的训练的过程在其子类中
virtual void learn(Data& train, Data& test) {
fm_learn::learn(train, test);// 该函数并没有具体实现
// 输出运行时的参数,包括:学习率,迭代次数
std::cout << "learnrate=" << learn_rate << std::endl;
std::cout << "learnrates=" << learn_rates(0) << "," << learn_rates(1) << "," << learn_rates(2) << std::endl;
std::cout << "#iterations=" << num_iter << std::endl;
if (train.relation.dim > 0) {// 判断relation
throw "relations are not supported with SGD";
}
std::cout.flush();// 刷新
}
// SGD重新修正fm模型的权重
void SGD(sparse_row<DATA_FLOAT> &x, const double multiplier, DVector<double> &sum) {
fm_SGD(fm, learn_rate, x, multiplier, sum);// 调用fm_sgd中的fm_SGD函数
}
// debug函数,主要用于打印中间结果
void debug() {
std::cout << "num_iter=" << num_iter << std::endl;
fm_learn::debug();
}
// 对数据进行预测
virtual void predict(Data& data, DVector<double>& out) {
assert(data.data->getNumRows() == out.dim);// 判断样本个数是否相等
for (data.data->begin(); !data.data->end(); data.data->next()) {
double p = predict_case(data);// 得到线性项和交叉项的和,调用的是fm_learn中的方法
if (task == TASK_REGRESSION ) {// 回归任务
p = std::min(max_target, p);
p = std::max(min_target, p);
} else if (task == TASK_CLASSIFICATION) {// 分类任务
p = 1.0/(1.0 + exp(-p));// Sigmoid函数处理
} else {// 异常处理
throw "task not supported";
}
out(data.data->getRowIndex()) = p;
}
}
};
在fm_learn_sgd
类中,主要包括五个函数,分别为:初始化init
函数,训练learn
函数,SGD训练SGD
函数,debug的debug
函数和预测predict
函数。
5.1.1、初始化init
函数
在初始化中,对学习率的大小进行了初始化,同时继承了父类中的初始化方法。
5.1.2、训练learn
函数
在learn
函数中,没有具体的训练的过程,只是对训练中需要用到的参数进行输出,具体的训练的过程在其对应的子类中定义,如fm_learn_sgd_element
类和fm_learn_sgd_element_adapt_reg
类。
5.1.3、SGD训练SGD
函数
SGD
函数使用的是fm_sgd.h
文件中的fm_SGD
函数。fm_SGD
函数是利用梯度下降法对模型中的参数进行调整,以得到最终的模型中的参数。在利用梯度下降法对模型中的参数进行调整的过程中,假设损失函数为l,那么,对于回归问题来说,其损失函数为:
对于二分类问题,其损失函数为:
其中,σ为Sigmoid函数:
对于σ(x),其导函数为:
在可用SGD更新的过程中,首先需要计算损失函数的梯度,因此,对应于上述的回归问题和二分类问题,其中回归问题的损失函数的梯度为:
分类问题的损失函数的梯度为:
其中,λ称为正则化参数,在具体的应用中,通常加上L2正则,即:
在定义好上述的计算方法后,其核心的问题是如何计算∂y^(i)∂θ,在“机器学习算法实现解析——libFM之libFM的模型处理部分”中已知:
因此,当y^分别对w0,wi以及vi,f求偏导时,其结果分别为:
在利用梯度的方法中,其参数θ的更新方法为:
其中,η为学习率,在libFM中,其具体的代码如下所示:
// 利用SGD更新模型的参数
void fm_SGD(fm_model* fm, const double& learn_rate, sparse_row<DATA_FLOAT> &x, const double multiplier, DVector<double> &sum) {
// 1、常数项的修正
if (fm->k0) {
double& w0 = fm->w0;
w0 -= learn_rate * (multiplier + fm->reg0 * w0);
}
// 2、一次项的修正
if (fm->k1) {
for (uint i = 0; i < x.size; i++) {
double& w = fm->w(x.data[i].id);
w -= learn_rate * (multiplier * x.data[i].value + fm->regw * w);
}
}
// 3、交叉项的修正
for (int f = 0; f < fm->num_factor; f++) {
for (uint i = 0; i < x.size; i++) {
double& v = fm->v(f,x.data[i].id);
double grad = sum(f) * x.data[i].value - v * x.data[i].value * x.data[i].value;
v -= learn_rate * (multiplier * grad + fm->regv * v);
}
}
}
以上的更新的过程分别对应着上面的更新公式,其中multiplier变量分别对应着回归中的(y^(i)−y(i))和分类中的(σ(y^(i)y(i))−1)⋅y(i)。
5.1.4、预测predict
函数
predict
函数用于对样本进行预测,这里使用到了predict_case
函数,该函数在“机器学习算法实现解析——libFM之libFM的训练过程概述”中有详细的说明,得到值后,分别对回归问题和分类问题做处理,在回归问题中,主要是防止超出最大值和最小值,在分类问题中,将其值放入Sigmoid函数,得到最终的结果。
5.2、SGD的训练方法
随机梯度下降法(Stochastic Gradient Descent ,SGD)是一种简单有效的优化方法。对于梯度下降法的更多内容,可以参见“梯度下降优化算法综述”。在利用SGD对FM模型训练的过程如下图所示:
在libFM中,SGD的实现在fm_learn_sgd_element.h
文件中。在该文件中,定义了fm_learn_sgd_element
类,fm_learn_sgd_element
类继承自fm_learn_sgd
类,主要实现了fm_learn_sgd
类中的learn
方法,具体的程序代码如下所示:
#include "fm_learn_sgd.h"
// 继承了fm_learn_sgd
class fm_learn_sgd_element: public fm_learn_sgd {
public:
// 初始化
virtual void init() {
fm_learn_sgd::init();
// 日志输出
if (log != NULL) {
log->addField("rmse_train", std::numeric_limits<double>::quiet_NaN());
}
}
// 利用SGD训练FM模型
virtual void learn(Data& train, Data& test) {
fm_learn_sgd::learn(train, test);// 输出参数信息
std::cout << "SGD: DON'T FORGET TO SHUFFLE THE ROWS IN TRAINING DATA TO GET THE BEST RESULTS." << std::endl;
// SGD
for (int i = 0; i < num_iter; i++) {// 开始迭代,每一轮的迭代过程
double iteration_time = getusertime();// 记录开始的时间
for (train.data->begin(); !train.data->end(); train.data->next()) {// 对于每一个样本
double p = fm->predict(train.data->getRow(), sum, sum_sqr);// 得到样本的预测值
double mult = 0;// 损失函数的导数
if (task == 0) {// 回归
p = std::min(max_target, p);
p = std::max(min_target, p);
// loss=(y_ori-y_pre)^2
mult = -(train.target(train.data->getRowIndex())-p);// 对损失函数求导
} else if (task == 1) {// 分类
// loss
mult = -train.target(train.data->getRowIndex())*(1.0-1.0/(1.0+exp(-train.target(train.data->getRowIndex())*p)));
}
// 利用梯度下降法对参数进行学习
SGD(train.data->getRow(), mult, sum);
}
iteration_time = (getusertime() - iteration_time);// 记录时间差
// evaluate函数是调用的fm_learn类中的方法
double rmse_train = evaluate(train);// 对训练结果评估
double rmse_test = evaluate(test);// 将模型应用在测试数据上
std::cout << "#Iter=" << std::setw(3) << i << "\tTrain=" << rmse_train << "\tTest=" << rmse_test << std::endl;
// 日志输出
if (log != NULL) {
log->log("rmse_train", rmse_train);
log->log("time_learn", iteration_time);
log->newLine();
}
}
}
};
在learn
函数中,实现了SGD训练FM模型的主要过程,在实现的过程中,分别调用了SGD
函数和evaluate
函数,其中SGD
函数如上面的5.1.3、SGD训练SGD函数
小节所示,利用SGD
函数对FM模型中的参数进行更新,evaluate
函数如“机器学习算法实现解析——libFM之libFM的训练过程概述”中所示,evaluate
函数用于评估学习出的模型的效果。其中mult变量分别对应着回归中的(y^(i)−y(i))和分类中的(σ(y^(i)y(i))−1)⋅y(i)。
参考文献
- Rendle S. Factorization Machines[C]// IEEE International Conference on Data Mining. IEEE Computer Society, 2010:995-1000.
- Rendle S. Factorization Machines with libFM[M]. ACM, 2012.
机器学习算法实现解析——libFM之libFM的训练过程之SGD的方法的更多相关文章
- 机器学习算法实现解析——libFM之libFM的训练过程之Adaptive Regularization
本节主要介绍的是libFM源码分析的第五部分之二--libFM的训练过程之Adaptive Regularization的方法. 5.3.Adaptive Regularization的训练方法 5. ...
- 机器学习算法实现解析——libFM之libFM的训练过程概述
本节主要介绍的是libFM源码分析的第四部分--libFM的训练. FM模型的训练是FM模型的核心的部分. 4.1.libFM中训练过程的实现 在FM模型的训练过程中,libFM源码中共提供了四种训练 ...
- 机器学习算法实现解析——libFM之libFM的模型处理部分
本节主要介绍的是libFM源码分析的第三部分--libFM的模型处理. 3.1.libFM中FM模型的定义 libFM模型的定义过程中主要包括模型中参数的设置及其初始化,利用模型对样本进行预测.在li ...
- 机器学习算法实现解析——word2vec源代码解析
在阅读本文之前,建议首先阅读"简单易学的机器学习算法--word2vec的算法原理"(眼下还没公布).掌握例如以下的几个概念: 什么是统计语言模型 神经概率语言模型的网络结构 CB ...
- 【机器学习算法-python实现】协同过滤(cf)的三种方法实现
(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.背景 协同过滤(collaborative filtering)是推荐系统经常使用的一种方法.c ...
- 机器学习算法与Python实践之(四)支持向量机(SVM)实现
机器学习算法与Python实践之(四)支持向量机(SVM)实现 机器学习算法与Python实践之(四)支持向量机(SVM)实现 zouxy09@qq.com http://blog.csdn.net/ ...
- 机器学习算法与Python实践之(五)k均值聚类(k-means)
机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学 ...
- 机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)
http://blog.csdn.net/zouxy09/article/details/20319673 机器学习算法与Python实践之(七)逻辑回归(Logistic Regression) z ...
- 机器学习算法( 五、Logistic回归算法)
一.概述 这会是激动人心的一章,因为我们将首次接触到最优化算法.仔细想想就会发现,其实我们日常生活中遇到过很多最优化问题,比如如何在最短时间内从A点到达B点?如何投入最少工作量却获得最大的效益?如何设 ...
随机推荐
- datetime时间处理
基本数据获取: In [38]: import datetime as dt In [39]: on = dt.datetime.now() #获取当前准确时间 In [40]: on Out[40] ...
- js 三元表达式 复杂写法
a = 0 b = 0 a === 0 && (a = 1,b = 2) a === 1 ? (a = 3,alert(b)) : (b = 4) a === 1 || alert(a ...
- MySQL-5.7创建及查看数据库
1.创建数据库语句 create database语句是在MySQL实例上创建一个指定名称的数据库. create schema语句的语义和create database是一样的. 2.语法解析 CR ...
- java中最常用jar包的用途
jar包用途 axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现.查找和实现可插入式接口,提供一些一般类实例化.单件的生命周期管理的常用方法.jaxrpc.jar ...
- javascript-实现简单瀑布流
直接上代码: <style> *{ margin:0; padding:0; } .waterfall_item{ border:solid 3px #ccc; box-shadow:1p ...
- 使用John the ripper工具来尝试破解Linux密码
这篇文章主要介绍了使用John the ripper工具来尝试破解Linux密码的方法,这款工具可能主要被用来破解系统用户的密码以获得文件操作权限,需要的朋友可以参考下 John有别于Hdra之类的工 ...
- jquery知识location.search
location.search在客户端获取Url参数的方法 location.search是从当前URL的?号开始的字符串如:http://www.baidu.com/s?wd=baidu&c ...
- Image合并添加文字内容
场景:将一个头像.二维码.文字信息添加到一张背景图片中,将这些信息合成一张图片. 代码已经测试验证.代码中图片自己随意找几张测试即可. 代码: import com.sun.image.codec.j ...
- 用Java编程计算出所有的"水仙花数"
题目:打印出所有的 "水仙花数 ",所谓 "水仙花数 "是指一个三位数,其各位数字立方和等于该数本身.例如:153是一个 "水仙花数 ",因 ...
- Kubernetes 在知乎上的应用
从 Mesos 到 Kubernetes 之前的调度框架是基于 Mesos 自研的.采用的语言是 Python.运行了大概两年多的时间了,也一直比较稳定.但随着业务的增长,现有的框架的问题逐渐暴露. ...