Stochastic Gradient Descent 随机梯度下降法-R实现

随机梯度下降法

【转载时请注明来源】：http://www.cnblogs.com/runner-ljt/

Ljt

作为一个初学者，水平有限，欢迎交流指正。

批量梯度下降法在权值更新前对所有样本汇总误差，当样本较多时，其计算量就会非常大。

随机梯度下降法的权值更新是通过单个的样本进行更新，每读取一条样本数据就对所有权值进行一次更新，然后判断是否收敛，若不收敛则继续代入样本数据进行更新。

随机梯度下降法使损伤函数趋近最小值的速度更快，但是可能造成永远不能收敛到最小值，或一直在最小值周围震荡。

设置固定步长的随机梯度下降法的R实现：

#Stochastic Gradient Descent 随机梯度下降法

#x为数据矩阵（mxn m:样本数 n:特征数 ）;y观测值;error终止条件;maxiter最大迭代次数 

StochasticGradientDescent<-function(x,y,error,maxiter,step=0.001){

  m<-nrow(x)

  x<-cbind(matrix(1,m,1),x)

  n<-ncol(x)

  theta<-matrix(rep(0,n),n,1)  #ktheta初始值都设置为0

  iter<-0   #迭代次数

  k<-0  #第k个样本

  newerror<-1

  while(iter<maxiter|newerror>error){

    iter<-iter+1

    k<-k+1

    ifelse(k>m,k<-k%%m,k)

    xk<-x[k,,drop=FALSE]

    yk<-y[k,,drop=FALSE]

    hk<-xk%*%theta

    des<-t((hk-yk)%*%xk)

    new_theta<-theta-step*des

    newerror<-t(new_theta-theta)%*%(new_theta-theta)

    theta<-new_theta

   }

  costfunction<-t(x%*%theta-y)%*%(x%*%theta-y)

  result<-list(theta,iter,costfunction)

  names(result)<-c('系数','迭代次数','误差')

  result

}

Stochastic Gradient Descent 随机梯度下降法-R实现的更多相关文章

Stochastic Gradient Descent
一.从Multinomial Logistic模型说起 1.Multinomial Logistic 令为维输入向量; 为输出label;(一共k类); 为模型参数向量: Multinomial Lo ...
随机梯度下降法（Stochastic gradient descent, SGD）
BGD(Batch gradient descent)批量梯度下降法:每次迭代使用所有的样本(样本量小) Mold 一直在更新 SGD(Stochastic gradientdescent)随机 ...
Gradient Descent 和 Stochastic Gradient Descent（随机梯度下降法）
Gradient Descent(Batch Gradient)也就是梯度下降法是一种常用的的寻找局域最小值的方法.其主要思想就是计算当前位置的梯度,取梯度反方向并结合合适步长使其向最小值移动.通过柯 ...
机器学习-随机梯度下降（Stochastic gradient descent）
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
batch gradient descent（批量梯度下降）和 stochastic gradient descent（随机梯度下降）
批量梯度下降是一种对参数的update进行累积,然后批量更新的一种方式.用于在已知整个训练集时的一种训练方式,但对于大规模数据并不合适. 随机梯度下降是一种对参数随着样本训练,一个一个的及时updat ...
几种梯度下降方法对比（Batch gradient descent、Mini-batch gradient descent 和 stochastic gradient descent）
https://blog.csdn.net/u012328159/article/details/80252012 我们在训练神经网络模型时,最常用的就是梯度下降,这篇博客主要介绍下几种梯度下降的变种 ...
[机器学习] ML重要概念：梯度（Gradient）与梯度下降法（Gradient Descent）
引言机器学习栏目记录我在学习Machine Learning过程的一些心得笔记,涵盖线性回归.逻辑回归.Softmax回归.神经网络和SVM等等,主要学习资料来自网上的免费课程和一些经典书籍,免费课 ...
梯度下降法VS随机梯度下降法 (Python的实现)
# -*- coding: cp936 -*- import numpy as np from scipy import stats import matplotlib.pyplot as plt # ...
一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法
Log-Linear 模型(也叫做最大熵模型)是 NLP 领域中使用最为广泛的模型之一,其训练常采用最大似然准则,且为防止过拟合,往往在目标函数中加入(可以产生稀疏性的) L1 正则.但对于这种带 L ...

随机推荐

分布式服务框架Dubbo
随着互联网的发展,网站应用的规模不断扩大,常规的垂直应用架构已无法应对,分布式服务架构以及流动计算架构势在必行,亟需一个治理系统确保架构有条不紊的演进. 单一应用架构当网站流量很小时,只需一个应用, ...
zookeeper基本原理及适用场景转：http://blog.chinaunix.net/uid-26748613-id-4536290.html
1.1 zookeeper简介 Zookeeper 是 Hadoop 生态系统中的协同实现,是Hadoop集群管理的一个必不可少的模块,它主要来控制集群中的数据,如它管理Hadoop集群中的NameN ...
Android开发学习之路--基于vitamio的视频播放器（二）
终于把该忙的事情都忙得差不多了,接下来又可以开始good good study,day day up了.在Android开发学习之路–基于vitamio的视频播放器(一)中,主要讲了播放器的界面的 ...
改进版getpass库
编程伊始正式实施改进版源码以数字显示以自定义分隔符delimiter显示如何使用下载及安装在您的代码中使用源码下载总结用过Linux的都知道,尤其是进行使用包管理软件类似于apt ...
antlr 4新特性总结及与antlr v3的不同
antlr 4新特性总结及与antlr v3的不同学习曲线低.antlr v4相对于v3,v4更注重于用更接近于自然语言的方式去解析语言.比如运算符优先级,排在最前面的规则优先级最高: 层次更清晰. ...
syslog(),closelog()与openlog()--日志操作函数
在典型的 LINUX 安装中,/var/log/messages 包含所有的系统消息,/var/log/mail 包含来自邮件系统的其它日志消息,/var/log/debug 可能包含调试消息.根据你 ...
Git运用基础之如何删除Github上不想要的项目
今天突然想删除,(强迫症想删除)之前练习时多创建的多个Github上的源代码或者无用Demo地址,然后看了一些文章都比较老式,这里我展示一下最新的删除步骤. 一.首先登录自己的Github账户主页(没 ...
分析MapReduce执行过程+统计单词数例子
MapReduce 运行的时候,会通过 Mapper 运行的任务读取 HDFS 中的数据文件,然后调用自己的方法,处理数据,最后输出.Reducer 任务会接收 Mapper 任务输出的数据,作为自己 ...
详解EBS接口开发之供应商导入（补充）--供应商银行账户更新
CREATE OR REPLACE PACKAGE BODY update_vendor_account IS PROCEDURE main(errbuf OUT VARCHAR2, retcode ...
当图片验证码遇上JSP
今天看到了一个关于使用JSP方式生成图片验证码的小例子,感觉真的是很不错,拿来分享一下. 原理对于图片验证码,我们在审查元素的时候会方便的看出是<img src="#" ...

Stochastic Gradient Descent 随机梯度下降法-R实现

Stochastic Gradient Descent 随机梯度下降法-R实现的更多相关文章

随机推荐

热门专题