本文介绍了机器学习中基本的优化算法—梯度下降算法和随机梯度下降算法，以及实际应用到线性回归、Logistic回归、矩阵分解推荐算法等ML中。

梯度下降算法基本公式

常见的符号说明和损失函数

X :所有样本的特征向量组成的矩阵
x(i) 是第i个样本包含的所有特征组成的向量x(i)=（x(i)1,x(i)2...,x(i)n）
y(i) 第i个样本的label，每个样本只有一个label，y(i)是标量（一个数值）
hθ(x(i)) :拟合函数，机器学习中可以用多种类型的拟合函数
θ 是函数变量，是多个变量的向量 θ=[θ1,θ2,...]
|hθ(xi)−y(i)| :拟合绝对误差
求解的目标是使得所有样本点（m个）平均误差最小，即：

或者平方误差最小，即：

argmin表示使目标函数取最小值时的变量值(即θ）值。

都被称为损失函数（Cost Function）
J(θ)不只是上面两种形式，不同的机器学习算法可以定义各种其它形式。

梯度下降迭代公式

为了求解θ=[θ1,θ2,...]的值，可以先对其赋一组初值，然后改变θ的值，使得J(θ)最小。函数J(θ)在其负梯度方向下降最快，所以只要使得每个参数θ按函数负梯度方向改变，则J(θ)能最快找到最小值。即

这就是梯度下降算法的迭代公式，其中α表示步长，即往每次下降最快的方向走多远。

线性回归

以多变量线性回归为例：
拟合函数如下：

Logistic回归

代价函数：
以Sigmoid函数（Logistic函数）为例说明：

为什么这么定义代价函数呢？我自己通俗理解是，求导后形式简洁，而且：
y=0，hθ(x)范围为[0，0.5），越接近0.5，代价越高：

由上图可以看出：−log(1−hθ(x(i)))可以很好衡量某一个样本的代价。

y=1时，hθ(x)范围为（0.5，1]，越接近0.5，代价越高：

同样由上图可以看到：−loghθ(x(i))可以很好衡量某一个样本的代价。

迭代更新公式：
求导过程蛮复杂的，直接给出结果吧:

和线性回归中最后给的更新迭代公式是一模一样的，这也就理解了为什么代价函数设计时比较复杂，还套了log，敢情是为了这？？
总之logisitc回归和线性回归最终使用的是一模一样的优化算法。
还可将这个公式写成用向量来表达的形式：

矩阵分解的推荐算法

可以参考我转载的另一篇文章： http://www.cnblogs.com/kobedeshow/p/3651833.html?utm_source=tuicool&utm_medium=referral

随机梯度下降（SGD）

stochastic gradient descent

从梯度上升算法公式可以看出，每次更新回归系数θ时都需要遍历整个数据集。该方法在处理100个左右的数据集尚可，但是如果有数十亿的样本和成千万的特征，这种方法的计算复杂度就太高了。一种改进的方法是一次仅用一个样本点来更新回归系数。由于可以在新样本到来时，对分类器进行增量更新，因此是一个“在线学习”算法，而梯度下降算法一次处理所有的数据被称为“批处理”。更新公式如下：

参考文献

（1）Stanford机器学习—第三讲. 逻辑回归和过拟合问题的解决 logistic Regression & Regularization
http://blog.csdn.net/abcjennifer/article/details/7716281?locationNum=2
（2）机器学习入门：线性回归及梯度下降
http://blog.csdn.net/xiazdong/article/details/7950084
（3）梯度下降深入浅出
http://binhua.info/machinelearning/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%B7%B1%E5%85%A5%E6%B5%85%E5%87%BA

机器学习算法（优化）之一：梯度下降算法、随机梯度下降（应用于线性回归、Logistic回归等等）的更多相关文章

Andrew Ng机器学习算法入门(四):阶梯下降算法
梯度降级算法简介之前如果需要求出最佳的线性回归模型,就需要求出代价函数的最小值.在上一篇文章中,求解的问题比较简单,只有一个简单的参数.梯度降级算法就可以用来求出代价函数最小值. 梯度降级算法的在维 ...
机器学习之线性回归---logistic回归---softmax回归
在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签可以取两个以上的值. Softmax回归模型对于诸如MNIST手写数字分类等问题 ...
NN优化方法对照：梯度下降、随机梯度下降和批量梯度下降
1.前言这几种方法呢都是在求最优解中常常出现的方法,主要是应用迭代的思想来逼近.在梯度下降算法中.都是环绕下面这个式子展开: 当中在上面的式子中hθ(x)代表.输入为x的时候的其当时θ參数下的输出值 ...
监督学习：随机梯度下降算法（sgd）和批梯度下降算法（bgd）
线性回归首先要明白什么是回归.回归的目的是通过几个已知数据来预测另一个数值型数据的目标值. 假设特征和结果满足线性关系,即满足一个计算公式h(x),这个公式的自变量就是已知的数据x,函数值h(x)就 ...
监督学习——随机梯度下降算法（sgd）和批梯度下降算法（bgd）
线性回归首先要明白什么是回归.回归的目的是通过几个已知数据来预测另一个数值型数据的目标值. 假设特征和结果满足线性关系,即满足一个计算公式h(x),这个公式的自变量就是已知的数据x,函数值h(x)就 ...
Logistic回归Cost函数和J(θ)的推导（二）----梯度下降算法求解最小值
前言在上一篇随笔里,我们讲了Logistic回归cost函数的推导过程.接下来的算法求解使用如下的cost函数形式: 简单回顾一下几个变量的含义: 表1 cost函数解释 x(i) 每个样本数据点在 ...
1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD
排版也是醉了见原文:http://www.cnblogs.com/maybe2030/p/5089753.html 在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练.其实,常用的梯度 ...
sklearn中实现随机梯度下降法（多元线性回归）
sklearn中实现随机梯度下降法随机梯度下降法是一种根据模拟退火的原理对损失函数进行最小化的一种计算方式,在sklearn中主要用于多元线性回归算法中,是一种比较高效的最优化方法,其中的梯度下降系 ...
机器学习之Logistic 回归算法
1 Logistic 回归算法的原理 1.1 需要的数学基础我在看机器学习实战时对其中的代码非常费解,说好的利用偏导数求最值怎么代码中没有体现啊,就一个简单的式子:θ= θ - α Σ [( hθ( ...

随机推荐

面试常问小知识点之Integer
背景今天在查看Sonar的时候发现小伙伴在某些场景下如下使用很明显sonar已经报错了,但是线上应用目前是正常的问题事实上经常会有面试的小伙伴或者笔试的小伙伴问这个问题 Integer的一些小 ...
Android 性能测试之TraceView的使用
Traceview是android平台配备一个很好的性能分析的工具.它可以通过图形化的方式让我们了解我们要跟踪的程序的性能,并且能具体到method. 在SDK路径\tools目录下. 1.在开始使用 ...
Java8：使用 Optional 处理 null
写过 Java 程序的同学,一般都遇到过 NullPointerException :) —— 为了不抛出这个异常,我们便会写如下的代码: User user = getUserById(id); i ...
php队列算法[转]
<?php/*** php队列算法* * Create On 2010-6-4* Author Been* QQ:281443751* Email:binbin1129@126.com**/cl ...
shell脚本学习总结11--脚本调试
参数: -n 不执行脚本,仅检查语法是否错误 -v 将脚本内容输出到屏幕上,然后执行脚本 -x 执行脚本,并将内容输出到屏幕 -n [root@new sbin]# sh -n deb ...
ios 的EditBox点击空白处不隐藏的解决方案
原因:参数少了前缀CC 解决方案:修改 cocos/platform/ios/CCEAGLView-ios.mm 中的 handleTouchesAfterKeyboardShow -(void) h ...
JMS和ActiveMQ的关系
JMS和MQ的关系: JMS是一个用于提供消息服务的技术规范,它制定了在整个消息服务提供过程中的所有数据结构和交互流程.而MQ则是消息队列服务,是面向消息中间件(MOM)的最终实现,是真正的服务提供者 ...
nat123动态域名解析软件使用教程
nat123动态域名解析软件使用教程
【BZOJ2525】[Poi2011]Dynamite 二分+树形DP
[BZOJ2525][Poi2011]Dynamite Description Byteotian Cave的结构是一棵N个节点的树,其中某些点上面已经安置了炸.药,现在需要点燃M个点上的引线引爆所有 ...
nginx的allow和deny配置
转自:http://www.ttlsa.com/linux/nginx-modules-ngx_http_access_module/ 单看nginx模块名ngx_http_access_module ...

机器学习算法（优化）之一：梯度下降算法、随机梯度下降（应用于线性回归、Logistic回归等等）