简单的算法示例

数据

x = np.random.uniform(-3,3,100)

X = x.reshape(-1,1)

y = x * 2 + 5 + np.random.normal(0, 1, 100)

BGD

批量梯度下降法的简单实现：

def gradient_descent(X_b, y, initial_theta, eta, n_iters=1e4, epsilon=1e-8):

    def J(theta):

        return np.mean((X_b.dot(theta) - y) ** 2)

    def dj(theta):

        return X_b.T.dot((X_b.dot(theta) - y)) * (2 / len(y))

    theta = initial_theta

    for i in range(1, int(n_iters)):

        gradient = dj(theta)                   # 获得梯度

        last_theta = theta

        theta = theta - eta * gradient    # 迭代梯度

        if np.absolute(J(theta) - J(last_theta)) < epsilon:

            break                         # 满足条件就跳出

    return theta

结果是：

X_b = np.hstack([np.ones((len(y), 1)), X])

initial_theta = np.ones(X_b.shape[1])

eta = 0.1

%time s_gradient_descent(X_b, y, initial_theta, eta, n_iters=1)

## array([4.72619109, 3.08239321])

SGD

这里n_iters表示将所有数据迭代的轮数。

def s_gradient_descent(X_b, y, initial_theta, eta, batch_size=10, n_iters=10, epsilon=1e-8):

    def J(theta):

        return np.mean((X_b.dot(theta) - y) ** 2)

    # 这是随机梯度下降的，随机一个样本的梯度

    def dj_sgd(X_b_i, y_i, theta):

        # return X_b.T.dot((X_b.dot(theta) - y)) * (2 / len(y))

        return 2 * X_b_i.T.dot(X_b_i.dot(theta) - y_i)

    theta = initial_theta

    for i in range(0, int(n_iters)):

        for j in range(batch_size, len(y), batch_size):

            gradient = dj_sgd(X_b[j,:], y[j], theta)

            last_theta = theta

            theta = theta - eta * gradient         # 迭代梯度

            if np.absolute(J(theta) - J(last_theta)) < epsilon:

                break                              # 满足条件就跳出

    return theta

结果是：

X_b = np.hstack([np.ones((len(y), 1)), X])

initial_theta = np.ones(X_b.shape[1])

eta = 0.1

%time s_gradient_descent(X_b, y, initial_theta, eta, n_iters=1)

## array([4.72619109, 3.08239321])

MBGD

在随机梯度下降的基础上，对dj做了一点点修改，batch_size指定批量的大小，dj每次计算batch_size个样本的梯度并取平均值。

不得不说，同样是迭代一轮数据，小批量梯度下降法的准确度要比随机梯度下降法高多了。

def b_gradient_descent(X_b, y, initial_theta, eta, batch_size=10, n_iters=10, epsilon=1e-8):

    def J(theta):

        return np.mean((X_b.dot(theta) - y) ** 2)

    # 这是小批量梯度下降的，随机一个样本的梯度

    def dj_bgd(X_b_b, y_b, theta):

        # return X_b.T.dot((X_b.dot(theta) - y)) * (2 / len(y))

        return X_b_b.T.dot(X_b_b.dot(theta) - y_b) * (2 / len(y_b))

    theta = initial_theta

    for i in range(0, int(n_iters)):

        for j in range(batch_size, len(y), batch_size):

            gradient = dj_bgd(X_b[j-batch_size:j,:], y[j-batch_size:j], theta)

            last_theta = theta

            theta = theta - eta * gradient         # 迭代梯度

            if np.absolute(J(theta) - J(last_theta)) < epsilon:

                break                              # 满足条件就跳出

    return theta

结果是：

X_b = np.hstack([np.ones((len(y), 1)), X])

initial_theta = np.ones(X_b.shape[1])

eta = 0.1

%time b_gradient_descent(X_b, y, initial_theta, eta, n_iters=1)

array([4.4649369 , 2.27164876])

三种梯度下降法的对比(BGD & SGD & MBGD)的更多相关文章

三种梯度下降算法的区别(BGD, SGD, MBGD)
前言我们在训练网络的时候经常会设置 batch_size,这个 batch_size 究竟是做什么用的,一万张图的数据集,应该设置为多大呢,设置为 1.10.100 或者是 10000 究竟有什么区 ...
各种优化器对比--BGD/SGD/MBGD/MSGD/NAG/Adagrad/Adam
指数加权平均 (exponentially weighted averges) 先说一下指数加权平均, 公式如下: \[v_{t}=\beta v_{t-1}+(1-\beta) \theta_{t} ...
python笔记-20 django进阶（model与form、modelform对比，三种ajax方式的对比，随机验证码，kindeditor）
一.model深入 1.model的功能 1.1 创建数据库表 1.2 操作数据库表 1.3 数据库的增删改查操作 2.创建数据库表的单表操作 2.1 定义表对象 class xxx(models.M ...
iOS- NSThread/NSOperation/GCD 三种多线程技术的对比及实现
1.iOS的三种多线程技术 1.NSThread 每个NSThread对象对应一个线程,量级较轻(真正的多线程) 2.以下两点是苹果专门开发的“并发”技术,使得程序员可以不再去关心线程的具体使用问题 ...
iOS- NSThread/NSOperation/GCD 三种多线程技术的对比及实现 -- 转
1.iOS的三种多线程技术 1.NSThread 每个NSThread对象对应一个线程,量级较轻(真正的多线程) 2.以下两点是苹果专门开发的“并发”技术,使得程序员可以不再去关心线程的具体使用问题 ...
几种梯度下降方法对比（Batch gradient descent、Mini-batch gradient descent 和 stochastic gradient descent）
https://blog.csdn.net/u012328159/article/details/80252012 我们在训练神经网络模型时,最常用的就是梯度下降,这篇博客主要介绍下几种梯度下降的变种 ...
Dynamics CRM2016 查询数据的三种方式的性能对比
之前写过一个博客,对非声明验证方式下连接组织服务的两种方式的性能进行了对比,但当时只是对比了实例化组织服务的时间,并没有对查询数据的时间进行对比,那有朋友也在我的博客中留言了反映了查询的时间问题,一直 ...
两个Map的对比，三种方法，将对比结果写入文件。
三种方法的思维都是遍历一个map的Key,然后2个Map分别取这2个Key值所得到的Value. #第一种用entry private void compareMap(Map<String, S ...
java对象头信息和三种锁的性能对比
java头的信息分析首先为什么我要去研究java的对象头呢? 这里截取一张hotspot的源码当中的注释这张图换成可读的表格如下 |-------------------------------- ...

随机推荐

在Laravel框架blog中，终端的一些命令
创建控制器php artisan make:controller TestController数据库迁移php artisan make:migration create_goods_table实行迁 ...
TCP/UDP报文格式
TCP报文格式源端口:数据发送方的端口号目的端口:数据接收方的端口号序号:本数据报文中的第一个字节的序号(在数据流中每个字节都对应一个序号) 确认号:希望收到的下一个数据报文中的第一个字节的序号 ...
安装配置华为Fusion acces（Lite AD）并使Windows登录
安装Fusion access虚拟机根据自己情况自定义点击编辑虚拟机设置添加镜像点击确定并开启此虚拟机选择第二个 Install 添加Network:修改hostname:修改密码回车添加 ...
安装Windows_server_2012_r2虚拟机步骤
创建虚拟机使用Windows_server_2012_r2镜像网上搜索Windows产品密钥:TVNTG-VFJQ3-FQXFP-DVCP6-D3VJ8 点击完成,等待加载选择第二个等待安装 ...
Python入门系列（九）pip、try except、用户输入、字符串格式
pip 包含模块所需的所有文件. 检查是否安装了PIP $ pip --version 安装包 $ pip install package_name 使用包 import package_name 删 ...
[SDR] GNU Radio 系列教程（二） —— 绘制第一个信号分析流程图
目录 1.前言 2.启动 GNU Radio 3.新增块 4.运行本文视频参考链接 1.前言本文将介绍如何在 GNU Radio 中创建和运行第一个流程图. 2.启动 GNU Radio GNU ...
PostgreSQL 与 Oracle 访问分区表执行计划差异
熟悉Oracle 的DBA都知道,Oracle 访问分区表时,对于没有提供分区条件的,也就是在无法使用分区剪枝情况下,优化器会根据全局的统计信息制定执行计划,该执行计划针对所有分区适用.在分析利弊之前 ...
MinIO分布式集群部署方式
文章转载自:https://blog.51cto.com/u_10950710/4843738 关于分布式集群MinIo 单机Minio服务存在单点故障,如果是一个有N块硬盘的分布式Minio,只要有 ...
kibana启动停止命令
前提条件:kibana文件是属于kibana用户的注意:路径根据具体实际情况修改更改日志所属用户和用户组 chown kibana:kibana /usr/local/kibana-7.5.1-l ...
解决inode满
登陆服务器运行df -i 然后运行 for i in /*; do echo $i; find $i |wc -l|sort -nr; done 看看每个文件夹下面的数量最后发现是/var/spoo ...

三种梯度下降法的对比(BGD & SGD & MBGD)

简单的算法示例

数据

BGD

SGD

MBGD

三种梯度下降法的对比(BGD & SGD & MBGD)的更多相关文章

随机推荐

热门专题