TensorFlow从0到1之TensorFlow实现反向传播算法（21）

大码王 2024-08-27 18:03:24 原文

反向传播（BPN）算法是神经网络中研究最多、使用最多的算法之一，它用于将输出层中的误差传播到隐藏层的神经元，然后用于更新权重。

学习 BPN 算法可以分成以下两个过程：

正向传播：输入被馈送到网络，信号从输入层通过隐藏层传播到输出层。在输出层，计算误差和损失函数。
反向传播：在反向传播中，首先计算输出层神经元损失函数的梯度，然后计算隐藏层神经元损失函数的梯度。接下来用梯度更新权重。

这两个过程重复迭代直到收敛。

前期准备

首先给网络提供 M 个训练对（X，Y），X 为输入，Y 为期望的输出。输入通过激活函数 g(h) 和隐藏层传播到输出层。输出 Y_hat 是网络的输出，得到 error=Y-Y_hat。其损失函数 J(W) 如下：

其中，i 取遍所有输出层的神经元（1 到 N）。然后可以使用 J(W) 的梯度并使用链式法则求导，来计算连接第 i 个输出层神经元到第 j 个隐藏层神经元的权重 W_ij 的变化：

这里，O_j 是隐藏层神经元的输出，h 表示隐藏层的输入值。这很容易理解，但现在怎么更新连接第 n 个隐藏层的神经元 k 到第 n+1 个隐藏层的神经元 j 的权值 W_jk？过程是相同的：将使用损失函数的梯度和链式法则求导，但这次计算 W_jk：

现在已经有方程了，看看如何在 TensorFlow 中做到这一点。在这里，还是使用 MNIST 数据集（http://yann.lecun.com/exdb/MNIST/）。

具体实现过程

现在开始使用反向传播算法：

导入模块：
加载数据集，通过设置 one_hot=True 来使用独热编码标签：
定义超参数和其他常量。这里，每个手写数字的尺寸是 28×28=784 像素。数据集被分为 10 类，以 0 到 9 之间的数字表示。这两点是固定的。学习率、最大迭代周期数、每次批量训练的批量大小以及隐藏层中的神经元数量都是超参数。可以通过调整这些超参数，看看它们是如何影响网络表现的：
需要 Sigmoid 函数的导数来进行权重更新，所以定义它：
为训练数据创建占位符：
创建模型：
定义权重和偏置变量：
为正向传播、误差、梯度和更新计算创建计算图：
定义计算精度 accuracy 的操作：
初始化变量：
执行图：
结果如下：

解读分析

在这里，训练网络时的批量大小为 10，如果增加批量的值，网络性能就会下降。另外，需要在测试数据集上检测训练好的网络的精度，这里测试数据集的大小是 1000。

单隐藏层多层感知机在训练数据集上的准确率为 84.45，在测试数据集上的准确率为 92.1。这是好的，但不够好。MNIST 数据集被用作机器学习中分类问题的基准。接下来，看一下如何使用 TensorFlow 的内置优化器影响网络性能。

TensorFlow从0到1之TensorFlow实现反向传播算法（21）的更多相关文章

[2] TensorFlow 向前传播算法(forward-propagation)与反向传播算法(back-propagation)
TensorFlow Playground http://playground.tensorflow.org 帮助更好的理解,游乐场Playground可以实现可视化训练过程的工具 TensorFlo ...
TensorFlow反向传播算法实现
TensorFlow反向传播算法实现反向传播(BPN)算法是神经网络中研究最多.使用最多的算法之一,用于将输出层中的误差传播到隐藏层的神经元,然后用于更新权重. 学习 BPN 算法可以分成以下两个过 ...
TensorFlow从0到1之TensorFlow优化器（13）
高中数学学过,函数在一阶导数为零的地方达到其最大值和最小值.梯度下降算法基于相同的原理,即调整系数(权重和偏置)使损失函数的梯度下降. 在回归中,使用梯度下降来优化损失函数并获得系数.本节将介绍如何使 ...
Tensorflow笔记——神经网络图像识别（一）前反向传播，神经网络八股
第一讲:人工智能概述第三讲:Tensorflow框架前向传播: 反向传播: 总的代码: #coding:utf-8 #1.导入模块,生成模拟数据集 import t ...
TensorFlow从0到1之TensorFlow Keras及其用法（25）
Keras 是与 TensorFlow 一起使用的更高级别的作为后端的 API.添加层就像添加一行代码一样简单.在模型架构之后,使用一行代码,你可以编译和拟合模型.之后,它可以用于预测.变量声明.占位 ...
TensorFlow从0到1之TensorFlow多层感知机函数逼近过程（23）
Hornik 等人的工作(http://www.cs.cmu.edu/~bhiksha/courses/deeplearning/Fall.2016/notes/Sonia_Hornik.pdf)证明 ...
TensorFlow从0到1之TensorFlow常用激活函数（19）
每个神经元都必须有激活函数.它们为神经元提供了模拟复杂非线性数据集所必需的非线性特性.该函数取所有输入的加权和,进而生成一个输出信号.你可以把它看作输入和输出之间的转换.使用适当的激活函数,可以将输出 ...
TensorFlow从0到1之TensorFlow逻辑回归处理MNIST数据集（17）
本节基于回归学习对 MNIST 数据集进行处理,但将添加一些 TensorBoard 总结以便更好地理解 MNIST 数据集. MNIST由https://www.tensorflow.org/get ...
TensorFlow从0到1之TensorFlow csv文件读取数据（14）
大多数人了解 Pandas 及其在处理大数据文件方面的实用性.TensorFlow 提供了读取这种文件的方法. 前面章节中,介绍了如何在 TensorFlow 中读取文件,本节将重点介绍如何从 CSV ...

随机推荐

Spring 中基于 AOP 的 @AspectJ
Spring 中基于 AOP 的 @AspectJ @AspectJ 作为通过 Java 5 注释注释的普通的 Java 类,它指的是声明 aspects 的一种风格. 通过在你的基于架构的 XML ...
tableView的嵌套
1,subTableView需要开启多手势识别,多层tableView都会响应滚动事件(如果底层是scroll 依然会响应,这样滚动tableview时,scroll也会滚动,导致滚动过于灵活)2,通 ...
模板：分页JSP（结合Servlet）
DAO类(后续无需改变) package dao; import java.sql.Connection; import java.sql.PreparedStatement; import java ...
Mysql创建修改删除-表
创建表之前要链接到库例如库名为 student use student; 连接结束可以查看此库中所有表 show tables; 创建表 create table student( id in ...
创建并加入节点&练习
1.节点的属性节点的属性:所有节点都有的属性元素节点, 属性节点, 文本节点 nodeType 只读属性 nodeName 返回对应节点的名字 ...
Condition线程通信_生产者消费者案例
①Condition 接口描述了可能会与锁有关联的条件变量. 这些变量在用法上与使用 Object.wait 访问的隐式监视器类似,但提供了更强大的功能. 需要特别指出的是,单个 Lock 可能与 ...
【朝夕专刊】RabbitMQ消息的持久化优先级
欢迎大家阅读<朝夕Net社区技术专刊> 我们致力于.NetCore的推广和落地,为更好的帮助大家学习,方便分享干货,特创此刊!很高兴你能成为忠实读者,文末福利不要错过哦! 上篇文章介绍了R ...
Chisel3 - Scala语言专家
https://mp.weixin.qq.com/s/j8mt_qvwliKIKtlN6JcyqQ 介绍Intellij IDEA安装Scala插件后,如何在阅读和编码两方面助益开发者. ...
Chisel3 - 基本数据类型
https://mp.weixin.qq.com/s/bSrM-wLRn7O_75xYKeoaEQ Chisel中的基本数据类型,不是Verilog中的Wire和Reg.Wire和Register ...
c#tcp多线程服务器实例代码
using System;using System.Collections.Generic;using System.ComponentModel;using System.Data;using Sy ...