第二节，神经网络中反向传播四个基本公式证明—

假设一个三层的神经网络结构图如下：

对于一个单独的训练样本x其二次代价函数可以写成：

C = 1/2|| y - a^L||² = 1/2∑_j(y_j - a_j^L)²

a_j^L=σ(z_j^L)

z_j^l = ∑_kω_jk^la_k^l-1 + b_j^l

代价函数C是a_j^L的函数，a_j^L又是z_j^L的函数，z_j^L又是ω_jk^L的函数，同时又是a_k^L-1的函数......

证明四个基本方程(BP1-BP4)，所有这些都是多元微积分的链式法则的推论

δ_j^L = (∂C/∂a_j^L)σ'(z_j^L) (BP1)

δ_j^l = ∑_kω_kj^l+1δ_k^l+1σ'(z_j^l) (BP2)

　　　 ∂C/∂ω_jk^l= δ_j^la_k^l-1(BP3)

∂C/∂b_j^l= δ_j^l(BP4)

1.让我们从方程(BP1)开始，它给出了输出误差δ^L的表达式。

δ_j^L = ∂C/∂z_j^L

应用链式法则，我们可以就输出激活值的偏导数的形式重新表示上面的偏导数：

δ_j^L = ∑_k(∂C/∂a_k^L)(∂a_k^L/∂z_j^L)

这里求和是在输出层的所有神经元k上运行的，当然，第k^th个神经元的输出激活值a_k^L只依赖于当k=j时第j^th个神经元的带权输入z_j^L。所以当k≠j

时，∂a_k^L/∂z_j^L=0。结果简化为：

δ_j^L = (∂C/∂a_j^L)(∂a_j^L/∂z_j^L)

由于a_j^L=σ(z_j^L)，右边第二项可以写成σ'(z_j^L)，方程变成

δ_j^L = (∂C/∂a_j^L)σ‘(z_j^L)

2.证明BP2，它给出了下一层误差δ^l+1的形式表示误差δ^l。为此我们要以δ_k^l+1=∂C/∂z_k^l+1的形式重写 δ_j^l = ∂C/∂z_j^l

δ_j^l = ∂C/∂z_j^l

=∑_k(∂C/∂z_k^l+1)(∂z_k^l+1/∂z_j^l)

=∑_k(∂z_k^l+1/∂z_j^l)δ_k^l+1

这里最后一行我们交换了右边的两项，并用δ_k^l+1的定义带入。为此我们对最后一行的第一项求值，

注意：

z_k^l+1 = ∑_jω_kj^l+1a_j^l + b_k^l+1 = ∑_jω_kj^l+1σ(z_j^l) + b_k^l+1

做微分得到

∂z_k^l+1 /∂z_j^l = ω_kj^l+1σ'(z_j^l)

带入上式:

δ_j^l = ∑_kω_kj^l+1δ_k^l+1σ'(z_j^l)

3.证明BP3。计算输出层∂C/∂ω_jk^L：

∂C/∂ω_jkL = ∑_m (∂C/∂a_m^L)(∂a_m^L/∂ω_jk^L )

这里求和是在输出层的所有神经元k上运行的，当然，第k^th个神经元的输出激活值a_m^L只依赖于当m=j时第j^th个神经元的输入权重ω_jk^L。所以当k≠j

　时，∂a_m^L/∂ω_jk^L=0。结果简化为：

　　 ∂C/∂ω_jk^L = (∂C/∂a_j^L)(∂a_j^L/∂z_j^L)*(∂z_j^L/∂ω_jk^L)

= δ_j^La_k^L-1

计算输入层上一层(L-1):

∂C/∂ω_jk^L-1= (∑_m(∂C/∂a_m^L)(∂a_m^L/∂z_m^L)(∂z_m^L/∂a_j^L-1))(/∂a_j^L-1/∂z_j^L-1)(∂z_j^L-1/∂ω_jk^L-1)

= (∑_mδ_m^Lω_mj^L)σ'(z_j^L-1)a_k^L-2

= δ_j^L-1a_k^L-2

对于处输入层的任何一层(l)：

∂C/∂ω_jk^l= (∂C/∂z_j^l )(∂z_j^l/∂ω_jk^l) = δ_j^la_k^l-1

4.证明BP4。计算输出层∂C/∂b_j^L：

∂C/∂b_j^L = ∑_m (∂C/∂a_m^L)(∂a_m^L/∂b_j^L )

这里求和是在输出层的所有神经元k上运行的，当然，第k^th个神经元的输出激活值a_m^L只依赖于当m=j时第j^th个神经元的输入权重b_j^L。所以当k≠j

　时，∂a_m^L/∂b_j^L=0。结果简化为：

　　 ∂C/∂b_j^L = (∂C/∂a_j^L)(∂a_j^L/∂z_j^L)*(∂z_j^L/∂b_j^L)

= δ_j^L

计算输入层上一层(L-1):

∂C/∂b_j^L-1= (∑_m(∂C/∂a_m^L)(∂a_m^L/∂z_m^L)(∂z_m^L/∂a_j^L-1))(/∂a_j^L-1/∂z_j^L-1)(∂z_j^L-1/∂b_j^L-1)

= (∑_mδ_m^Lω_mj^L)σ'(z_j^L-1)

= δ_j^L-1

对于处输入层的任何一层(l)：

∂C/∂b_j^l= (∂C/∂z_j^l )(∂z_j^l/∂b_j^l) = δ_j^l

参考文献

[1]]神经网络基础

[2]Neural Networks and Deep Learning. Michael A. Nielsen

[3]一文弄懂神经网络中的反向传播法

[4]深度神经网络（DNN）反向传播算法(BP)

第二节，神经网络中反向传播四个基本公式证明——BackPropagation的更多相关文章

[AI]神经网络章2　神经网络中反向传播与梯度下降的基本概念
反向传播和梯度下降这两个词,第一眼看上去似懂非懂,不明觉厉.这两个概念是整个神经网络中的重要组成部分,是和误差函数/损失函数的概念分不开的. 神经网络训练的最基本的思想就是:先“蒙”一个结果,我们叫预 ...
深度学习与CV教程(4) | 神经网络与反向传播
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-det ...
使用PyTorch构建神经网络以及反向传播计算
使用PyTorch构建神经网络以及反向传播计算前一段时间南京出现了疫情,大概原因是因为境外飞机清洁处理不恰当,导致清理人员感染.话说国外一天不消停,国内就得一直严防死守.沈阳出现了一例感染人员,我在 ...
NLP教程(3) | 神经网络与反向传播
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www.showmeai.tech/article-det ...
神经网络之反向传播算法（BP）公式推导（超详细）
反向传播算法详细推导反向传播(英语:Backpropagation,缩写为BP)是"误差反向传播"的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见 ...
关于 RNN 循环神经网络的反向传播求导
关于 RNN 循环神经网络的反向传播求导本文是对 RNN 循环神经网络中的每一个神经元进行反向传播求导的数学推导过程,下面还使用 PyTorch 对导数公式进行编程求证. RNN 神经网络架构一个 ...
Andrej Karpathy | 详解神经网络和反向传播（基于 micrograd）
只要你懂 Python,大概记得高中学过的求导知识,看完这个视频你还不理解反向传播和神经网络核心要点的话,那我就吃鞋:D Andrej Karpathy,前特斯拉 AI 高级总监.曾设计并担任斯坦福深 ...
卷积神经网络(CNN)反向传播算法
在卷积神经网络(CNN)前向传播算法中,我们对CNN的前向传播算法做了总结,基于CNN前向传播算法的基础,我们下面就对CNN的反向传播算法做一个总结.在阅读本文前,建议先研究DNN的反向传播算法:深度 ...

随机推荐

python学习笔记（11）--词云
中分词库 jieba 词云 wordcloud import jieba import wordcloud f = open("新时代中国特色社会主义.txt", "r ...
How to convert mkv to mp4 lossless
ffmpeg -i example.mkv -vcodec copy -acodec copy example.mp4
Web API 2 添加Models and Controllers Part 2.
在方案中找到Models文件夹,右键添加类,命名为Author. Author.cs 替换以下代码 C# using System.Collections.Generic; using System. ...
gym-101350M
题意:给你一堆货币汇率,再给你一堆货币,算下值多少钱: 思路:直接map搞定: #include<iostream> #include<algorithm> #include& ...
Git秘钥生成以及Gitlab配置
安装Git:详见http://www.cnblogs.com/xiuxingzhe/p/9300905.html 开通gitlab(开通需要咨询所在公司的gitlab管理员)账号后,本地Git仓库和g ...
HTML中的元素定位
static默认 relative相对定位 absolute绝对定位 mix relative and absolute混合相对定位和绝对定位 fixed固定定位 float浮动 reference ...
BZOJ3812 主旋律（状压dp+容斥原理）
设f[S]为S点集是SCC的方案数.考虑通过去掉不合法方案转移.可以枚举入度为0的SCC所含点集S',这样显然S^S'内部的边和由S'连向S^S'的边删还是不删任选.但是这样无法保证S'包含所有入度为 ...
Android Dialog 简单封装
转载:https://www.cnblogs.com/zjjne/archive/2013/10/03/3350382.html public class MyAlertDialog { //regi ...
一：Newtonsoft.Json 支持序列化与反序列化的.net 对象类型；
导航目录: Newtonsoft.Json 概述一:Newtonsoft.Json 支持序列化与反序列化的.net 对象类型: 二:C#对象.集合.DataTable与Json内容互转示例: ...
codeforces 1065F Up and Down the Tree
题目链接:codeforces 1065F Up and Down the Tree 题意:给出一棵树的节点数\(n\)以及一次移动的最大距离\(k\),现在有一个标记在根节点1处,每一次可以进行一下 ...

第二节，神经网络中反向传播四个基本公式证明——BackPropagation

第二节，神经网络中反向传播四个基本公式证明——BackPropagation的更多相关文章

随机推荐

热门专题