转自博客园@编程De： http://www.cnblogs.com/jzhlin/archive/2012/07/28/bp.html

http://blog.sina.com.cn/s/blog_88f0497e0102v79c.html

从神经网络的生物模型说起

我们知道人大脑信息的传递、对外界刺激产生反应都由神经元控制的，人脑就是由上百亿个的这样神经元构成。这些神经元之间并不孤立而且联系很密切，每个神经元平均与几千个神经元相连接，因此构成了人脑的神经网络。刺激在神经网络中的传播是遵循一定的规则的，一个神经元并非每次接到其他神经传递过来的刺激都产生反应。它首先会将与其相邻的神经元传来的刺激进行积累，到一定的时候产生自己的刺激将其传递给一些与它相邻的神经元。这样工作的百亿个的神经元构成了人脑对外界进行的反应。而人脑对外界刺激的学习的机制就是通过调节这些神经元之间联系以及其强度。当然，实际上以上说的是对人脑真正神经工作的一种简化的生物模型，利用这种简化的生物模型可以将它推广至机器学习中来，并把它描述成人工神经网络。BP神经网络就是其中的一种，来看看具体对神经元的分析。

图1 神经网络中神经元示意图

神经元的积累的刺激是由其他神经元传递过来的刺激量和对应的权重之和，用 X_j表示这种积累，Y_i表示某个神经元传递过来的刺激量，W_i表示链接某个神经元刺激的权重，得到公式：

X_j = (y₁ * W₁)+(y₂ * W₂)+...+(y_i * W_i)+...+ (y_n * W_n)

而当 X_j完成积累后，完成积累的神经元本身对周围的一些神经元传播刺激，将其表示为 y_j 得到如下所示：

y_j = f（X_j）

神经元根据积累后 X_j的结果进行处理后，对外传递刺激 y_j 。用 f 函数映射来表示这种处理，将它称之为 激活函数。

BP神经网络的构成

分析完单个的神经元后，再来看看它们组成网络后的情形，用图形来说明是最直观的方法，如图2所示：

图2 BP神经网络示意图

第一区域的来说，它们相当于外界的刺激，是刺激的来源并且将刺激传递给神经元，因此把第一区域命名为输入层。第二区域，表示神经元相互之间传递刺激相当于人脑里面，因此把第二区命名为隐藏层。第三区域，表示神经元经过多层次相互传递后对外界的反应，因此把第三区域命名为输出层。

简单的描述就是，输入层将刺激传递给隐藏层，隐藏层通过神经元之间联系的强度（权重）和传递规则（激活函数）将刺激传到输出层，输出层整理隐藏层处理的后的刺激产生最终结果。若有正确的结果，那么将正确的结果和产生的结果进行比较，得到误差，再逆推对神经网中的链接权重进行反馈修正，从而来完成学习的过程。这就是BP神经网的反馈机制，也正是BP（Back Propagation）名字的来源：运用向后反馈的学习机制，来修正神经网中的权重，最终达到输出正确结果的目的！

BP神经网络的数学推导

从数学上对BP神经网络模型进行分析，本文第一部分神经网的生物模型中可以得到关于BP神经网络的第一个公式(1)：

对于神经元本身的输出的激活函数，一般来说选取 Sigmoid 函数，那么可以得到第二个公式（2）：

通过以上两个公式，可以分析出来BP神经网络中输出结果的计算过程。每个神经元收到刺激 y_i 然后加权积累（权重 W_ji ）完成后产生 x_j，再通过激活函数产生刺激 y_j，向下一层与它相连的神经元传递，依次类推最终输出结果。

我们再来分析如何利用向后反馈机制来修正神经元权重 W_ji，这一部分数学推导需要运用到多元微分的数学内容。要修正 W_ji就需要得到误差量。具体来看，首先用 d_j 来表示真实的正确结果，并且设误差为 E ，那么（ y_j- d_j）对应的就是 E 对于 y_j 的微分增量，即 y_j 减去（ y_j- d_j）后就能得到正确值，得到公式（3）：

这个就是对yj求导

然后，明确目标，需要知道的是对于权重 W_ji的误差量是多少也就是的值。而由公式（1）中知道 W_ji与 x_j相关，那么可以推导出公式（4）：

需要求得 W_ji的误差量，转换为需要求的值了。它的推导如下：

其中的值，可以通过公式（2）求导得出来：

所以最终得到的的误差量的值为：

以上公式需要注意下标：最后一个是 y_i，前面的都是 y_j。推到这里可以算是完成了运用神经网络的输出值 y_j 和正确值 d_j 对最后一层隐藏层 W_ji的修正，那么对其他隐藏层呢？接着往下看。

上面的推导过程由公式（3）开始，如果我们知道（注意是 y_i，公式（3）中是 y_j），就可以同理推导求出其对应其他隐藏层需要修正的权重值误差量了。推导如下：

这样所有的误差量的都可以同理推导完成！

这步推到只推出了三个连乘的第一个，后面两个值与那层的变量相关，随意结果只是下标改改。

最后一步修正 W_ji ，就是加上下面变量了，设置一个 l （0 到 1 之间）学习率。

为啥要乘上呢l呢，理解是一点点的去减少调整这个误差，设置值太小，慢，设置值太大，步长就大，这l也应该是一个值得考虑的问题。

至此，BP神经网络反馈部分的数学推导算完成了，可以在自己的草稿纸上画画~

写在后面：梯度下降有个问题是容易陷入局部最小值的问题。如果这个问题不了解的话，那可以回想回想一个3d平面，有若干坑，如果随机点沿着下降最快的地方去跑，很可能跑到了一个小坑里面，却没有跑到真正的全局最小值的坑里。

从博文的评论中看到该问作者实现了这个神经网络，但是没有使用这个梯度下降的模型。呵呵，这个就算是理解什么是神经网络，什么是从后面往前推导的过程。下面待学习的就是评论中提到的动量因子模型。

作者实现实现了动量因子模型，代码：

http://www.cnblogs.com/jzhlin/archive/2012/07/30/bp_c.html

http://www.cnblogs.com/jzhlin/archive/2012/08/01/bp_c2.html

以及还要看的：

bp.html

BP神经网络原理详解的更多相关文章

深度学习之卷积神经网络(CNN)详解与代码实现（一）
卷积神经网络(CNN)详解与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10430073.html 目 ...
Batchnorm原理详解
Batchnorm原理详解前言:Batchnorm是深度网络中经常用到的加速神经网络训练,加速收敛速度及稳定性的算法,可以说是目前深度网络必不可少的一部分. 本文旨在用通俗易懂的语言,对深度学习的常 ...
【转载】深度学习之卷积神经网络(CNN)详解与代码实现（一）
原文地址: https://www.cnblogs.com/further-further-further/p/10430073.html ------------------------------ ...
CRF(条件随机场)与Viterbi(维特比)算法原理详解
摘自:https://mp.weixin.qq.com/s/GXbFxlExDtjtQe-OPwfokA https://www.cnblogs.com/zhibei/p/9391014.html C ...
I2C 基础原理详解
今天来学习下I2C通信~ I2C(Inter-Intergrated Circuit)指的是 IC(Intergrated Circuit)之间的(Inter) 通信方式.如上图所以有很多的周边设备都 ...
Zigbee组网原理详解
Zigbee组网原理详解来源:互联网作者:佚名2015年08月13日 15:57 [导读] 组建一个完整的zigbee网状网络包括两个步骤:网络初始化.节点加入网络.其中节点加入网络又包括两个 ...
块级格式化上下文(block formatting context)、浮动和绝对定位的工作原理详解
CSS的可视化格式模型中具有一个非常重要地位的概念——定位方案.定位方案用以控制元素的布局,在CSS2.1中,有三种定位方案——普通流.浮动和绝对定位: 普通流:元素按照先后位置自上而下布局,inli ...
SSL/TLS 原理详解
本文大部分整理自网络,相关文章请见文后参考. SSL/TLS作为一种互联网安全加密技术,原理较为复杂,枯燥而无味,我也是试图理解之后重新整理,尽量做到层次清晰.正文开始. 1. SSL/TLS概览 1 ...
锁之“轻量级锁”原理详解(Lightweight Locking)
大家知道,Java的多线程安全是基于Lock机制实现的,而Lock的性能往往不如人意. 原因是,monitorenter与monitorexit这两个控制多线程同步的bytecode原语,是JVM依赖 ...

随机推荐

源码包安装Python3.6
1,安装Python3.6的依赖包 # yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel r ...
CMOS构成的常见电路
CMOS门电路以MOS(Metal-Oxide Semiconductor)管作为开关元件的门电路称为MOS门电路.由于MOS型集成门电路具有制造工艺简单.集成度高.功耗小以及抗干扰能力强等优点,因 ...
【CF873F】Forbidden Indices 后缀自动机
[CF873F]Forbidden Indices 题意:给你一个串s,其中一些位置是危险的.定义一个子串的出现次数为:它的所有出现位置中,不是危险位置的个数.求s的所有子串中,长度*出现次数的最大值 ...
Java虚拟机一
Java发展至今,出现了很多Java虚拟机,从最初的Classic的Java虚拟机到Exact VM虚拟机,到现在最终被大规模部署和应用的是Hotspot虚拟机. 整数在Java虚拟机中的 ...
nginx虚拟目录配置
参考文章:https://blog.csdn.net/whatday/article/details/50649461 1. location ~ ^/awstats/ { root /home/aw ...
Springmvc配置文件application.xml 和 spring-servlet.xml
文章来源:http://blog.csdn.net/tengdazhang770960436/article/details/48395885 1.SpringMVC 的配置分为两部分 applica ...
windows下的C++与cuda编译器位置
在windows下最常见的C++编译器为visual studio自带的编译器cl.exe 通常其所在目录为: C:\Program Files (x86)\Microsoft Visual Stud ...
Linux下磁盘扩容的两种方式
Hadoop扩容概述 Hadoop存储容量或计算能力不能满足日益增长的需求时,就需要扩容. 扩容有两个方案: 1) 增加磁盘 2) 增加节点方案一:扩大虚拟磁盘扩大容量将虚拟的Linux关闭, ...
easyui---基础组件：window
window 依赖下面三个组件,就是继承,所以下面的特性和方法事件都可以用 draggable resizable panel window 和panel不同之处,可以有拖拽移动draggable, ...
打jar包
1.在文件夹中新建文件manifest.mf 2.在dos窗口中jar cvfm 名字.jar manifest.mf 所有的编译的类class,中间有空格 3.在dos窗口java -jar 名字 ...

BP神经网络原理详解