三.BP神经网络
BP神经网络是包含多个隐含层的网络,具备处理线性不可分问题的能力。以往主要是没有适合多层神经网络的学习算法,,所以神经网络的研究一直处于低迷期。
20世纪80年代中期,Rumelhart,McClelland等成立了Parallel Distributed Procession(PDP)小组,提出了著名的误差反向传播算法(Error Back Propagtion,BP)。
BP和径向基网络属于多层前向神经网络。广泛应用于分类识别、逼近、回归、压缩等领域。
BP神经网络(强调是用BP算法)一般是多层的,其概念和多层感知器(强调多层)差不多是等价的,隐层可以是一层或多层。BP神经网络具有如下特点:
(1)网络由多层构成,层与层之间全连接,同一层之间的神经元无连接。
(2)BP网络的传递函数必须可微。所以感知器的二值函数不能用,一般采用Sigmoid函数,可分为Log-Sigmoid和Tan-Sigmoid函数。
其中x的范围包含整个实数域,函数值再0~1之间。具体应用时可以增加参数,以控制曲线的位置和形状。
sigmoid函数可以将输入从负无穷到正无穷的范围映射到(-1,1)和(0,1)之间,在原点处具有非线性放大功能。BP的典型设计是隐含层采用Sigmoid函数作为传递函数,输出层采用线性函数作为传递函数。(一定不能全部层都采用线性的,否则就会和线性神经网络一样了)
(3)采用误差反向传播算法(Back-Propagation)进行学习。再BP网络中,数据从输入层经隐含层逐层向后传播,训练网络权值时,则沿着减少误差的方向,从输出层经过中间各层逐层向前修正网络连接权值。
(与反馈神经网络不同,BP是误差信号反向传播,网络根据误差从后向前逐层进行修正)
(1)网络由多层构成,层与层之间全连接,同一层之间的神经元无连接。
(2)BP网络的传递函数必须可微。所以感知器的二值函数不能用,一般采用Sigmoid函数,可分为Log-Sigmoid和Tan-Sigmoid函数。
其中x的范围包含整个实数域,函数值再0~1之间。具体应用时可以增加参数,以控制曲线的位置和形状。
sigmoid函数可以将输入从负无穷到正无穷的范围映射到(-1,1)和(0,1)之间,具有非线性放大功能。
(3)采用误差反向传播算法(Back-Propagation)进行学习。再BP网络中,数据从输入层经隐含层逐层向后传播,训练网络权值时,则沿着减少误差的方向,从输出层经过中间各层逐层向前修正网络连接权值。
(与反馈神经网络不同,BP是误差信号反向传播,网络根据误差从后向前逐层进行修正)
(1)网络由多层构成,层与层之间全连接,同一层之间的神经元无连接。
(2)BP网络的传递函数必须可微。所以感知器的二值函数不能用,一般采用Sigmoid函数,可分为Log-Sigmoid和Tan-Sigmoid函数。
其中x的范围包含整个实数域,函数值再0~1之间。具体应用时可以增加参数,以控制曲线的位置和形状。
sigmoid函数可以将输入从负无穷到正无穷的范围映射到(-1,1)和(0,1)之间,具有非线性放大功能。
(3)采用误差反向传播算法(Back-Propagation)进行学习。再BP网络中,数据从输入层经隐含层逐层向后传播,训练网络权值时,则沿着减少误差的方向,从输出层经过中间各层逐层向前修正网络连接权值。
(与反馈神经网络不同,BP是误差信号反向传播,网络根据误差从后向前逐层进行修正)
BP算法的基本思想是,学习过程由信号的正向传播和误差的反向传播俩个过程组成,输入从输入层输入,经隐层处理以后,传向输出层。如果输出层的实际输出和期望输出不符合,就进入误差的反向传播阶段。误差反向传播是将输出误差以某种形式通过隐层向输入层反向传播,并将误差分摊给各层的所有单元,从而获得各层单元的误差信号,这个误差信号就作为修正个单元权值的依据。直到输出的误差满足一定条件或者迭代次数达到一定次数。
使用的传递函数sigmoid可微的特性使他可以使用梯度下降法。所以,在隐层函数中使用sigmoid函数作为传递函数,在输出层采用线性函数作为传递函数。
输入向量、隐层输出向量、最终输出向量、期望输出向量:
X=(x0,x1,x2,x3……xn),其中图中x0是为隐层神经元引入阈值设置的;x0=1
Y=(y0,y1,y2,y3……ym),其中图中y0是为输出神经元引入阈值设置的;y0=1
O=(o1,o2,o3……ol)
D=(d1,d2,d3……dl)
输出层的输入是隐层的输出,隐层的输入是输入层的输出,计算方法和单层感知器的计算方法一样。
BP网络的学习算法
确定层数和每层的神经元个数后,还需直到权值系数才能由输入给出正确的输出。
BP网络的学习属于有监督学习,需要一组已知目标输出的学习样本集。
先使用随机值作为权值,得到网络输出之后与期望输出作对比,然后根据输出值与期望值的计算误差,再由误差根据某种准则逐层修改权值,使得误差减小。
标准BP神经网络沿着误差性能函数梯度的反方向修改权值,原理与LMS算法比较类似,属于最速下降法。此外还有以下改进算法,如动量最速下降法,拟牛顿法等。
最速下降法又称为梯度下降法。LMS算法就是最小均方误差算法。LMS算法体现了纠错原则,与梯度下降法本质上没有区别,梯度下降法可以求目标函数的极小值,如果将目标函数取为均方误差,就得到了LMS算法。
梯度下降法原理:对于实值函数F(x),如果函数在某点x0处有定义且可微,则函数在该点处沿着梯度相反的方向下降最快,因此,使用梯度下降法时,应首先计算函数在某点处的梯度,再沿着梯度的反方向以一定的步长调整自变量的值。其中实值函数指的是传递函数,自变量x指的是上一层权值和输入值的点积作为的输出值。
网络误差定义:
注意:
其中D表示输入数据的正确输出列向量,O表示网络对应层的输出列向量,W表示Wij的转秩矩阵,这就是每层反向传播的误差信号的矩阵计算式。
每一个权值参数的调整原则都是通过求其关于输出误差的导数。然后进行权值的调整。
以上摘选自韩力群《人工神经网络理论,设计及应用》,写的是很详细了
BP神经网络反向传播推导
1.变量定义
在三层神经网络中,假设输入神经元个数为M,隐含神经元个数为I,输出神经元个数为J。
输入层第m个神经元为Xm,隐藏层第i个神经元为Ki,输出层第j个神经元为Yj,从Xm到Ki的链接权值为Wmi,从Ki到Yj的链接权值为Wij,隐藏层使用Sigmoid函数,输出层使用功能线性函数。
U,V表示每层的输入与输出,UI表示输入层的输入,UM表示隐藏层的输入,UJ表示输出层的输入。VI,VM,VJ也与此一一对应。
注意,除了输出层,每一层还应该添加一个单元
网络的实际输出:
- 信号正向传播
- 误差信号反向传播
首先误差反向传播首先经过输出层,所以首先调整隐含层和输出层之间的权值。
然后对输入神经元和隐层神经元的误差进行调整。
权值矩阵的调整可以总结为:
权值调整量det(w)=学习率*局部梯度*上一层输出信号。
BP神经网络的复杂之处在于隐层输入层、隐层和隐层之间的权值调整时,局部梯度的计算需要用到上一步计算的结果,前一层的局部梯度是后一层局部梯度的加权和。
训练方式:
串行方式:网络每获得一个新样本,就计算一次误差并更新权值,直到样本输入完毕。
批量方式:网络获得所有的训练样本,计算所有样本均方误差的和作为总误差;
在串行运行方式中,每个样本依次输入,需要的存储空间更少,训练样本的选择是随机的,可以降低网络陷入局部最优的可能性。
批量学习方式比串行方式更容易实现并行化。由于所有样本同时参加运算,因此批量方式的学习速度往往远优于串行方式。
单样本训练遵循的是只顾眼前的本位主义,只针对每个样本产生的误差训练,难免顾此失彼,使得整个训练次数增加,导致收敛速度过慢。批量训练:
BP神经网络的优点:
- 非线性映射能力
- 泛化能力
- 容错能力 允许输入样本中带有较大误差甚至个别错误。反应正确规律的知识来自全体样本,个别样本中的误差不能左右对权矩阵的调整。
BP神经网络的局限性:
梯度下降法的缺陷:
- 目标函数必须可微;
- 如果一片区域比较平坦会花费较多时间进行训练;
- 可能会陷入局部极小值,而没有到达全局最小值;(求全局极小值的目的是为了实现误差的最小值)
BP神经网络的缺陷:
- 需要的参数过多,而且参数的选择没有有效的方法。确定一个BP神经网络需要知道:网络的层数、每一层神经元的个数和权值。权值可以通过学习得到,如果,隐层神经元数量太多会引起过学习,如果隐层神经元个数太少会引起欠学习。此外学习率的选择也是需要考虑。目前来说,对于参数的确定缺少一个简单有效的方法,所以导致算法很不稳定;
- 属于监督学习,对于样本有较大依赖性,网络学习的逼近和推广能力与样本有很大关系,如果样本集合代表性差,样本矛盾多,存在冗余样本,网络就很难达到预期的性能;
- 由于权值是随机给定的,所以BP神经网络具有不可重现性;
梯度下降法(最速下降法的改进):
针对算法的不足出现了几种BP算法的改进。
- 动量法
动量法是在标准BP算法的权值更新阶段引入动量因子α(0<α<1),使权值修正具有一定惯性,可以看出,在原有的权值调整公式中,加入了动量因子以及上一次的权值改变量。加入的动量项表示本次权值的更新方向和幅度,不但与本次计算所得的梯度有关,还与上一次更新的方向和幅度有关。动量项反映了以前积累的调整经验,对于t时刻的调整起到了阻尼作用。当误差曲面出现骤然起伏时,可减小震荡趋势,提高训练速度。
- 调节学习率法
在平缓区域希望学习率大一点减小迭代次数,在坑凹处希望学习率小一点,较小震荡。所以,为了加速收敛过程,希望自适应改变学习率,在该大的时候大,在该小的时候小。
学习率可变的BP算法是通过观察误差的增减来判断的,当误差以减小的方式区域目标时,说明修正方向是正确的,可以增加学习率;当误差增加超过一定范围时,说明前一步修正进行的不正确,应减小步长,并撤销前一步修正过程。学习率的增减通过乘以一个增量/减量因子实现:
误差曲面上存在着平坦区域,权值调整进入平坦去的原因是神经元输出进入了转移函数的饱和区,如果在调整净土平坦区后,设法压缩神经元的净输入,使其输出退出转移函数的饱和区,就可以改变误差函数的形状,从而使调整脱离平坦区,实现这一思路的具体做法是在原转移函数中引入一个陡度因子:
当发现关于E的偏导接近0而E仍然比较大是,可以判断已经进入了平坦区,此时令陡度影子大于1,当退出了平坦区后,再令陡度因子等于1,当陡度因子大于1时,坐标轴压缩了陡度因子倍,神经元的函数曲线的敏感区变长,从而使得绝对值较大的netk退出饱和值。该方法对于提高BP算法的收敛速度十分有效。
BP神经网络的设计:
BP神经网络采用有监督学习。解决具体问题时,首先需要一个训练集。然后神经网络的设计主要包括网络层数、输入层节点数、隐层节点数、输出层节点数、以及传输函数、训练方法、训练参数。
(一)输入输出数据的预处理:尺度变换。尺度变化也称为归一化或者标准化,是指变换处理将网络的输入、输出数据限制在[0,1]或者[-1,1]区间内。进行变换的原因是,(1)网络的各个输入数据常常具有不同的物理意义和不同的量纲。尺度变换使所有分量都在一个区间内变化,从而使网络训练一开始就给各输入分量以同等重要的地位;(2)BP神经网络神经元均采用sigmoid函数,变换后可防止因净输入的绝对值过大而使神经元输出饱和,继而使权值调整进入误差曲面的平坦区;(3)sigmoid函数输出在区间[0,1]或者[-1,1]内,如果不对期望输出数据进行变换处理,势必使数值大的分量绝对误差大,数值小的分量绝对误差小。
(二)神经网络结构设计
1)网络层数 BP神经网络最多只需要俩个隐层,在设计的时候一般先只考虑设一个隐层,当一个隐层的节点数很多但是依然不能改善网络情况时,才考虑增加一个隐层。经验表明,如果在第一个隐层较多的节点数,第二个隐层较少的节点数,可以改善网络性能。
2)输入层节点数 输入层节点数取决于输入向量的维数。应用神经网络解决实际问题时,首先应从问题中提炼出一个抽象模型。如果输入的是64*64的图像,则输入向量应为图像中左右的像素形成的4096维向量。如果待解决的问题是二院函数拟合,则输入向量应为二维向量。
3)隐层节点数设计 隐含节点数对BP神经网络的性能有很大影响,一般较多的隐含层节点数可以带来更好的性能,但是导致训练时间过长。通常是采用经验公式给出估计值:
4)输出层神经元个数
5)传递函数的选择 一般隐层选择sigmoid函数,输出层选择线性函数。如果也使用sigmoid函数,则输出值将会被限制在(0,1)或者(-1,1)之间。
6)训练方法的选择 一般来说,对于包含数百个权值的函数逼近网络,使用LM算法收敛速度最快,均方误差也小,但是LM算法对于模式识别相关问题的处理能力较弱,且需要较大的存储空间。对于模式识别问题,使用RPROP算法能收到较好的效果。SCG算法对于模式识别和函数逼近都有较好的性能表现。串行方式需要更小的存储空间,且输入样本具有一定随机性,可以避免陷入局部最优。批量方式的误差收敛条件非常简单,训练速度快。
7)初始权值的确定 BP网络采用迭代更新的方式确定权值,因此需要一个初始值,一般初始值都是随机确定的,这容易造成网络的不可重现性,初始值过大过小都会对性能造成巨大影响,通常将初始权值定义为较小的非零随机值,经验值为:其中F为权值输入端连接的神经元个数。
Python实现BP神经网络
#! /usr/bin/env python
# -*- coding:utf-8 -*-
import random
import numpy as np
from tensorflow.examples.tutorials.mnist import input_data
# 下载mnist数据集
mnist = input_data.read_data_sets('/tmp/', one_hot=True) class BpNetwork(object): def __init__(self, sizes):
"""
The list 'sizes' contains the number of neurons in the respective
layers of the network. For example,if the list was [2, 3, 1] then
it would be a three-layer network, with the first layer containing
2 layer, the second layer 3 neurons and the third layer 1 neuron.
The bases and weights for network are initialized randomly, using a
Gaussian distribution with mean 0 and variance 1.
Note that the first layer is assumed to be an input layer, and by
convention we won't set any biases for those neurons, since biases
only ever used in computing the outputs from later layers.
:param sizes: list contains the number of neurons in every layer.
"""
self.num_layers = len(sizes)
self.sizes = sizes
self.biases = [np.random.randn(y, 1) for y in sizes[1:]]
self.weights = [np.random.randn(y, x) for x, y in zip(sizes[:-1], sizes[1:])] def feed_forward(self, a):
"""
Return the output of the network if 'a' is input
"""
for b, w in zip(self.biases, self.weights):
a = sigmoid(np.dot(w, a) + b)
return a def stochastic_gradient_descent(self, training_data, epochs, mini_batch_size, eta, test_data=None):
"""
Train the neural network using mini-batch stochastic gradient descent.
:param training_data: a list of tuples '(x,y)' x representing the training input
y representing the desired output
:param epochs:
:param mini_batch_size:
:param eta: learning rate
:param test_data: if 'test_data' is provided then the network will be evaluated
against the test data after each epoch, and progress printed out.
:return:
"""
n = len(training_data)
for j in range(epochs):
random.shuffle(training_data)
mini_batches = [
training_data[k:k+mini_batch_size]
for k in rang(0, n, mini_batch_size)]
for mini_batch in mini_batches:
self.update_mini_batch(mini_batch, eta)
if test_data:
print("Epoch {0}: {1} / {2}".format(j, self.evaluate(test_data), len(test_data)))
else:
print("Epoch {0} complete".format(j)) def update_mini_batch(self, mini_batch, eta):
"""Update the network's weights and biases by applying gradient descent
using back propagation to a single mini batch.
:parameter mini_batch: is a list of tuple "(x,y)" ,
:parameter eta: learning rate"""
nabla_b = [np.zeros(b.shape) for b in self.biases]
nabla_w = [np.zeros(w.shape) for w in self.weights]
for x, y in mini_batch:
delta_nabla_b, delta_nabla_w = self.backprop(x, y)
nabla_b = [nb + dnb for nb, dnb in zip(nabla_b, delta_nabla_b)]
nabla_w = [nw + dnw for nw, dnw in zip(nabla_w, delta_nabla_w)]
self.weights = [w - (eta/len(mini_batch))*nw for w,nw in zip(self.weights, nabla_wa)]
self.biases = [b - (eta/len(mini_batch))*nb for b, nb in zip(self.biases, nable_b)] def back_prop(self, x, y):
"""
:param x: training data
:param y: desired output target
:return: a tuple "(nabla_b, nabla_w)" representing the gradient for the
cost function.
"""
nabla_b = [np.zeros(b.shape) for b in self.biases]
nabla_w = [np.zeros(w.shape) for w in self.weights]
activation = x
activations = [x] # list to store all the output values
zs = [] # list to store all the z vectors
for b, w in zip(self.biases, self.weights):
z = np.dot(w, activation) + b
zs.apppend(z)
activation = sigmoid(z)
activations.append(activation)
delta = self.cost_derivative(activations[-1], y) * sigmoid_prime(zs[-1])
nabla_b[-1] = delta
nabla_w[-1] = np.dot(delta, activations[-2].T)
for l in range(2, self.num_layers):
z = zs[-l]
sp = sigmoid_prime(z)
delta = np.dot(self.weights[-l + 1].T, delta) * sp
nabla_b[-l] = delta
nabla_w[-l] = np.dot(delta, activations[-l-1].T)
return nabla_b, nabla_w def evaluate(self, test_data):
"""
:param test_data:
:return: return the number of test inputs for which the neural output is the
correct result.
"""
test_results = [(np.argmax(self.feed_forward(x)), y)
for (x, y) in test_data]
return sum(int(x == y) for (x, y) in test_results) @staticmethod
def cost_derivative( output_activations, y):
"""
:param output_activations:
:param y:
:return: Return the vector of partial derivatives for the output activations.
"""
return output_activations - y def sigmoid(x):
"""The sigmoid function."""
return 1.0 / (1.0 + np.exp(-x)) def sigmoid_prime(x):
"""Derivative of the sigmoid function."""
return sigmoid(x) * (1 - sigmoid(x)) training_data, validation_data, test_data = mnist.train, mnist.validation, mnist.test
net = BpNetwork([784, 30, 10])
net.stochastic_gradient_descent(training_data, 30, 10, 3, test_data=test_data)
上面代码中不仅给出了BP神经网络代码,还运用代码处理了mnist数据集。
三.BP神经网络的更多相关文章
- BP神经网络原理及python实现
[废话外传]:终于要讲神经网络了,这个让我踏进机器学习大门,让我读研,改变我人生命运的四个字!话说那么一天,我在乱点百度,看到了这样的内容: 看到这么高大上,这么牛逼的定义,怎么能不让我这个技术宅男心 ...
- 数据挖掘系列(9)——BP神经网络算法与实践
神经网络曾经很火,有过一段低迷期,现在因为深度学习的原因继续火起来了.神经网络有很多种:前向传输网络.反向传输网络.递归神经网络.卷积神经网络等.本文介绍基本的反向传输神经网络(Backpropaga ...
- BP神经网络推导过程详解
BP算法是一种最有效的多层神经网络学习方法,其主要特点是信号前向传递,而误差后向传播,通过不断调节网络权重值,使得网络的最终输出与期望输出尽可能接近,以达到训练的目的. 一.多层神经网络结构及其描述 ...
- 极简反传(BP)神经网络
一.两层神经网络(感知机) import numpy as np '''极简两层反传(BP)神经网络''' # 样本 X = np.array([[0,0,1],[0,1,1],[1,0,1],[1, ...
- 机器学习(一):梯度下降、神经网络、BP神经网络
这几天围绕论文A Neural Probability Language Model 看了一些周边资料,如神经网络.梯度下降算法,然后顺便又延伸温习了一下线性代数.概率论以及求导.总的来说,学到不少知 ...
- 基于Storm 分布式BP神经网络,将神经网络做成实时分布式架构
将神经网络做成实时分布式架构: Storm 分布式BP神经网络: http://bbs.csdn.net/topics/390717623 流式大数据处理的三种框架:Storm,Spark和Sa ...
- 【机器学习】BP神经网络实现手写数字识别
最近用python写了一个实现手写数字识别的BP神经网络,BP的推导到处都是,但是一动手才知道,会理论推导跟实现它是两回事.关于BP神经网络的实现网上有一些代码,可惜或多或少都有各种问题,在下手写了一 ...
- 【转】漫谈ANN(2):BP神经网络
上一次我们讲了M-P模型,它实际上就是对单个神经元的一种建模,还不足以模拟人脑神经系统的功能.由这些人工神经元构建出来的网络,才能够具有学习.联想.记忆和模式识别的能力.BP网络就是一种简单的人工神经 ...
- BP神经网络基本原理
2.1 BP神经网络基本原理 BP网络模型处理信息的基本原理是:输入信号Xi通过中间节点(隐层点)作用于输出节点,经过非线形变换,产生输出信号Yk,网络训练的每一个样本包含输入向量X和期望输出量t,网 ...
随机推荐
- day49作业
结合前端,django,MySQL,pymysql模块实现数据库数据动态展示到前端 效果图: 数据交互流程 urls.py代码: from django.conf.urls import url fr ...
- ArcMap中给点shp添加字段后,shp文件破坏无法打开
这两天遇到一个奇怪的问题,在整理项目中的建筑物数据时发现,有几个图层进行字段添加后出现问题,shp文件被损坏了.这问题很隐蔽,给shp添加字段后不报错,进行赋值,报错如下: 但是无论是选择“是”还是“ ...
- 常用 docker 容器 使用
mongo: 单点 docker run -idt --name=mongo --restart=always -p : -v /home/hylas/opt/mongo/data:/data/db ...
- PAT甲级——A1065 A+B and C (64bit)
Given three integers A, B and C in [−], you are supposed to tell whether A+B>C. Input Specificati ...
- 注册.NET Framework
C:\Windows\Microsoft.NET\Framework\v4.0.30319\aspnet_regiis.exe /i
- Flink中的多source+event watermark测试
这次需要做一个监控项目,全网日志的指标计算,上线的话,计算量应该是百亿/天 单个source对应的sql如下 最原始的sql select pro,throwable,level,ip,`count` ...
- django2.x报错No module named 'django.core.urlresolvers'b
解决方法就是: from django.urls import reverse 最近从django1.9迁移到django2.0中出现一个意外的报错: 这个报错的原因在stack overflow上有 ...
- JasperReport编译报表设计5
我们在前面的章节中产生的JasperReport模板(JRXML文件).这个文件不能直接用于生成报告.它必须被编译成JasperReport的“本地二进制"格式,称为Jasperfile.在 ...
- Luogu P2486 [SDOI2011]染色(树链剖分+线段树合并)
Luogu P2486 [SDOI2011]染色 题面 题目描述 输入输出格式 输入格式: 输出格式: 对于每个询问操作,输出一行答案. 输入输出样例 输入样例: 6 5 2 2 1 2 1 1 1 ...
- 未加星标 Linux磁盘下查看I/O磁盘的性能
iostat查看linux硬盘IO性能 rrqm/s:每秒进行merge的读操作数目.即delta(rmerge)/s wrqm/s:每秒进行merge的写操作数目.即delta(wmerge)/s ...