在监督学习中，传统的机器学习算法优化过程是采用一个合适的损失函数度量训练样本输出损失，对损失函数进行优化求最小化的极值，相应一系列线性系数矩阵W，偏置向量b即为我们的最终结果。在DNN中，损失函数优化极值求解的过程一般采用梯度下降法、牛顿法或拟牛顿法等迭代方法来迭代完成。对DNN的损失函数用梯度下降法进行迭代优化求极小值的过程即为反向传播算法，可以使用多种损失函数和激活函数。

1. 均方差损失函数+Sigmoid激活函数

Sigmoid激活函数的表达式为：

σ(z)的函数图像如下：

对于Sigmoid，当z的取值越来越大后，函数曲线变得越来越平缓，意味着此时的导数σ′(z)也越来越小。同样的，当z的取值越来越小时，也有这个问题。仅仅在z取值为0附近时，导数σ′(z)的取值较大。

缺点：反向传播算法中，每一层向前递推都要乘以σ′(z)，得到梯度变化值。Sigmoid的这个曲线意味着在大多数时候，我们的梯度变化值很小，导致我们的W、b更新到极值的速度较慢，也就是我们的算法收敛速度较慢。

2. 交叉熵损失函数+Sigmoid激活函数

Sigmoid的函数特性导致反向传播算法收敛速度慢的问题，有两种改进策略：1）换激活函数；2）使用交叉熵损失函数来代替均方差损失函数：使用交叉熵得到的的δ^l梯度表达式没有σ′(z)，梯度为预测值和真实值的差距，这样求得的W^l,b^l也不包含σ′(z)，因此避免了反向传播收敛速度慢的问题。

3. 对数似然损失函数和softmax激活函数

上述输出是连续可导的值，但如果是分类问题，输出是一个个的类别时，假设对三个类别进行分类，输出层应该有三个神经元，假设第一个神经元对应类别一，第二个对应类别二，第三个对应类别三，这样我们期望的输出应该是(1,0,0)、(0,1,0)和(0,0,1)这三种。即样本真实类别对应的神经元输出应该无限接近或者等于1，而非改样本真实输出对应的神经元的输出应该无限接近或者等于0。或者输出层的神经元对应的输出是若干个概率值，这若干个概率值即DNN模型对于输入值对于各类别的输出预测，同时满足概率模型，这若干个概率值之和应该等于1。分类模型要求是输出层神经元输出的值在0到1之间，同时所有输出值之和为1。

Softmax激活函数的表达式为：

其中，n^L是输出层第L层的神经元个数，或者说我们的分类问题的类别数。

Softmax激活函数在前向传播算法时：

反向传播：假设真实类别是第i类，则其他不属于第i类序号对应的神经元的梯度导数直接为0。对于真实类别第i类，它的W_i^L对应的梯度为(a_i^L−1)a_i^L−1，b_i^L的梯度为a_i^L−1。举个例子，假如我们对于第2类的训练样本，通过前向算法计算的未激活输出为（1,5,3），则我们得到softmax激活后的概率输出为：(0.015,0.866,0.117)。由于我们的类别是第二类，则反向传播的梯度应该为：(0.015,0.866-1,0.117)。

梯度消失&梯度爆炸：在反向传播算法过程中，由于使用矩阵求导的链式法则，有一大串连乘，如果连乘的数字在每层都是小于1的，则梯度越往前乘越小，导致梯度消失；连乘的数字在每层都是大于1的，则梯度越往前乘越大，导致梯度爆炸。

1）对于梯度爆炸，一般可以通过调整DNN模型中的初始化参数来解决；

2）对于梯度消失，可部分解决梯度消失问题的办法是使用ReLU（Rectified Linear Unit）激活函数，ReLU在卷积神经网络CNN中已得到广泛应用。

　　ReLU激活函数表达式为：

　　大于等于0则不变，小于0则激活后为0。

反向传播算法-损失函数&激活函数的更多相关文章

稀疏自动编码之反向传播算法（BP）
假设给定m个训练样本的训练集,用梯度下降法训练一个神经网络,对于单个训练样本(x,y),定义该样本的损失函数: 那么整个训练集的损失函数定义如下: 第一项是所有样本的方差的均值.第二项是一个归一化项( ...
深度神经网络（DNN）反向传播算法(BP)
在深度神经网络(DNN)模型与前向传播算法中,我们对DNN的模型和前向传播算法做了总结,这里我们更进一步,对DNN的反向传播算法(Back Propagation,BP)做一个总结. 1. DNN反向 ...
卷积神经网络(CNN)反向传播算法
在卷积神经网络(CNN)前向传播算法中,我们对CNN的前向传播算法做了总结,基于CNN前向传播算法的基础,我们下面就对CNN的反向传播算法做一个总结.在阅读本文前,建议先研究DNN的反向传播算法:深度 ...
循环神经网络(RNN)模型与前向反向传播算法
在前面我们讲到了DNN,以及DNN的特例CNN的模型和前向反向传播算法,这些算法都是前向反馈的,模型的输出和模型本身没有关联关系.今天我们就讨论另一类输出和模型间有反馈的神经网络:循环神经网络(Rec ...
LSTM模型与前向反向传播算法
在循环神经网络(RNN)模型与前向反向传播算法中,我们总结了对RNN模型做了总结.由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进,得到了RNN的特例LSTM(Long ...
机器学习 —— 基础整理（七）前馈神经网络的BP反向传播算法步骤整理
这里把按 [1] 推导的BP算法(Backpropagation)步骤整理一下.突然想整理这个的原因是知乎上看到了一个帅呆了的求矩阵微分的方法(也就是 [2]),不得不感叹作者的功力.[1] 中直接使 ...
人工神经网络反向传播算法（BP算法）证明推导
为了搞明白这个没少在网上搜,但是结果不尽人意,最后找到了一篇很好很详细的证明过程,摘抄整理为 latex 如下. (原文:https://blog.csdn.net/weixin_41718085/a ...
神经网络之反向传播算法（BP）公式推导（超详细）
反向传播算法详细推导反向传播(英语:Backpropagation,缩写为BP)是"误差反向传播"的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见 ...
TensorFlow从0到1之TensorFlow实现反向传播算法（21）
反向传播(BPN)算法是神经网络中研究最多.使用最多的算法之一,它用于将输出层中的误差传播到隐藏层的神经元,然后用于更新权重. 学习 BPN 算法可以分成以下两个过程: 正向传播:输入被馈送到网络,信 ...

随机推荐

论文阅读：Offloading Distributed Applications onto SmartNICs using iPipe
摘要: 包含丰富计算资源的新兴多核SoC SmartNIC具有卸载通用数据中心服务器任务的潜力,但是目前尚不清楚如何有效地使用SmartNIC并最大程度地减少卸载收益,尤其是对于分布式应用程序. 为此 ...
django + jquery 实现二级联动
二级联动用ajax还是很好实现的,下面简单给个例子 jquery代码 $("#id_sel").change(function(){ $.get("/browser/ge ...
python 手动拼接json数据
第一步:分别拼接为字符串第二步:将字符串转化为list 第三歩:将两个list合并为dict 第四步:将dict转换为接送数据如: import json keys = ['a', 'b', ' ...
博主的OI流水账
2017.8.4 入坑OI 2017.11.11 参加了NOIP2017提高组,0+85+0+30+50+0=165,荣获省二(具体分数其实记不清了反正差不多吧) 2018.2 学会树状数组,线段树 ...
python学习之路（21）
偏函数 Python的functools模块提供了很多有用的功能,其中一个就是偏函数(Partial function).要注意,这里的偏函数和数学意义上的偏函数不一样. 在介绍函数参数的时候,我们讲 ...
json转换时 java.lang.ClassNotFoundException: org.apache.commons.lang.exception.NestableRuntimeException
java.lang.ClassNotFoundException: org.apache.commons.lang.exception.NestableRuntimeException 遇到这种问题是 ...
如何求ArrayList集合的交集并集差集去重复并集
需要用到List接口中定义的几个方法: addAll(Collection<? extends E> c) :按指定集合的Iterator返回的顺序将指定集合中的所有元素追加到此列表的末尾 ...
LeetCode 15. 三数之和（3Sum）
题目描述给定一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a + b + c = 0 ?找出所有满足条件且不重复的三元组. 注意:答案中不可以包含重复 ...
LeetCode 11. 盛最多水的容器（Container With Most Water）
题目描述给定 n 个非负整数 a1,a2,...,an,每个数代表坐标中的一个点 (i, ai) .画 n 条垂直线,使得垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0).找出其中的两 ...
有关ajax中的URL问题
url : ../../Service/MSD_Maintain.ashx/?action=Add4T2 url : Handler/MaintainHandler.ashx/?action= ...

反向传播算法-损失函数&激活函数

1. 均方差损失函数+Sigmoid激活函数

2. 交叉熵损失函数+Sigmoid激活函数

3. 对数似然损失函数和softmax激活函数

反向传播算法-损失函数&激活函数的更多相关文章

随机推荐

热门专题