基础：逻辑回归

Logistic 回归模型的参数估计为什么不能采用最小二乘法？

logistic回归模型的参数估计问题不能“方便地”定义“误差”或者“残差”。

对单个样本：

第i层的权重W^[i]维度的行等于i层神经元的个数，列等于i-1层神经元的个数；第i层常数项b[i]b[i]维度的行等于i层神经元的个数，列始终为1。

对m个样本,用for循环不如用矩阵快，输入矩阵X的维度为（n_x,m），n_x是输入层特征数目。

其中，Z^[1]的维度是（4,m），4是隐藏层神经元的个数；A^[1]的维度与Z^[1]相同；Z^[2]和A^[2]的维度均为（1,m）。行表示神经元个数，列表示样本数目m。

一文弄懂神经网络中的反向传播法——BackPropagation

反向传播推导

输出层---->隐含层

以w5为例，更新的是权值：

1.计算总误差

分别计算o1和o2的误差，总误差为两者之和

2.链式法则

计算：

最后三者相乘：

更新w5的值：

隐含层---->隐含层

方法其实与上面说的差不多，但是有个地方需要变一下，在上文计算总误差对w5的偏导时，是从out(o1)---->net(o1)---->w5,但是在隐含层之间的权值更新时，是out(h1)---->net(h1)---->w1,而out(h1)会接受E(o1)和E(o2)两个地方传来的误差，所以这个地方两个都要计算。

先计算：***************************

因为在正向传播中E_o1：

out_o1：

带入的话就是对net_o1求导，所以：

为了简化公式，用sigma(h1)表示隐含层单元h1的误差：

最后，更新w1的权值：

softmax反向传播

手打例子一步一步带你看懂softmax函数以及相关求导过程

交叉熵函数形式如下：

其中y代表我们的真实值，a代表我们softmax求出的值。i代表的是输出结点的标号

在真实中，如果只预测一个结果，那么在目标中只有一个yi结点的值为1，哎呀，这太好了，除了一个为1，其它都是0，那么所谓的求和符合，就是一个幌子，我可以去掉啦！

那么Loss就变成了Loss = -yjlnaj(yj,aj的j均为下标，公式不好打),累和已经去掉了，太好了。现在我们要开始求导数了！

我们在整理一下上面公式，为了更加明白的看出相关变量的关系：

其中yj=1,,那么形式变为 Loss = -lnaj

这里分为俩种情况：

这里i是aj的softmax函数分子z的下标

j=i对应例子里就是如下图所示：

比如我选定了j为4，那么就是说我现在求导传到4结点这！

那么由上面求导结果再乘以交叉熵损失函数求导

Loss = -lnaj,它的导数为-1/aj,与上面的aj(1-aj)相乘为aj-1（形式非常简单，这说明我只要正向求一次得出结果，然后反向传梯度的时候，只需要将它结果减1即可，后面还会举例子！）那么我们可以得到Loss对于4结点的偏导就求出了了（这里假定4是我们的预计输出）

第二种情况为：

这里对应我的例子图如下，我这时对的是j不等于i，往前传

那么由上面求导结果再乘以交叉熵损失函数求导

Loss = -lnaj,它的导数是-1/aj,与上面-ajai相乘为ai（形式非常简单，这说明我只要正向求一次得出结果，然后反向传梯度的时候，只需要将它结果保存即可，后续例子会讲到）

下面我举个例子来说明为什么计算会比较方便，给大家一个直观的理解

举个例子，通过若干层的计算，最后得到的某个训练样本的向量的分数是[ 2, 3, 4 ],

那么经过softmax函数作用后概率分别就是=[e^2/(e^2+e^3+e^4),e^3/(e^2+e^3+e^4),e^4/(e^2+e^3+e^4)] = [0.0903,0.2447,0.665],如果这个样本正确的分类是第二个的话，那么计算出来的偏导就是[0.0903,0.2447-1,0.665]=[0.0903,-0.7553,0.665]，是不是非常简单！！然后再根据这个进行back propagation就可以了

浅层神经网络反向传播推导：MSE softmax的更多相关文章

ubuntu之路——day5(今天看了浅层神经网络的数学推导过程)
1.初始化 2.前向传播导数比较好理解 3.反向传播全符号积分的推导看得我头有点晕最后唤起我依稀的线代回忆感谢吴恩达老师的反向传播讲解,第一遍看的有点晕,然后仔细看了一下又找了个B站的推导就懂 ...
人工神经网络反向传播算法（BP算法）证明推导
为了搞明白这个没少在网上搜,但是结果不尽人意,最后找到了一篇很好很详细的证明过程,摘抄整理为 latex 如下. (原文:https://blog.csdn.net/weixin_41718085/a ...
【python实现卷积神经网络】卷积层Conv2D反向传播过程
代码来源:https://github.com/eriklindernoren/ML-From-Scratch 卷积神经网络中卷积层Conv2D(带stride.padding)的具体实现:https ...
Andrew Ng - 深度学习工程师 - Part 1. 神经网络和深度学习（Week 3. 浅层神经网络）
=================第3周浅层神经网络=============== ===3..1 神经网络概览=== ===3.2 神经网络表示=== ===3.3 计算神经网络的输出== ...
吴恩达《深度学习》-第一门课 (Neural Networks and Deep Learning)-第三周：浅层神经网络(Shallow neural networks) -课程笔记
第三周:浅层神经网络(Shallow neural networks) 3.1 神经网络概述(Neural Network Overview) 使用符号$ ^{[
deeplearning.ai 神经网络和深度学习 week3 浅层神经网络听课笔记
1. 第i层网络 Z[i] = W[i]A[i-1] + B[i],A[i] = f[i](Z[i]). 其中, W[i]形状是n[i]*n[i-1],n[i]是第i层神经元的数量: A[i-1]是第 ...
deeplearning.ai 神经网络和深度学习 week3 浅层神经网络
1. 第i层网络 Z[i] = W[i]A[i-1] + B[i],A[i] = f[i](Z[i]). 其中, W[i]形状是n[i]*n[i-1],n[i]是第i层神经元的数量: A[i-1]是第 ...
tensorFlow（四）浅层神经网络
tensorFlow见基础实验 MNIST数据集介绍 MNIST是一个手写阿拉伯数字的数据集. 其中包含有60000个已经标注了的训练集,还有10000个用于测试的测试集. 本次实验的任务就是通过手 ...
神经网络反向传播算法&&卷积神经网络
听一遍课程之后,我并不太明白这个算法的奇妙之处?? 为啥? 神经网络反向传播算法神经网络的训练依靠反向传播算法,最开始输入层输入特征向量,网络层计算获得输出,输出层发现输出和正确的类号不一样,这时就 ...

随机推荐

五十一 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目
scrapyd模块是专门用于部署scrapy项目的,可以部署和管理scrapy项目下载地址:https://github.com/scrapy/scrapyd 建议安装 pip3 install s ...
jmeter导入jar包后在beanshell中import失效的问题解决
最近一直很忙,没有时间来更新了,今天抽空把之前遇到的问题记录下来. 之前在使用jmeter做http请求性能压测时,因为要对所有入参做排序再加密作为一个入参,所以写了一段java代码,用来处理入参,打 ...
Chrome浏览器导出数字证书
1.F12打开开发者工具,选中"Security"面板-->找到"View certificate",点击 2.选中“详细信息”面板-->复制到文件
ASP.NET MVC性能优化（实际项目中）
前言在开发中为了紧赶项目进度而未去关注性能的问题,在项目逐渐稳定下来后发现性能令人感到有点忧伤,于是开始去关注这方面,本篇为记录在开发中遇到的问题并解决,不喜勿喷.注意:以下问题都是在移动端上出现, ...
SQL Server中的联合主键、聚集索引、非聚集索引
我们都知道在一个表中当需要2列以上才能确定记录的唯一性的时候,就需要用到联合主键,当建立联合主键以后,在查询数据的时候性能就会有很大的提升,不过并不是对联合主键的任何列单独查询的时候性能都会提升,但我 ...
[eShopOnContainers 学习系列] - 02 - vs 2017 开发环境配置
[eShopOnContainers 学习系列] - 02 - vs 2017 开发环境配置 https://github.com/dotnet-architecture/eShopOnContain ...
selenium webdriver入门
写在前面:最近在研究UI自动化测试的过程中,发现公司里通常用的是AutomanX框架,而这个框架实际上是基于selenium webdriver框架的,所以在编写测试用例时,很多语法都是直接使用sel ...
热烈祝贺博主LZUGIS博客访问量突破
截止发文时间,博主"LZUGIS"CSDN博客文章总访问量突破50W,值此特殊的时刻,特发此文,以表纪念与督促. 博客详情博客专栏公众号常言道:不积跬步,无以至千里:不积小流 ...
【POJ 3179】 Corral the Cows
[题目链接] http://poj.org/problem?id=3179 [算法] 首先,我们发现答案是具有单调性的,也就是说,如果边长为C的正方形可以,那么比边长C大的正方形也可以,因此,可以二分 ...
bisect模块用于插入
参考链接: chttp://www.cnblogs.com/skydesign/archive/2011/09/02/2163592.html水

浅层神经网络 反向传播推导：MSE softmax

Logistic 回归模型的参数估计为什么不能采用最小二乘法？

手打例子一步一步带你看懂softmax函数以及相关求导过程

下面我举个例子来说明为什么计算会比较方便，给大家一个直观的理解

浅层神经网络 反向传播推导：MSE softmax的更多相关文章

随机推荐

热门专题

浅层神经网络反向传播推导：MSE softmax

浅层神经网络反向传播推导：MSE softmax的更多相关文章