(Review cs231n) Gradient Vectorized

注意：

　　1.每次更新，都要进行一次完整的forward和backward，想要进行更新，需要梯度，所以你需要前馈样本，马上反向求导，得到梯度，然后根据求得的梯度进行权值微调，完成权值更新。

　　2.前馈得到损失，反馈得到梯度，对梯度的使用来完成权值更新。

　　3. 训练的过程，前馈，反馈，更新；......

我们需要进行向量处理，网络中流动的数据并不是标量，全是向量，局部梯度原本是标量，现在它们是雅可比矩阵(雅可比矩阵类似于多元函数的导数,函数的一阶偏导数以一定方式排列成的矩阵)，

雅可比矩阵是二维矩阵，表示x中每个元素对z中每个元素的影响，这些由雅可比矩阵存储，梯度和以前一样。

dL/dz是一个向量，dz/dx是雅可比矩阵(局部梯度)，最终得到了一个矩阵和向量的乘积，来表示梯度的反向传播。

雅可比矩阵可不要求出：

雅可比矩阵是一个4096*4096的矩阵，但只有在对角线才有值，进行的是单个元素的操作（因为输入和输出的维度是相同的，然后是单个单个的做RELU操作，所以这个雅可比矩阵的对角线上才有值，相对应的那个维度组才会有梯度的贡献，若输入大于0，则输入和输出相等，梯度为1；若输入小于0，则输出值提升到0，梯度），对角线不全为1，小于0的数据要提升为0，所以对角线的1被取代（dy/dx=0, 导数为0），求出雅可比矩阵不可取，也不会真的矩阵和向量相乘。

因为矩阵有特殊结构，可以进行利用，因为你只需要观察那些小于0的输入，然后将这些维度上的梯度置0，你从这得到输出梯度，对于小于0的数将梯度置0，继续反向传播。

最终输出的是一个数求得损失函数，我们对分别计算梯度感兴趣，如果我们有多重输出，在反向传播中，必须同时对所以梯度的流向进行跟踪，最终的损失是一个标量。

在进行mini-batch时候，每个样例都是独立的，只是同时进行传播。雅可比矩阵非常大，利用稀疏性。

。

层与层之间连接通过向量的传递完成，传递的n维数组，数组在各层之间传递。

(Review cs231n) Gradient Vectorized的更多相关文章

(Review cs231n) Gradient Calculation and Backward
---恢复内容开始--- 昨日之补充web. 求解下图的梯度的流动,反向更新参数的过程,表示为输入与损失梯度的关系,借助链式法则,当前输入与损失之间的梯度关系为局部梯度乘以后一层的梯度. ---恢复 ...
(Review cs231n) The Gradient Calculation of Neural Network
前言:牵扯到较多的数学问题原始的评分函数: 两层神经网络,经过一个激活函数: 如图所示,中间隐藏层的个数的各数为超参数: 和SVM,一个单独的线性分类器需要处理不同朝向的汽车,但是它并不能处理不同颜 ...
(Review cs231n) Object Detection
目标:我们有几个类别,然后我们要在这张图中找到这些类的所有实例解决思路:是否可以按照回归的思路进行求解呢? 但是受限制于确定的种类输出问题. 方法:分类和回归是解决问题的两个套路,我们现在对于目标的 ...
(Review cs231n) Training of Neural Network2
FFDNet---matlab 调用并批处理 format compact; global sigmas; % input noise level or input noise level map a ...
(Review cs231n) Optimized Methods
Mini-batch SGD的步骤: 1.Sample a batch of data 2.Forward prop it through the graph,get loss 3.backprop ...
(Review cs231n) CNN in Practice
Make the most of your data Data augmentation 加载图像后,对图像做一些变化,这些变换不改变图像的标签. 通过各种变换人为的增大数据集,可以避免过拟合提高模型 ...
(Review cs231n) Spatial Localization and Detection（classification and localization）
重在图像的定位和检测的内容. 一张图片中只有一种给定类别标签的对象,定位则是图像中有对象框:再这些类中,每一个训练目标都有一个类和许多的图像内部对应类的位置选框. 猜想的仅是类标签,不如说它们是位置 ...
(Review cs231n) ConvNet
概念神经网络的深度和数据据体的深度(图像的通道数channels)要主要区分. 输入 1.得到一些数据,作为网络的输入. 2.在CNN中有filter,the size of filter is s ...
(Review cs231n) BN and Activation Function
CNN网络的迁移学习(transfer learning) 1.在ImageNet上进行网络的预训练 2.将最上方的层,即分类器移除,然后将整个神经网络看成是固定特征提取器来训练,将这个特征提取器置于 ...

随机推荐

python序列元素引用容易出错的地方
python序列分列表和元组,不同之处在于元组的元素不能修改.元组使用小括号,列表使用方括号.元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可.举个简单的例子,a1是一个元组,a2是一个列表 ...
Python3学习之路~6.5 私有属性和私有方法
属性分为静态属性和动态属性,静态属性就是变量,动态属性就是方法.但是一般我们说的属性就是变量,方法就是方法.私有属性/方法就是外面访问不了,只有自己能够访问的属性/方法.如何将属性和方法分别变成私有属 ...
【设计模式】用追MM来解释23种设计模式，转
创建型模式 1.FACTORY—追MM少不了请吃饭了,麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西,虽然口味有所不同,但不管你带MM去麦当劳或肯德基,只管向服务员说“来四个鸡翅”就行了.麦当劳和肯德基 ...
[LeetCode] 100. Same Tree_Easy tag: DFS
Given two binary trees, write a function to check if they are the same or not. Two binary trees are ...
JS通过类名判断是否都必填
//判断class='required' 是否都必填 function required() { var flag = true; $(".required").each(func ...
php 编译安装 mysql.so
编译mysql.so # 进入php-5.2.14源码目录 cd /usr/local/src/php- # 进入 mysql ext 的源码目录 cd ext/mysql # 构建编译配置, 假设p ...
SEO--质量监测
日志分析 1.每个搜索引擎的总体抓取量 2.记录搜索引擎蜘蛛的不重复抓取量 3.每个目录.每个搜索引擎的抓取量 4.统计搜索引擎抓取的状态码(通过查看欧化300,404,500等分析那些页面需要优化) ...
巧用CurrentThread.Name来统一标识日志记录（完结篇）
▄︻┻┳═一Agenda: ▄︻┻┳═一巧用CurrentThread.Name来统一标识日志记录 ▄︻┻┳═一巧用CurrentThread.Name来统一标识日志记录(续) ▄︻┻┳═一巧用Cur ...
node.js初识09
1.node_module文件夹如果你的require中没有写./,那么Node.js将该文件视为node_modules目录下的一个文件. 2.package.json文件如果使用文件夹来统筹管 ...
网站的title添加图片
将图片作为ico格式,大小设置为16 * 16px左右,太大显示不完整, 命名需为"favicon.ico", 命名需为"favicon.ico", 命名需为& ...

(Review cs231n) Gradient Vectorized

(Review cs231n) Gradient Vectorized的更多相关文章

随机推荐

热门专题