(Review cs231n) The Gradient Calculation of Neural Network

前言：牵扯到较多的数学问题

原始的评分函数：

两层神经网络，经过一个激活函数：

如图所示，中间隐藏层的个数的各数为超参数：

和SVM，一个单独的线性分类器需要处理不同朝向的汽车，但是它并不能处理不同颜色的汽车，它并不是一个好的分类器。

但是如果使用有一百个数值的中间层的神经网络，我们可以给这一百个数值赋值。

例如第一个数值处理朝向正前方的汽车；只用来识别朝向正前方的汽车，下一个数值用来处理朝向偏右的车等，得到的数值只有图片满足这些详细要求的时候才会正，其他情况下为0，接下来还可以处理不同颜色不同朝向的汽车，一个针对所有不同情况下汽车的模板，中间层会对所有的汽车进行表示，如果图像符合要求，就会得到正值。

W2会对所有不同情况下的汽车模板进行汇总，比如我们现在有20种汽车模型，为了得到汽车分类器的评分，需要再加入一个矩阵乘法，用来给不同的汽车模型得到权重的合，如果一个汽车满足了一个模型，那么这个模型的输出再乘以一个正权重加入总评分。

100是隐藏层的大小，可以改变大小的超参数，自行选择适合的模型来匹配不同汽车的朝向问题。

一般超参数会选尽可能大的，取决于你的电脑是否支持。

一个三层的神经网络，想要扩展它，简单的添加重复的隐藏层。

把相同的隐藏层添加进去让网络更深。

矩阵求导的计算方式也是一样的，需要注意的一个细节是如果 $f=WX$ ，计算 $dW$ 需要对 $X$ 进行转置，计算 $dX$ 需要对 $W$ 进行转置，并且因为 $dW$ 与 $W$ 维度相同， $dX$ 与 $X$ 维度相同，所以我们在计算导数的时候关注一下矩阵维度，这样可以减少错误的概率。

两层神经网络的训练过程，使用三维矩阵来训练做二元分类的神经网络，y的标签是二进制数,使用逻辑回归损失：

"""
Created on Sat Mar 16 16:54:51 2019

@author: ckc
"""

import numpy as np



X = np.array([[0,0,1],[0,1,1],[1,0,1],[1,1,1]]) # size = 4*3

y = np.array([[0,1,1,0]]).T #size= 4*1, T 转置

weight1 = 2* np.random.random((3,4)) - 1

weight2 = 2*np.random.random((4,1)) - 1

#for j in xrange(60000):

l1 = 1/(1+np.exp(-(np.dot(X,weight1))))

l2 = 1/(1+np.exp(-(np.dot(l1,weight2))))

l2_delta = (y - l2) * (l2*(1-l2)) # 第二层的梯度，dL/dz * dz/dx局部梯度，(y-l2为逻辑回归损失)

l1_delta = l2_delta.dot(weight2.T) * (l1*(1-l1)) # 4*1 * 1*4 = 4*4 ，第一层的梯度

weight2 += l1.T.dot(l2_delta)

weight1 += X.T.dot(l1_delta)

分析：

1. 每一层的delta为反向传播的chain rule 推导的结果，并为传播到q_{n}=w.dot(x)前，注意w需要进行转置为w^{T}以匹配维度。

2. 进行参数更新，W_{n} += dw_{n} , 其中dw_{n} = delta_{n}*(dq_{n}/dw_{})

其中：

所以：

x的转置，用于匹配维度

每一个小的神经元都可以看作是一个小的线性分类器，这些神经元彼此相连，一起工作。

默认的非线性激活函数的选择Relu。

如图所示神经元的个数越多，分类性能越好，函数越复杂。

对模型添加正则化，正则化的表现是对高维度W的惩罚力度，当正则化系数很大，使得W变得非常小，最终的结果是函数变得非常的平滑，函数实际使用的变量减小，减小W系数，边界的扭曲程度变得很高，拟合程度更高，起作用的变量数量更多。

最少需要三个神经元，一个、两个、三个平面，也就是三个使用非线性函数作为激活函数的线性分类器，在分类平面中，你可以用三条直线来圈出一个空间，第二层只是把三条线合并在一起，最终得出结果0或1。

1.模型中网络越复杂，模型的表达能力越强，要使用引入正则化的方法，防止神经网络过拟合。

2.一般图像问题深度很重要，但是对于简单的数据，网络的深度没有多大的作用。

3.只选择一种激活函数，经常使用Relu。

(Review cs231n) The Gradient Calculation of Neural Network的更多相关文章

CheeseZH: Stanford University: Machine Learning Ex4:Training Neural Network(Backpropagation Algorithm)
1. Feedforward and cost function; 2.Regularized cost function: 3.Sigmoid gradient The gradient for t ...
(Review cs231n) Training of Neural Network2
FFDNet---matlab 调用并批处理 format compact; global sigmas; % input noise level or input noise level map a ...
Graph Embedding Review：Graph Neural Network(GNN)综述
作者简介: 吴天龙香侬科技researcher 公众号(suanfarensheng) 导言图(graph)是一个非常常用的数据结构,现实世界中很多很多任务可以描述为图问题,比如社交网络,蛋白体 ...
Recurrent Neural Network系列2--利用Python，Theano实现RNN
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...
How to implement a neural network
神经网络的实践笔记 link: http://peterroelants.github.io/posts/neural_network_implementation_part01/ 1. 生成训练数据 ...
（转）The Neural Network Zoo
转自:http://www.asimovinstitute.org/neural-network-zoo/ THE NEURAL NETWORK ZOO POSTED ON SEPTEMBER 14, ...
深度神经网络如何看待你，论自拍What a Deep Neural Network thinks about your #selfie
Convolutional Neural Networks are great: they recognize things, places and people in your personal p ...
Recurrent Neural Network系列3--理解RNN的BPTT算法和梯度消失
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 这是RNN教程的第三部分. 在前面的教程中,我们从头实现了一个循环 ...
What is “Neural Network”
Modern neuroscientists often discuss the brain as a type of computer. Neural networks aim to do the ...

随机推荐

MongoDB的客户端管理工具--nosqlbooster 查询工具使用
连接我的MongoDB 看到这样打开db1数据库里面user集合,看到user集合里面的数据,他会自带查询语句看这里以tree方式显示可以以table方式显示还可以json方式显示按照自己的 ...
chmod a+r file：给所有用户添加读的权限
chmod a+r *:用户自己使用此命令,柯给所有用户添加可读的权限超级用户给其他用户设置权限:sudo chmod a+rx /home/user 使所有人可以访问,读取文件,bu no W ...
前端开发---HTML---标签
HTML的标签内容 1.index  <!DOCTYPE html>  &l ...
Redis入门到高可用（五）—— 单线程
一.单线程为何这么快 1)绝大部分请求是纯粹的内存操作(非常快速) 2)采用单线程,避免了不必要的上下文切换和竞争条件 3)非阻塞IO 内部实现采用epoll,采用了epoll+自己实现的简单的事件框 ...
Centos7安装Openvpn
前言搭建openvpn主要参考这篇博客,原文传送: http://www.jianshu.com/p/4bbf946222d5 所以你会发现步骤基本一样. 安装openvpn A:安装EPEL仓库 ...
4个项目带你学习ThinkPHP
ThinkPHP是一个快速.兼容而且简单的轻量级国产PHP开发框架,这里分享4个项目教程,带你掌握ThinkPHP,并能够在实践开发中应用. ThinkPHP框架实践这个教程从ThinkPHP的入门 ...
[LeetCode] 系统刷题1_代码风格及边界
代码风格说自己不清楚的算法,比如KMP,如果解释不清楚或者写不出来的算法建议不提注意代码的缩进以及空格的合理运用,使得代码看起来比较整洁有条理注意边界的条件以及越界误区: 算法想出来还仅仅不够 ...
react 全局公共组件-----动态弹窗 (dialog)
react 的时候,总是会用到弹窗,并且各种各样的,一般来说,组件层级嵌套之后,就会出现 z-index层级覆盖的问题这个时候,就需要一个公共的弹出层,然后我们将需要展示的组件,放到弹出层里面下面 ...
pd.concat/merge/join
pandas的拼接分为两种: 级联:pd.concat, pd.append 合并:pd.merge, pd.join 一.回顾numpy.concatenate 生成1个6*3的矩阵,一个2*3的矩 ...
xcode 各版本下载地址及其它工具下载地址
官方下载地址:https://developer.apple.com/downloads/

(Review cs231n) The Gradient Calculation of Neural Network

(Review cs231n) The Gradient Calculation of Neural Network的更多相关文章

随机推荐

热门专题