deeplearning.ai 神经网络和深度学习 week4 深层神经网络

1. 计算深度神经网络的时候，尽量向量化数据，不要用for循环。唯一用for循环的地方是依次在每一层做计算。

2. 最常用的检查代码是否有错的方法是检查算法中矩阵的维度。

正向传播：

对于单个样本，第i层网络 z^[i] = W^[i]a^[i-1] + b^[i]，

a^[i] = f^[i](z^[i])。

其中，z^[i]是n^[i]*1，W^[i]是n^[i]*n^[i-1]，a^[i-1]是n^[i-1]*1，b^[i]是n^[i]*1。

对于向量化后的所有样本，第i层网络 Z^[i] = W^[i]A^[i-1] + b^[i]，

A^[i] = f^[i](Z^[i])。

其中，Z^[i]是n^[i]*m，W^[i]是n^[i]*n^[i-1]，A^[i-1]是n^[i-1]*m，b^[i]是n^[i]*1，python运算过程中会把b^[i]broadcasting成n^[i]*m，m是训练集样本数量。

反向传播：

对于单个样本，第i层网络 dz^[i] = da^[i]*f^[i]'(z^[i])，*是对应元素相乘。

dw^[i]=dz^[i]a^[i-1]

db^[i]=dz^[i]

da^[i-1]=W^[i]Tdz^[i]

对于向量化后的所有样本，第i层网络 dZ^[i] = dA^[i]*f^[i]'(Z^[i])，*是对应元素相乘。

dW^[i]=1/m*dZ^[i]A^[i-1]T

db[i]=1/m*np.sum(dZ^[i], axis=1, keepdims=True)

dA^[i-1]=W^[i]TdZ^[i]

3. 深度神经网络的直观解释：比如做人脸检测的时候，可以把浅层的神经网络当成是边缘检测器，不同的神经元检测不同方向的边缘在图片的位置。中层的神经网络是把第一层提取出的不同位置的不同方向的边缘特征组合成面部的不同部分，比如有的是眼睛，有的是鼻子。深层的神经网络把这些部分放在一起组合成不同的人脸。对于语音识别，也是类似，浅层的神经网络检测低层次的波形特征，比如音调高低，白噪声还是咝咝的声音，中层的神经网络可以把波形特征组合成音位（phoneme），识别基本的声音单元，深层的神经网络可以把识别单词，再深层次的神经网络可以识别句子。

另外一种深度神经网络有效性的解释来源于电路理论，如果使用树形一层层堆叠简单的操作，那么最终实现复杂功能需要的元器件数量是O(logn)，而如果只允许使用浅层网络，则需要O(2ⁿ)的元器件。

NG说还有一个原因让深度神经网络很迷人是名字取得好。。。。。。“深度”！一听就很酷炫。但带来的问题是人会很按照字面意思钻牛角尖非要用很深的网络，但实际上，NG自己在思考问题的时候，还是从最简单的模型比如Logistic回归入手，然后试试一两个隐藏层，把隐藏层的层数当成超参数一样去调试。

4. NG说即使他做机器学习很多年了，但是依旧经常搞不明白为什么算法就可以工作，会很惊讶结果这么好。实际算法的复杂性来源于数据，而不是写的代码。

5. 超参数：学习率，梯度下降循环的次数，隐藏层数量，每一层隐藏神经元的数量，激活函数的类型。其他超参数包括：momentum，mini batch的大小，正则化参数的形式，等等。

深度学习领域非常基于经验，基于经验的意思就是不断试参数直到合适。。。针对不同的模型最优的超参数值是不同的，所以必须针对具体问题多试，甚至针对相同的问题，超参数的最优值也会变化，比如广告点击率，所以即使模型建好了跑通了，也要隔一段时间尝试一下新的超参数。

6. NG觉得深度学习和人类大脑相关性不大，因为大脑神经元的机制比神经网络算法复杂的多的多的多。深度学习的确是一种很好的方法来找到输入和输出之间复杂映射关系。

7. 总结一下神经网络算法实现的流程，和week3的总结差不多：

　　1）定义结构，包括输入的大小，隐藏层层数，每层神经元的数量，等等。对于L层(1~L)的神经网络，第0层是输入层，第1~L-1层是隐含层，激活函数是ReLU，第L层是输出层，激活函数是sigmoid。输入层不计入层数。

　　2）初始化参数，W初始化为小随机数，b初始化为0。

　　3）优化迭代求最优参数：

　　　　a）前向传播。从1到L依次计算每一层。对于第[i]层网络，已知前一层传进来的输入A^[i-1]，和这一层的参数W^[i]、b^[i]，以及激活函数，计算出Z^[i]和A^[i]，并且把Z^[i]、A^[i]、W^[i]、b^[i]保存起来为反向传播的计算做准备，作业的程序里，把Z^[i]放在activation_cache里，把A^[i]、W^[i]、b^[i]放在linear_cache里。

　　　　b）计算loss，用最后一层的输出A^[L]带入损失函数求出loss。

　　　　c）反向传播。根据前向传播算出的A^[L]和Y计算出dA^[L]。然后从L到1依次计算每一层。对于第[i]层网络，已知后一层传来的输入dA^[i]，先从activation_cache里取出Z^[i]，求出dZ^[i]。然后从linear_cache中取出A^[i]、W^[i]、b^[i]，借助dZ^[i] 计算出dW^[i]、db^[i]、dA^[i-1]。

　　　　d）更新参数。

　　4）用计算出的参数做预测。

deeplearning.ai 神经网络和深度学习 week4 深层神经网络的更多相关文章

deeplearning.ai 神经网络和深度学习 week4 深层神经网络听课笔记
1. 计算深度神经网络的时候,尽量向量化数据,不要用for循环.唯一用for循环的地方是依次在每一层做计算. 2. 最常用的检查代码是否有错的方法是检查算法中矩阵的维度. 正向传播: 对于单个样本,第 ...
DeepLearning.ai学习笔记（一）神经网络和深度学习--Week4深层神经网络
一.深层神经网络深层神经网络的符号与浅层的不同,记录如下: 用$L$表示层数,该神经网络$L=4$ $n^{[l]}$表示第$l$层的神经元的数量,例如\(n^{[1]}=n^{[2 ...
【神经网络与深度学习】卷积神经网络（CNN）
[神经网络与深度学习]卷积神经网络(CNN) 标签:[神经网络与深度学习] 实际上前面已经发布过一次,但是这次重新复习了一下,决定再发博一次. 说明:以后的总结,还应该以我的认识进行总结,这样比较符合 ...
【神经网络与深度学习】卷积神经网络-进化史：从LeNet到AlexNet
[卷积神经网络-进化史]从LeNet到AlexNet 本博客是[卷积神经网络-进化史]的第一部分<从LeNet到AlexNet> 如需转载,请附上本文链接:http://blog.csdn ...
《深度学习-改善深层神经网络》-第二周-优化算法-Andrew Ng
目录 1. Mini-batch gradient descent 1.1 算法原理 1.2 进一步理解Mini-batch gradient descent 1.3 TensorFlow中的梯度下降 ...
吴裕雄--天生自然python Google深度学习框架：深度学习与深层神经网络
Deeplearning.ai课程笔记-神经网络和深度学习
神经网络和深度学习这一块内容与机器学习课程里Week4+5内容差不多. 这篇笔记记录了Week4+5中没有的内容. 参考笔记:深度学习笔记神经网络和深度学习结构化数据:如数据库里的数据非结构化数 ...
Deep Learning.ai学习笔记_第一门课_神经网络和深度学习
目录前言第一周(深度学习引言) 第二周(神经网络的编程基础) 第三周(浅层神经网络) 第四周(深层神经网络) 前言目标: 掌握神经网络的基本概念, 学习如何建立神经网络(包含一个深度神经网络), ...
[DeeplearningAI笔记]神经网络与深度学习人工智能行业大师访谈
觉得有用的话,欢迎一起讨论相互学习~Follow Me 吴恩达采访Geoffrey Hinton NG:前几十年,你就已经发明了这么多神经网络和深度学习相关的概念,我其实很好奇,在这么多你发明的东西中 ...

随机推荐

转：以下是目前已经建立的sub一览来自：https://zhuanlan.zhihu.com/p/91935757
转:以下是目前已经建立的sub一览来自:https://zhuanlan.zhihu.com/p/91935757 作者: Lorgar 理工科科学(和英文r/science一样,只接受论文讨论 ...
第 36 章 TCP/IP协议基础
问题一:为什么要有缓存表?为什么表项要有过期时间而不是一直有效 1.参考网址: 1)网络——ARP协议 2)linux arp机制解析 2.解答: 2.1 ARP缓存可以减小广播量,当主机发送一个AR ...
L0,L1,L2正则化浅析
在机器学习的概念中,我们经常听到L0,L1,L2正则化,本文对这几种正则化做简单总结. 1.概念 L0正则化的值是模型参数中非零参数的个数. L1正则化表示各个参数绝对值之和. L2正则化标识各个参数 ...
吴裕雄--天生自然 PHP开发学习：MySQL 预处理语句
<?php $servername = "localhost"; $username = "root"; $password = "admin& ...
Python—使用列表构造栈数据结构
class Stack(object): """ 使用列表实现栈 """ def __init__(self): self.stack = ...
P2P平台爆雷不断到底是谁的过错？
早在此前,范伟曾经在春晚上留下一句经典台词,"防不胜防啊".而将这句台词用在当下的P2P行业,似乎最合适不过了.就在这个炎热夏季,P2P行业却迎来最冷冽的寒冬. 引发爆雷潮的众多P ...
vue-resource CRUD示例
GET请求 var demo = new Vue({ el: '#app', data: { gridColumns: ['customerId', 'companyName', 'contactNa ...
【YOLO学习】召回率（Recall），精确率（Precision），平均正确率（Average_precision(AP) ），交除并（Intersection-over-Union（IoU））
摘要在训练YOLO v2的过程中,系统会显示出一些评价训练效果的值,如Recall,IoU等等.为了怕以后忘了,现在把自己对这几种度量方式的理解记录一下. 这一文章首先假设一个测试集,然后围绕这一测 ...
[Algo] 397. Right Shift By N Characters
Right shift a given string by n characters. Assumptions The given string is not null. n >= 0. Exa ...
吴裕雄--天生自然 pythonTensorFlow图形数据处理：读取MNIST手写图片数据写入的TFRecord文件
import numpy as np import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_dat ...

deeplearning.ai 神经网络和深度学习 week4 深层神经网络

deeplearning.ai 神经网络和深度学习 week4 深层神经网络的更多相关文章

随机推荐

热门专题