Neural Networks: Learning

内容较多，故分成上下两篇文章。

一、内容概要

Cost Function and Backpropagation
- Cost Function
- Backpropagation Algorithm
- Backpropagation Intuition
Backpropagation in Practice
- Implementation Note：Unroll Parameters
- Gradient Checking
- Random Initialization
- Putting it Together
Application of Neural Networks
- Autonomous Driving

二、重点&难点

1. Backpropagation in Practice

1） Implementation Note：Unroll Parameters

本节主要讲的是利用octave实现神经网络算法的一个小技巧：将多个参数矩阵展开为一个向量。具体可以参考课程视频，此处略。

2） Gradient Checking

神经网络算法是一个很复杂的算法，所以我们很难凭直觉观察出结果是否正确，因此有必要在实现的时候做一些检查，本节给出一个检验梯度的数值化方法。

首先我们可以将损失函数的梯度近似为

$\frac{∂J(θ)}{∂θ}≈\frac{J(θ+ε)-J(θ-ε)}{2ε}$

推广到一般形式是：

$\frac{∂J(θ)}{∂θ_j}≈\frac{J(θ_1,θ_2,θ_j+ε……,θ_n)-J(θ_1,θ_2,θ_j-ε……,θ_n)}{2ε}$

一般来说ε≈$10^{-4}$时就比较接近了

最后我们的主要目标是检查这个梯度的近似向量与反向传播算法得到的梯度向量是否近似相等。

实现时的注意点：

首先实现反向传播算法来计算梯度向量DVec；
其次实现梯度的近似gradApprox;
确保以上两步计算的值是近似相等的；
在实际的神经网络学习时使用反向传播算法，并且关掉梯度检查。

特别重要的是：

一定要确保在训练分类器时关闭梯度检查的代码。如果你在梯度下降的每轮迭代中都运行数值化的梯度计算，你的程序将会非常慢。

3) Random Initialization

关于如何学习一个神经网络的细节到目前为止基本说完了，不过还有一点需要注意，就是如何初始化参数向量or矩阵。通常情况下，我们会将参数全部初始化为0，这对于很多问题是足够的，但是对于神经网络算法，会存在一些问题，以下将会详细的介绍。

对于梯度下降和其他优化算法，对于参数向量的初始化是必不可少的。能不能将初始化的参数全部设置为0?

在神经网络中,如果将参数全部初始化为0 会导致一个问题，例如对于上面的神经网络的例子，如果将参数全部初始化为0，在每轮参数更新的时候，与输入单元相关的两个隐藏单元的结果将是相同的，既：

$a_1^{(2)} = a_2^{(2)}$

这个问题又称之为对称的权重问题，因此我们需要打破这种对称，这里提供一种随机初始化参数向量的方法：初始化$θ_{ij}^{(l)}$为一个落在 [-ε,ε]区间内的随机数, 可以很小，但是与上面梯度检验( Gradient Checking)中的ε没有任何关系。

4)Putting it together(组合到一起-如何训练一个神经网络)

这个老师说会在后面更加具体的介绍。

关于神经网络的训练，我们已经谈到了很多，现在是时候将它们组合到一起了。那么，如何训练一个神经网络？

首先需要确定一个神经网络的结构-神经元的连接模式, 包括：
- 输入单元的个数：特征的维数；
- 输出单元的格式：类的个数
- 隐藏层的设计：比较合适的是1个隐藏层，如果隐藏层数大于1，确保每个隐藏层的单元个数相同，通常情况下隐藏层单元的个数越多越好。
在确定好神经网络的结构后，我们按如下的步骤训练神经网络：
- 1. 随机初始化权重参数；
- 1. 实现：对于每一个通过前向传播得到;
- 1. 实现：计算代价函数；
- 1. 实现：反向传播算法用于计算偏导数
- 1. 使用梯度检查来比较反向传播算法计算的和数值估计的的梯度，如果没有问题，在实际训练时关闭这部分代码；
- 1. 在反向传播的基础上使用梯度下降或其他优化算法来最小化;

Application of Neural Networks

主要介绍了老师的一个大佬朋友利用神经网络设计的自动驾驶汽车的视频，感兴趣的可以看看。自动驾驶汽车

Andrew Ng机器学习课程笔记--week5(下)的更多相关文章

Andrew Ng机器学习课程笔记--week5(上)
Neural Networks: Learning 内容较多,故分成上下两篇文章. 一.内容概要 Cost Function and Backpropagation Cost Function Bac ...
Andrew Ng机器学习课程笔记--week9(下)（推荐系统&协同过滤）
本周内容较多,故分为上下两篇文章. 本文为下篇. 一.内容概要 1. Anomaly Detection Density Estimation Problem Motivation Gaussian ...
Andrew Ng机器学习课程笔记--汇总
笔记总结,各章节主要内容已总结在标题之中 Andrew Ng机器学习课程笔记–week1(机器学习简介&线性回归模型) Andrew Ng机器学习课程笔记--week2(多元线性回归& ...
Andrew Ng机器学习课程笔记（六）之机器学习系统的设计
Andrew Ng机器学习课程笔记(六)之机器学习系统的设计版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7392408.h ...
Andrew Ng机器学习课程笔记（五）之应用机器学习的建议
Andrew Ng机器学习课程笔记(五)之应用机器学习的建议版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7368472.h ...
Andrew Ng机器学习课程笔记--week1（机器学习介绍及线性回归）
title: Andrew Ng机器学习课程笔记--week1(机器学习介绍及线性回归) tags: 机器学习, 学习笔记 grammar_cjkRuby: true --- 之前看过一遍,但是总是模 ...
Andrew Ng机器学习课程笔记（四）之神经网络
Andrew Ng机器学习课程笔记(四)之神经网络版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7365730.html 前言 ...
Andrew Ng机器学习课程笔记（三）之正则化
Andrew Ng机器学习课程笔记(三)之正则化版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7365475.html 前言 ...
Andrew Ng机器学习课程笔记（二）之逻辑回归
Andrew Ng机器学习课程笔记(二)之逻辑回归版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7364636.html 前言 ...

随机推荐

使用Vue-resource完成交互
使用vue-resource 引入vue-resource vue-resource就像jQuery里的$.ajax,是用来跟后端交互数据的,vue-resource是vue的一个插件,所以我们在开始 ...
记一次联想杨天A4600K 安装操作系统遇到的尴尬
故事的开始: 某日,有一台联想扬天A4600K台式机,该机器原来使用的系统为windowsXP,先需要安装win7系统. 准备好gho镜像,准备ghost安装系统.不料,提示镜像文件损坏,无法安装.起 ...
iOS 模式详解—「runtime面试、工作」看我就 🐒 了 ^_^.
引导 Copyright © PBwaterln Unauthorized shall not be *copy reprinted* . 对于从事 iOS 开发人员来说,所有的人都会答出「runti ...
事件冒泡、事件委托、jQuery元素节点操作、滚轮事件与函数节流
一.事件冒泡定义事件冒泡是指在一个对象触发某类事件(比如单击onclick事件),如果此对象定义了此事件的处理程序,那么此事件就会调用这个处理程序,如果没有定义此事件处理程序或者事件返回true,那 ...
java宠物练习
先定一个宠物的抽象类,把所有共有的属性方法放到次类中,用于子类去继承实现. package backing2; abstract public class pet { private String n ...
“玲珑杯”ACM比赛 Round #12 （D）【矩阵快速幂的时间优化】
//首先,感谢Q巨题目链接定义状态向量b[6] b[0]:三面临红色的蓝色三角形个数 b[1]:两面临红色且一面临空的蓝色三角形个数 b[2]:一面临红色且两面临空的蓝色三角形个数 b[3]:三面 ...
win10安装sqlserver2016准备
win10安装sql server2016需要注意: 一.下载jdk-8u121-windows-x64.exe这个安装,这个检测不通过会影响安装二.把万维网服务的这个去掉,这个影响数据库实例的创建 ...
【HTML】ie=edge（转）
< meta http-equiv = "X-UA-Compatible" content = "IE=edge,chrome=1" /> 这是个是 ...
深入浅出数据结构C语言班（11）——简要介绍算法时间复杂度
在接下来的数据结构博文中,我们将会开始接触到一些算法,也就是"解决某个问题的方法",而解决同一个问题总是会存在不同的算法,所以我们需要在不同的算法之中做出抉择,而做出抉择的根据往往 ...
JavaScript语言精粹-读书笔记
前言:很久之前读过一遍该书,近日得闲,重拾该书,详细研究一方,欢迎讨论指正. 目录: 1.精华 2.语法 3.对象 4.函数 5.继承 6.数组 7.正则表达式 8.方法 9.代码风格 10.优美的特 ...

Andrew Ng机器学习课程笔记--week5(下)