CS231n笔记 Lecture 4 Introduction to Neural Networks

zhsuiy 2024-10-03 20:41:45 原文

这一讲主要介绍了神经网络，基本内容之前如果学习过Andrew的Machine learning应该也都有所了解了。不过这次听完这一讲后还是有了新的一些认识。

计算图 Computational graph

之前没有体会到计算图的强大，今天听Serena讲解后，有一种豁然开朗的感觉。总的来说，有一些很复杂的表达式，如果直接使用它对变量求导，虽然也能得到一个显式的表达，但可能会牵扯到非常复杂的展开、求导等一系列操作。如果换种方式，把这个式子里的基本运算，通过计算图的方式表示出来，用节点来表示一个基本运算，如 +、*、max等。那么我们从结尾出发，不断地在当前的节点上对前面的变量进行求导，这个求导过程往往非常简单，然后根据链式法则，不断“向后”传播，就可以得到整个式子关于输入变量的导数。这个思想也正是神经网络的精髓所在。
值得注意的是，我们可以根据自己的需要选择性地合并一些节点，比如像sigmoid函数，非常常见，而且我们也能够给出它的微分的显式表达，这时候就没有必要冗余地去列举sigmoid函数里的每一个简单运算。

max的微分怎么求

普通的加法、乘法的微分都很好想象，如果这个节点是对输入变量求一个max值呢？此时当前节点对于输入变量的微分分别是多少？

其实也不难想象，答案就是，对于是max的那个变量，微分是1，其它为0。这也非常合理，因为有了这个max的操作，相当于其它变量都对输出不会再产生影响了，那么再把微分传递给它们也用处不大，因为我们关心的是最终的表达式在那些能够影响它的值的那些变量上的微分或者梯度。

Jacobian matrix 雅克比矩阵

因为我们实际上处理的数据大多数是向量化的，那么求导的结果其实是一个雅可比矩阵。不要被这个名字吓到，其实它就是一个用每个输出维度对每个输入维度求导的过程。
假设我们输入的x是n维，输出的y是m维，那么函数f(x) = y 针对x求导得到的雅克比矩阵是m*n的，其i,j位置的值为\(d(y_i)/d(x_j)\)。

(来自维基百科https://en.wikipedia.org/wiki/Jacobian_matrix_and_determinant)

主题无关

Serena Yeung的英语听着好舒服，发音很清晰，不拖泥带水，几乎没有不必要的语气词，值得学习~~而且人还很美，感觉这门课的老师们颜值都好高@_@

CS231n笔记 Lecture 4 Introduction to Neural Networks的更多相关文章

cs231n spring 2017 lecture4 Introduction to Neural Networks 听课笔记
1. Backpropagation:沿着computational graph利用链式法则求导.每个神经元有两个输入x.y,一个输出z,好多层这种神经元连接起来,这时候已知∂L/∂z,可以求出∂L/ ...
CS231n笔记 Lecture 1 Introduction
主题有关这一讲主要是介绍性质的,虽然大多数概念以前听说过,但还是在他们的介绍中让我有如下一些认识,所谓温故而知新,不无道理: IMAGENET Feifei Li的团队首先爬取.标注了IMAGENE ...
cs231n spring 2017 lecture4 Introduction to Neural Networks
1. Backpropagation:沿着computational graph利用链式法则求导.每个神经元有两个输入x.y,一个输出z,好多层这种神经元连接起来,这时候已知∂L/∂z,可以求出∂L/ ...
【DeepLearning学习笔记】Coursera课程《Neural Networks and Deep Learning》——Week1 Introduction to deep learning课堂笔记
Coursera课程<Neural Networks and Deep Learning> deeplearning.ai Week1 Introduction to deep learn ...
【DeepLearning学习笔记】Coursera课程《Neural Networks and Deep Learning》——Week2 Neural Networks Basics课堂笔记
Coursera课程<Neural Networks and Deep Learning> deeplearning.ai Week2 Neural Networks Basics 2.1 ...
深度学习笔记（三）Constitutional Neural Networks
一. 预备知识包括 Linear Regression, Logistic Regression和 Multi-Layer Neural Network.参考 http://ufldl.stanfo ...
CS231n笔记 Lecture 5 Convolutional Neural Networks
一些ConvNets的应用 Face recognition 输入人脸,推测是谁 Video classfication Recognition 识别身体的部位, 医学图像, 星空, 标志牌, 鲸.. ...
机器学习入门14 - 神经网络简介 (Introduction to Neural Networks)
原文链接:https://developers.google.com/machine-learning/crash-course/introduction-to-neural-networks/ 神经 ...
论文笔记《Notes on convolutional neural networks》
这是个06年的老文章了,但是很多地方还是值得看一看的. 一.概要主要讲了CNN的Feedforward Pass和 Backpropagation Pass,关键是卷积层和polling层的BP推导 ...

随机推荐

洛谷 P2002 消息扩散
题目背景本场比赛第一题,给个简单的吧,这 100 分先拿着. 题目描述有n个城市,中间有单向道路连接,消息会沿着道路扩散,现在给出n个城市及其之间的道路,问至少需要在几个城市发布消息才能让这所有n ...
洛谷 P3313 [SDOI2014]旅行
题目描述 S国有N个城市,编号从1到N.城市间用N-1条双向道路连接,满足从一个城市出发可以到达其它所有城市.每个城市信仰不同的宗教,如飞天面条神教.隐形独角兽教.绝地教都是常见的信仰. 为了方便,我 ...
java面试题(杨晓峰)---第八讲谈谈Vector,ArrayList,LinkedList有何区别?
Vector,ArrayList,LinkedList均为线性的数据结构,但是从现实方式与应用场景中又存在差别. 1 底层实现方式 ArrayList内部数组来实现,LinkedList内部采用双向链 ...
xwork-conversion.properties 目前没有解决方案
它没法变成.xml 这意味着项目里就只能这样
Android（java）学习笔记135：SQLite数据库（表）的创建以及 SQLite数据库的升级
一.数据库的创建 1.文件的创建 //引用,如果文件不存在是不会创建的 File file = new File("haha.txt"): //输出流写数据 ...
Array - Remove Element
/** * 无额外空间.顺序可以被改变.不需要修改后面的数字. * @param nums 数组 * @param val 目标值 * @return nums中移除val后的长度 */ public ...
HTML5中的Web Workers
https://www.cnblogs.com/yanan-boke/p/6954390.html https://segmentfault.com/a/1190000014938305 HTML5 ...
2018.4.3 Linux环境变量与变量
环境变量与变量 shell在开始执行时就已经定义了一些和系统的工作环境有关的变量,用户还可以重新定义这些变量. 环境变量可用命令env或set来查询.(DOS环境为set) 环境变量查询与显示 env ...
tomcat - CPU高占用问题记录
先查询进程 top 再根据进程号,查出进程的线程 ps p 3036 -L -o pcpu,pid,tid,time,tname,cmd 得到最高使用率CPU的线程TID,转换成16进制 printf ...
个人对spring的IOC+DI的封装
暂时支持8种基本数据类型,String类型,引用类型,List的注入. 核心代码 package day01; import java.lang.reflect.Field;import java.l ...