斯坦福CS224n作业一

softmax

作业要求如下:

解析:题目要求我们证明\(softmax\)函数具有常数不变性。

解答:对于\(x+c\)的每一维来说,有如下等式成立:
\[softmax(x+c)_{i}=\frac{e^{x_{i}+c}}{\sum_{j}e^{x_{j}+c}}=\frac{e^{x_{i}}*e^{c}}{\sum_{j}(e^{x_{j}}*e^{c})}=\frac{e^{x_{i}}*e^{c}}{\sum_{j}(e^{x_{j}})*e^{c}}=\frac{e^{x_{i}}}{\sum_{j}e^{x_{j}}}=softmax(x)_{i}\]
则可知\(softmax(x)=softmax(x+c)\)成立

Neural Network Basics

求解sigmoid函数梯度

作业要求如下:

解析:本题要求我们计算\(\sigma(x)\)函数的梯度,并用\(\sigma(x)\)表示结果
解答:\[\frac{\partial{(\sigma(x)})}{\partial{x}}=\frac{\partial{(\frac{1}{1+e^{-x}}})}{\partial{x}}\]
设\(a=1+e^{-x}\),应用链式法则可以得到:
\[\frac{\partial{(\sigma(x)})}{\partial{x}}=\frac{\partial{(\frac{1}{a}})}{\partial{x}}=-(\frac{1}{a})^{2}*\frac{\partial{a}}{\partial{x}}=-(\frac{1}{a})^{2}*e^{-x}*(-1)=\frac{e^{-x}}{(1+e^{-x})^{2}}\]
用\(\sigma(x)\)可以表示为\(\sigma(x)-\sigma(x)^{2}\)

softmax + 交叉熵的梯度推导

作业要求如下:

解析:本题给定了实际值\(y\),预测值\(\hat{y}\),以及softmax的输入向量\(\theta\),要求我们求解\(CE(y,\hat{y})\)对\(\theta\)的梯度
解答:
对于每个\(\theta_{i}\)来说,\(CE(y,\hat{y})\)对\(\theta_{i}\)的梯度如下所示:

可知,对于所有的i来说,\(CE(y,\hat{y})\)对\(\theta_{i}\)的梯度为\(\hat{y}-y\)。

三层神经网络的梯度推导

作业要求如下:

解析:本题要求推导\(CE(y,\hat{y})\)对输入\(x\)的梯度。
解答:

斯坦福CS224n课程作业的更多相关文章

  1. 斯坦福NLP课程 | 第1讲 - NLP介绍与词向量初步

    作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www. ...

  2. 斯坦福NLP课程 | 第2讲 - 词向量进阶

    作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www. ...

  3. 斯坦福NLP课程 | 第11讲 - NLP中的卷积神经网络

    作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www. ...

  4. 斯坦福NLP课程 | 第12讲 - NLP子词模型

    作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www. ...

  5. 斯坦福NLP课程 | 第15讲 - NLP文本生成任务

    作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www. ...

  6. 斯坦福NLP课程 | 第18讲 - 句法分析与树形递归神经网络

    作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www. ...

  7. 关于Coursera上的斯坦福机器学习课程的编程作业提交问题

    学习Coursera上的斯坦福机器学习课程的时候,需要向其服务器提交编程作业,我遇到如下问题: 'Submission failed: unexpected error: urlread: Peer ...

  8. 斯坦福大学cs231n作业参考(中文版)

    cs231n2016冬季课程作业完成,在原先的基础上进行了翻译和中文注释,同时增加了16之后版本的部分新作业文件,已经全部跑通,需要的欢迎自取. 斯坦福大学的 CS231n(全称:面向视觉识别的卷积神 ...

  9. Web编程基础--HTML、CSS、JavaScript 学习之课程作业“仿360极速浏览器新标签页”

    Web编程基础--HTML.CSS.JavaScript 学习之课程作业"仿360极速浏览器新标签页" 背景: 作为一个中专网站建设出身,之前总是做静态的HTML+CSS+DIV没 ...

随机推荐

  1. Python 基础【二】 上

    一.python语言分类 1. C python   c语言的python版本 官方推荐 使用C语言实现,使用最为广泛,CPython实现会将源文件(py文件)转换成字节码文件(pyc文件),然后运行 ...

  2. CSS中的背景、雪碧图、超链接的伪类样式

    一.背景 1.背景颜色 background-color: red; 2.背景图片 background-image: url("../../img/l1.png"); 3.图片填 ...

  3. Springboot 框架学习

    Springboot 框架学习 前言 Spring Boot是Spring 官方的顶级项目之一,她的其他小伙伴还有Spring Cloud.Spring Framework.Spring Data等等 ...

  4. QT5:C++实现基于multimedia的音乐播放器(一)

    上一篇里简略的描述了一下播放器的实现,这一篇开始具体描述一下过程. 环境配置:Qt Creator 打开Qt Creator,创建一个new project,项目名称随你喜欢(我的是MusicPlay ...

  5. PAT1132: Cut Integer

    1132. Cut Integer (20) 时间限制 400 ms 内存限制 65536 kB 代码长度限制 16000 B 判题程序 Standard 作者 CHEN, Yue Cutting a ...

  6. Executor, ExecutorService 和 Executors 间的区别与联系

    UML简要类图关系: 下面详细看一下三者的区别: Executor vs ExecutorService vs Executors 正如上面所说,这三者均是 Executor 框架中的一部分.Java ...

  7. Mybatis概述

    mybatis概述 1 mybatis产生的意义 传统的jdbc, 及其存在的问题 package cn.rodge.jdbc;import java.sql.Connection;import ja ...

  8. Springboot+Atomikos+Jpa+Mysql实现JTA分布式事务

    1 前言 之前整理了一个spring+jotm实现的分布式事务实现,但是听说spring3.X后不再支持jotm了,jotm也有好几年没更新了,所以今天整理springboot+Atomikos+jp ...

  9. mysql管理工具navicat的快捷键

    1. ctrl + q  或者 ctrl+n: 打开新查询窗口 2. ctrl + r: 运行当前窗口内的所有语句 3. ctrl + shit + r: 只运行选中的语句 4. ctrl + w: ...

  10. 论C++如何优雅的使用数组

    C/C++中如果一个函数接受一个数组作为参数,那么数组将会被退化为指针,如果定义如下代码: //数组arr的大小未知. int arrsize(int arr*) { cout << &q ...