斯坦福CS224n课程作业
斯坦福CS224n作业一
softmax
作业要求如下:

解析:题目要求我们证明\(softmax\)函数具有常数不变性。
解答:对于\(x+c\)的每一维来说,有如下等式成立:
\[softmax(x+c)_{i}=\frac{e^{x_{i}+c}}{\sum_{j}e^{x_{j}+c}}=\frac{e^{x_{i}}*e^{c}}{\sum_{j}(e^{x_{j}}*e^{c})}=\frac{e^{x_{i}}*e^{c}}{\sum_{j}(e^{x_{j}})*e^{c}}=\frac{e^{x_{i}}}{\sum_{j}e^{x_{j}}}=softmax(x)_{i}\]
则可知\(softmax(x)=softmax(x+c)\)成立
Neural Network Basics
求解sigmoid函数梯度
作业要求如下:

解析:本题要求我们计算\(\sigma(x)\)函数的梯度,并用\(\sigma(x)\)表示结果
解答:\[\frac{\partial{(\sigma(x)})}{\partial{x}}=\frac{\partial{(\frac{1}{1+e^{-x}}})}{\partial{x}}\]
设\(a=1+e^{-x}\),应用链式法则可以得到:
\[\frac{\partial{(\sigma(x)})}{\partial{x}}=\frac{\partial{(\frac{1}{a}})}{\partial{x}}=-(\frac{1}{a})^{2}*\frac{\partial{a}}{\partial{x}}=-(\frac{1}{a})^{2}*e^{-x}*(-1)=\frac{e^{-x}}{(1+e^{-x})^{2}}\]
用\(\sigma(x)\)可以表示为\(\sigma(x)-\sigma(x)^{2}\)
softmax + 交叉熵的梯度推导
作业要求如下:

解析:本题给定了实际值\(y\),预测值\(\hat{y}\),以及softmax的输入向量\(\theta\),要求我们求解\(CE(y,\hat{y})\)对\(\theta\)的梯度
解答:
对于每个\(\theta_{i}\)来说,\(CE(y,\hat{y})\)对\(\theta_{i}\)的梯度如下所示:

可知,对于所有的i来说,\(CE(y,\hat{y})\)对\(\theta_{i}\)的梯度为\(\hat{y}-y\)。
三层神经网络的梯度推导
作业要求如下:

解析:本题要求推导\(CE(y,\hat{y})\)对输入\(x\)的梯度。
解答:

斯坦福CS224n课程作业的更多相关文章
- 斯坦福NLP课程 | 第1讲 - NLP介绍与词向量初步
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www. ...
- 斯坦福NLP课程 | 第2讲 - 词向量进阶
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www. ...
- 斯坦福NLP课程 | 第11讲 - NLP中的卷积神经网络
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www. ...
- 斯坦福NLP课程 | 第12讲 - NLP子词模型
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www. ...
- 斯坦福NLP课程 | 第15讲 - NLP文本生成任务
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www. ...
- 斯坦福NLP课程 | 第18讲 - 句法分析与树形递归神经网络
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www. ...
- 关于Coursera上的斯坦福机器学习课程的编程作业提交问题
学习Coursera上的斯坦福机器学习课程的时候,需要向其服务器提交编程作业,我遇到如下问题: 'Submission failed: unexpected error: urlread: Peer ...
- 斯坦福大学cs231n作业参考(中文版)
cs231n2016冬季课程作业完成,在原先的基础上进行了翻译和中文注释,同时增加了16之后版本的部分新作业文件,已经全部跑通,需要的欢迎自取. 斯坦福大学的 CS231n(全称:面向视觉识别的卷积神 ...
- Web编程基础--HTML、CSS、JavaScript 学习之课程作业“仿360极速浏览器新标签页”
Web编程基础--HTML.CSS.JavaScript 学习之课程作业"仿360极速浏览器新标签页" 背景: 作为一个中专网站建设出身,之前总是做静态的HTML+CSS+DIV没 ...
随机推荐
- mysql-列属性
列属性 列属性是真正约束字段的数据类型,但是数据类型的约束很单一,需要有一些额外的约束来确保数据的合法性 NULL/NOT NULL.default.primary key.unique key.au ...
- JAVA小记 (1)
JVM: Java虚拟机 JVM个数取决于同时执行的程序个数 JDK:JAVA 开发工具包 Java利用JVM实行跨平台 JRE:Java运行环境 JavaSE:企业版 GC:垃圾回收机制 命名规范 ...
- Ubuntu16+pinpoint环境搭建
最近研究了pinpoint,稍后放上环境搭建教程,建议想学习搭建的同学记得参考pinpointGitHub
- Python学习 Part3:数据结构
Python学习 Part3:数据结构 1. 深入列表: 所有的列表对象方法 list.append(x): 在列表的末尾添加一个元素 list.extend(L): 在列表的末尾添加一个指定列表的所 ...
- Redis数据过期和淘汰策略详解(转)
原文地址:https://yq.aliyun.com/articles/257459# 背景 Redis作为一个高性能的内存NoSQL数据库,其容量受到最大内存限制的限制. 用户在使用Redis时,除 ...
- PAT1051:Pop Sequence
1051. Pop Sequence (25) 时间限制 100 ms 内存限制 65536 kB 代码长度限制 16000 B 判题程序 Standard 作者 CHEN, Yue Given a ...
- ehcache与redis的比较与应用场景分析(转)
ehcache直接在jvm虚拟机中缓存,速度快,效率高:但是缓存共享麻烦,集群分布式应用不方便.redis是通过socket访问到缓存服务,效率比ecache低,比数据库要快很多,处理集群和分布式缓存 ...
- Swift学习字符串、数组、字典
一.字符串的使用 let wiseWords = "\"I am a handsome\"-boy" var emptyString = "" ...
- jQuery上下滑动内容切换选项卡
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- 使用Spring Session实现Spring Boot水平扩展
小编说:本文使用Spring Session实现了Spring Boot水平扩展,每个Spring Boot应用与其他水平扩展的Spring Boot一样,都能处理用户请求.如果宕机,Nginx会将请 ...