Learning Convolutional Neural Networks for Graphs 2018-01-17  21:41:57 [Introduction] 这篇 paper 是发表在 ICML 2016 的:http://jmlr.org/proceedings/papers/v48/niepert16.pdf 上图展示了传统 CNN 在 image 上进行卷积操作的工作流程.(a)就是通过滑动窗口的形式,利用3*3 的卷积核在 image 上进行滑动,来感知以某一个像素点为中心…
From google institution; 1. Before this, DNN cannot be used to map sequences to sequences. In this paper, we propose a sequence learning that makes minimal assumptions on the sequence structure. use lstm to map the input sequence to a vector of a fix…
一.Training of a Single-Layer Neural Network 1 Delta Rule Consider a single-layer neural network, as shown in Figure 2-11. In the figure, d i is the correct output of the output node i. Long story short, the delta rule adjusts the weight as the follow…
第四周:深层神经网络(Deep Neural Networks) 深层神经网络(Deep L-layer neural network) 目前为止我们学习了只有一个单独隐藏层的神经网络的正向传播和反向传播,还有逻辑回归,并且你还学到了向量化,这在随机初始化权重时是很重要.本周所要做的是把这些理念集合起来,就可以执行你自己的深度神经网络. 严格上来说逻辑回归也是一个一层的神经网络,浅与深仅仅是指一种程度.有一个隐藏层的神经网络,就是一个两层神经网络.当我们算神经网络的层数时,我们不算输入层,我们只…
第三周:浅层神经网络(Shallow neural networks) 神经网络概述(Neural Network Overview) 本周你将学习如何实现一个神经网络.在我们深入学习具体技术之前,我希望快速的带你预览一下本周你将会学到的东西.如果在本节课中的某些细节你没有看懂你也不用担心,我们将在后面的几节课中深入讨论技术细节. 现在我们开始快速浏览一下如何实现神经网络.首先你需要输入特征 \(x​\),参数 \(w​\) 和 \(b​\),通过这些你就可以计算出 \(z​\),接下来使用 \…
Link of the Paper: https://arxiv.org/pdf/1409.3215.pdf Main Points: Encoder-Decoder Model: Input sequence -> A vector of a fixed dimensionality -> Target sequence. A multilayered  LSTM: The LSTM did not have difficulty on long sentences. Deep LSTMs…
论文下载 作者(三位Google大佬)一开始提出DNN的缺点,DNN不能用于将序列映射到序列.此论文以机器翻译为例,核心模型是长短期记忆神经网络(LSTM),首先通过一个多层的LSTM将输入的语言序列(下文简称源序列)转化为特定维度的向量,然后另一个深层LSTM将此向量解码成相应的另一语言序列(下文简称目标序列).我个人理解是,假设要将中文翻译成法语,那么首先将中文作为输入,编码成英语,然后再将英语解码成法语.这种模型与基于短语的统计机器翻译(Static Machine Translation…
Deep Neural Network Getting your matrix dimention right 选hyper-pamameter 完全是凭经验 补充阅读: cost 函数的计算公式: 求导公式…
整个deep learing 系列课程主要包括哪些内容 Intro to Deep learning…
NN representation 这一课主要是讲3层神经网络 下面是常见的 activation 函数.sigmoid, tanh, ReLU, leaky ReLU. Sigmoid 只用在输出0/1 时候的output layer, 其他情况基本不用,因为tanh 总是比sigmoid 好. 两种 ReLU 使用起来总是要比sigmoid 和 tanh 快.ReLU 是最常用的 activation. 为什么Activation function 要是non-linear的?因为如下图所示…