url: https://arxiv.org/abs/1503.02531 year: NIPS 2014   简介 将大模型的泛化能力转移到小模型的一种显而易见的方法是使用由大模型产生的类概率作为训练小模型的"软目标"  其中, T(temperature, 蒸馏温度), 通常设置为1的.使用较高的T值可以产生更软的类别概率分布. 也就是, 较高的 T 值, 让学生的概率分布可以更加的接近与老师的概率分布, 下面通过一个直观的例子来感受下 def softmax_with_T(…
原文链接 小样本学习与智能前沿 . 在这个公众号后台回复"DKNN",即可获得课件电子资源. 文章已经表明,对于将知识从整体模型或高度正则化的大型模型转换为较小的蒸馏模型,蒸馏非常有效.在MNIST上,即使用于训练蒸馏模型的迁移集缺少一个或多个类别的任何示例,蒸馏也能很好地工作.对于Android语音搜索所用模型的一种深层声学模型,我们已经表明,通过训练一组深层神经网络实现的几乎所有改进都可以提炼成相同大小的单个神经网络,部署起来容易得多. 对于非常大的神经网络,甚至训练一个完整的集成…
论文内容 G. Hinton, O. Vinyals, and J. Dean, "Distilling the Knowledge in a Neural Network." 2015. 如何将一堆模型或一个超大模型的知识压缩到一个小模型中,从而更容易进行部署? 训练超大模型是因为它更容易提取出数据的结构信息(为什么?) 知识应该理解为从输入到输出的映射,而不是学习到的参数信息 模型的泛化性来源于错误答案的相对概率大小(一辆宝马被误判为卡车的概率大于被误判为萝卜的概率),而泛化性是学…
原来交叉熵还有一个tempature,这个tempature有如下的定义: \[ q_i=\frac{e^{z_i/T}}{\sum_j{e^{z_j/T}}} \] 其中T就是tempature,一般这个T取值就是1,如果提高: In [6]: np.exp(np.array([1,2,3,4])/2)/np.sum(np.exp(np.array([1,2,3,4])/2)) Out[6]: array([0.10153632, 0.1674051 , 0.27600434, 0.45505…
Distilling the Knowledge in Neural Network Geoffrey Hinton, Oriol Vinyals, Jeff Dean preprint arXiv:1503.02531, 2015 NIPS 2014 Deep Learning Workshop 简单总结 主要工作(What) "蒸馏"(distillation):把大网络的知识压缩成小网络的一种方法 "专用模型"(specialist models):对于一个大…
Progressive Neural Network  Google DeepMind 摘要:学习去解决任务的复杂序列 --- 结合 transfer (迁移),并且避免 catastrophic forgetting (灾难性遗忘) --- 对于达到 human-level intelligence 仍然是一个关键性的难题.本文提出的 progressive networks approach 朝这个方向迈了一大步:他们对 forgetting 免疫,并且可以结合 prior knowledg…
下面的RNN,LSTM,GRU模型图来自这里 简单的综述 1. RNN 图1.1 标准RNN模型的结构 2. BiRNN 3. LSTM 图3.1 LSTM模型的结构 4. Clockwork RNN 5. Depth Gated RNN 6. Grid LSTM 7. DRAW 8. RLVM 9. GRU 图9.1 GRU模型的结构 10. NTM 11. QRNN 图11.1 f-pooling时候的QRNN结构图 图11.2 fo-pooling时候的QRNN结构图 图11.3 ifo-…
0.引言 我们发现传统的(如前向网络等)非循环的NN都是假设样本之间无依赖关系(至少时间和顺序上是无依赖关系),而许多学习任务却都涉及到处理序列数据,如image captioning,speech synthesis,music generation是基于模型输出序列数据:如time series prediction,video analysis,musical information retrieval是基于模型输入需要序列数据:而如translating natural language…
In this chapter, we'll cover the following recipes: Implementing Operational Gates Working with Gates and Activation Functions Implementing an One-Hidden-Layer Neural Network Implementing Different Layers Using Multilayer Networks Improving Predictio…
Recurrent Neural Network 2016年07月01日  Deep learning  Deep learning 字数:24235   this blog from: http://jxgu.cc/blog/recent-advances-in-RNN.html    References Robert Dionne Neural Network Paper Notes Baisc Improvements 20170326 Learning Simpler Language…