【论文阅读】Deep Mutual Learning】的更多相关文章

ResNet网络,本文获得2016 CVPR best paper,获得了ILSVRC2015的分类任务第一名. 本篇文章解决了深度神经网络中产生的退化问题(degradation problem).什么是退化问题呢?如下图: 上图所示,网络随着深度的增加(从20层增加到56层),训练误差和测试误差非但没有降低,反而变大了.然而这种问题的出现并不是因为过拟合(overfitting). 照理来说,如果我们有一个浅层的网络,然后我们可以构造一个这样的深层的网络:前面一部分的网络和浅层网络一模一样,…
文章:Deep Mutual Learning 出自CVPR2017(18年最佳学生论文) 文章链接:https://arxiv.org/abs/1706.00384 代码链接:https://github.com/YingZhangDUT/Deep-Mutual-Learning…
目录 1. 动机详述和方法简介 2. 相关工作 3. 方法 3.1 Formulation 3.2 实现 3.3 弱监督学习 4. 实验 4.1 基本实验 4.2 深入实验 [算法和公式很simple,甚至有点naive,但文章的写作不错] 为了让小网络具有大能力,我们通常使用蒸馏.这篇文章提出了一种新方法:深度相互学习(deep mutual learning, DML).与蒸馏法不同,相互学习中存在多个学生共同学习,并且每个学生之间要互相学习.实验还发现了一个惊人的结果:我们不需要piror…
[论文阅读笔记] Adversarial Learning on Heterogeneous Information Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 现有的异构网络(HIN)嵌入方法本质上可以归结为两个步骤(1)正样本生成和负样本生成(2)在这些样本上训练模型优化目标函数以得到更合适的节点嵌入.目前主流的异构网络嵌入方法存在以下几个问题: Problem 1: 首先,这些算法一般从原始网络中随机选择节点与中心节点组合生成正样本或者负样本,即,…
论文地址: https://arxiv.org/abs/1706.00384 论文简介 该论文探讨了一种与模型蒸馏(model distillation)相关却不同的模型---即相互学习(mutual learning). 蒸馏从一个强大的大型预训练教师网络开始,并向未经训练的小型学生网络进行单向知识转移. 相反,在相互学习中,我们从一群未经训练的学生网络开始,他们同时学习一起解决任务. 具体来说,每个学生网络都有两个的损失函数:一种传统的监督性损失函数,以及一种模仿性的损失函数(mimicry…
论文地址:Deep Residual Learning for Image Recognition ResNet--MSRA何凯明团队的Residual Networks,在2015年ImageNet上大放异彩,在ImageNet的classification.detection.localization以及COCO的detection和segmentation上均斩获了第一名的成绩,而且Deep Residual Learning for Image Recognition也获得了CVPR20…
Deep Residual Learning for Image Recognition 简介 这是何大佬的一篇非常经典的神经网络的论文,也就是大名鼎鼎的ResNet残差网络,论文主要通过构建了一种新的网络结构来解决当网络层数过高之后更深层的网络的效果没有稍浅层网络好的问题,并且做出了适当解释,用ResNet很好的解决了这个问题. 背景 深度卷积神经网络已经在图像分类问题中大放异彩了,近来的研究也表明,网络的深度对精度起着至关重要的作用.但是,随着网络的加深,有一个问题值得注意,随着网络一直堆叠…
论文标题:Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis 论文链接:http://arxiv.org/abs/1905.05812 文章同时使用视觉.语音.和文本(语言)信息进行情感分析,通过增加视觉和语音信号,补足了一些无法通过文本来进行判断的情况,例如下图中,第一句话需要图像才能判断为负面情绪,第二句话同时语音和图像才能判断为负面情绪. 一.模型架构 模型整体思路 1.首先,每一个模…
端到端学习几何和背景的深度立体回归 摘要     本文提出一种新型的深度学习网络,用于从一对矫正过的立体图像回归得到其对应的视差图.我们利用问题(对象)的几何知识,形成一个使用深度特征表示的代价量(cost volume).我们通过对这一匹配代价卷使用3D卷积来学习结合上下文信息.利用本文提出的一种可微分的soft argmin操作可以对匹配代价卷回归得到视差值,这使得我们可以直接端到端地训练我们的网络达到亚像素级别的精度,而不需要任何后处理和正则化.我们在Scene Flow和 KITTI数据…
12 Inductive Representation Learning on Temporal Graphs link:https://arxiv.org/abs/2002.07962 本文提出了时间图注意(TGAT)层,以有效地聚合时间-拓扑邻域特征,并学习时间-特征之间的相互作用.对于TGAT,本文采用自注意机制作为构建模块,并基于调和分析中的经典Bochner定理(又是没见过的定理QAQ)发展了一种新的函数时间编码技术. Conclusion 本文提出了一种新颖的时间感知图注意网络,用于…