论文的三个贡献 (1)提出了two-stream结构的CNN,由空间和时间两个维度的网络组成. (2)使用多帧的密集光流场作为训练输入,可以提取动作的信息. (3)利用了多任务训练的方法把两个数据集联合起来. Two stream结构 视屏可以分成空间与时间两个部分,空间部分指独立帧的表面信息,关于物体.场景等:而时间部分信息指帧间的光流,携带着帧之间的运动信息.相应的,所提出的网络结构由两个深度网络组成,分别处理时间与空间的维度. 可以看到,每个深度网络都会输出一个softmax层,最后会通过…
Two-Stream Convolutional Networks for Action Recognition in Videos & Towards Good Practices for Very Deep Two-Stream ConvNets Note here: it's a learning note on the topic of video representations. This note incorporates two papers about popular two-s…
ICLR2016_DELVING DEEPER INTO CONVOLUTIONAL NETWORKS Note here: Ballas recently proposed a novel framework on learning video representation, following is the review note after reading his paper. Link: http://arxiv.org/pdf/1511.06432v4.pdf [Brief intro…
Spatial pyramid pooling in deep convolutional networks for visual recognition 作者: Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun 引用: He, Kaiming, et al. "Spatial pyramid pooling in deep convolutional networks for visual recognition." IEEE…
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun  The 13th European Conference on Computer Vision (ECCV), 2014 声明:本文所有图片均来自原始文章,自己的理解也未必正确,请查看原图并拍砖 本文的两个亮点: 1. 多尺度训练CN…
http://www.dengfanxin.cn/?p=403 原文地址 我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加灵活,分析到卷积网络对尺寸并没有要求,固定尺寸的要求完全来源于全连接层部分,因而借助空间金字塔池化的方法来衔接两者,SPPNet在检测领域的重要贡献是避免了R-CNN的变形.重复计算等问题,在效果不衰减的情况下,大幅提高了识别速度.   用于视觉识别的深度卷积网络空间金字塔池化方法 Spatial…
论文标题:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 标题翻译:用于视觉识别的深度卷积神经网络中的空间金字塔池 论文作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun 论文地址:https://arxiv.org/pdf/1406.4729.pdf SPP的GitHub地址:https://github.com/yueruc…
这篇文章比较简单,但还是不想写overview,转自: https://blog.csdn.net/zimenglan_sysu/article/details/52451098 另外,读这篇paper的时候,一直想不明白白一个问题,就是他分出了\(k^2\)个Instance-sensitive score maps,他是怎么训练的..换句话说,ground truth是怎么弄的? 文章里只说了用logistics做损失函数,应该需要看代码,因为还没有搞分割的打算,先不详细了解代码. Inst…
注意力机制之Attention Augmented Convolutional Networks 原始链接:https://www.yuque.com/lart/papers/aaconv 核心内容 We propose to augment convolutional operators with this self-attention mechanism by concatenating convolutional feature maps with a set of feature map…
[论文标题]Predict and Constrain: Modeling Cardinality in Deep Structured Prediction   (35th-ICML,PMLR) [论文作者]Nataly Brukhim,Amir Globerson [论文链接]Paper (13-pages // Single column) [摘要] 许多机器学习问题需要多维标签的预测.这种结构化预测模型可以从标签之间的依赖关系建模中获益.最近,已有研究提出了几种结构预测的深度学习方法.在…