一.Abstract综述 训练出一个CNN可以同时实现分类,定位和检测..,三个任务共用同一个CNN网络,只是在pool5之后有所不同 二.分类 这里CNN的结构是对ALEXNET做了一些改进,具体的在论文中都说了,就不再赘述了.说几个关键的地方. 1.之前在多尺度的情况下,Krizhevsky用的是multi—view的方法,也就是对给定的图片分别取四个角,中间以及翻转的图块输入到CNN中,得到的结果取均值.这个方法的缺陷在于有些区域的组合会被忽略(比如   ground truth在中间偏右…
ReNet: A Recurrent Neural Network Based Alternative to Convolutional Networks2018-03-05  11:13:05   1. 引言: 本文尝试用 基于四个方向的 RNN 来替换掉 CNN中的 convolutional layer(即:卷积+Pooling 的组合).通过在前一层的 feature 上进行四个方向的扫描,完成特征学习的过程. The recurrent layer ensures that each…
论文笔记-IGCV3:Interleaved Low-Rank Group Convolutions for Efficient Deep Neural Networks 2018年07月11日 14:05:46 Liven_Zhu 阅读数 846   介绍 在这篇论文中,作者同时使用低秩核和稀疏核(low-rank and sparse kernel)来组成一个密集kernel.基于ICGV2的基础上,作者提出了ICGV3. 近几年,卷积网络在计算机视觉上的有效性已经得到了验证.目前卷积网络的…
文章采用了多实例学习(MIL)机制构建图像标签同像素语义的关联 . 该方法的训练样本包含了70 万张来自ImageNet的图片,但其语义分割的性能很大程度上依赖于复杂的后处理过程,主要包括图像级语义的预测信息.超像素平滑策略.物体候选框平滑策略和 MCG分割区域平滑策略. 下图是论文所用方法的一般性说明: (1)使用来自Imagenet的弱注释数据(仅图像级别的类别信息)对模型进行训练.(2)CNN生成特征平面.(3)这些平面通过一个聚合层来约束模型,把更多的权重放在正确的像素上.(4)通过分类…
http://www.dengfanxin.cn/?p=403 原文地址 我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加灵活,分析到卷积网络对尺寸并没有要求,固定尺寸的要求完全来源于全连接层部分,因而借助空间金字塔池化的方法来衔接两者,SPPNet在检测领域的重要贡献是避免了R-CNN的变形.重复计算等问题,在效果不衰减的情况下,大幅提高了识别速度.   用于视觉识别的深度卷积网络空间金字塔池化方法 Spatial…
论文源址:https://arxiv.org/abs/1406.4729 tensorflow相关代码:https://github.com/peace195/sppnet 摘要 深度卷积网络需要输入固定尺寸大小的图片(224x224),这引入了大量的手工因素,同时,一定程度上,对于任意尺寸的图片或者子图会降低识别的准确率.SPP-net对于任意大小的图片,可以生成固定长度的特征表述.SPP-net对于变形的图片仍有一定的鲁棒性.基于上述优点,SPP-net会提高基于CNN的图像分类的效果. S…
github地址:https://github.com/zhanghang1989/ResNeSt 论文地址:https://hangzhang.org/files/resnest.pdf 核心就是:Split-attention blocks 先看一组图: ResNeSt在图像分类上中ImageNet数据集上超越了其前辈ResNet.ResNeXt.SENet以及EfficientNet.使用ResNeSt-50为基本骨架的Faster-RCNN比使用ResNet-50的mAP要高出3.08%…
SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 2019-04-02 12:44:36 Paper:https://arxiv.org/pdf/1812.11703.pdf Project:https://lb1100.github.io/SiamRPN++ 1. Background and Motivation: 与 CVPR 2019 的另一篇文章 Deeper and Wider Siames…
Video Frame Synthesis using Deep Voxel Flow 论文笔记 arXiv 摘要:本文解决了模拟新的视频帧的问题,要么是现有视频帧之间的插值,要么是紧跟着他们的探索.这个问题是非常具有挑战性的,因为,视频的外观和运动是非常复杂的.传统 optical-flow-based solutions 当 flow estimation 失败的时候,就变得非常困难:而最新的基于神经网络的方法直接预测像素值,经常产生模糊的结果. 于是,在此motivation的基础上,作者…
[论文信息] <Feedforward semantic segmentation with zoom-out features> CVPR 2015 superpixel-level,fully supervised,CNN [方法简单介绍] 首先对输入图像以superpixel为单位提取CNN特征(使用VGG16),然后把这些特征作为CNN classifier(使用imageNet)的输入,imageNet输出是每一个superpixel的class. [细节记录] feature 特征…