deformable conv】的更多相关文章

在原feature map上经过卷积生成与原feature map一样w.h大小的feature map,但是channel变为2倍,即2N.2N代表的是每个像素x.y两个方向的偏移量. 这个偏移量生成的坐标大概率是float型的,但像素或者feature map只有在整数位置才有值.所以找最近的4个整数位置的像素点进行双线性插值获得当前位置的值(这个与roi-align类似,都是通过对x.y取整和取整+1就能获得最近的4个坐标点)…
Deformable conv赋予了CNN位置变换的能力,与普通卷积的对比如下.可以看到,在每个特征点上,会产生一个偏移,变成 不规则的卷积(感觉本质上,就是让CNN自己去学习感受野). 思想来源于STN(Spatial Transform Network),但它们有着巨大的差别: STN得到的是全局(global)的变换,也就是说所得的的变换(旋转.缩放等)都是对整幅图片有效的,因而一幅图片只有一个变换.但许多图片是复杂的, 有多个目标,不同目标的变换方式不同,一个变换包打天下不成.因而出现了…
Deformable ConvNets 论文 Deformable Convolutional Networks(arXiv:1703.06211) CNN受限于空间结构,具有较差的旋转不变性,较弱的平移不变性.这篇论文提出了两个可替换原有组件的模块:可变形卷积和RoI pooling.均基于增加空间采样位置,通过网络学习位置偏移的思想. 传统增加空间变换性的方法 数据集增广 通过仿射变换等使数据集具有足够多的变换形式,使得模型能够从数据中学习到鲁棒的表示.但缺点是训练代价大,模型参数复杂. 使…
这篇论文真是让我又爱又恨,可以说是我看过的最认真也是最多次的几篇paper之一了,首先deformable conv的思想我觉得非常好,通过end-to-end的思想来做这件事也是极其的make sense的,但是一直觉得哪里有问题,之前说不上来,最近想通了几点,先初步说几句,等把他们的代码跑通并且实验好自己的几个想法后可以再来聊一聊.首先我是做semantic segmentation的,所以只想说说关于这方面的问题. 直接看这篇paper的话可能会觉得ji feng的这篇工作非常棒,但实际上…
1 空洞卷积 1.1 理解空洞卷积 在图像分割领域,图像输入到CNN(典型的网络比如FCN)中,FCN先像传统的CNN那样对图像做卷积再pooling,降低图像尺寸的同时增大感受野,但是由于图像分割预测是pixel-wise的输出,所以要将pooling后较小的图像尺寸upsampling到原始的图像尺寸进行预测,之前的pooling操作使得每个pixel预测都能看到较大感受野信息.因此图像分割FCN中有两个关键,一个是pooling减小图像尺寸增大感受野,另一个是upsampling扩大图像尺…
本文由DataFun社区根据微软亚洲研究院视觉组Lead Researcher Jifeng Dai老师在2018 AI先行者大会中分享的<Recent Advances on Object Detection in MSRA>编辑整理而成. 今天分享的内容会从以下几个方面进行,首先是R-FCN and its extensions,然后是Deformable Conv Nets and its extensions,接着是我们在Video object detection方面所做的工作,最后…
论文:Receptive Field Block Net for Accurate and Fast Object Detection 发表时间:2018 发表作者:(Beihang University)Songtao Liu, Di Huang, Yunhong Wang 发表刊物/会议:ECCV 论文链接:论文链接 一些检测论文会依赖很深的 CNN 网络来提升效果,但此类网络会牺牲运行速度.在 RFB 论文中,作者由视觉感受野(Receptive Fields)出发提出了感受野 RFB 模…
中心思想 继Relation Network实现可学习的nms之后,MSRA的大佬们觉得目标检测器依然不够fully learnable,这篇文章类似之前的Deformable ROI Pooling,主要在ROI特征的组织上做文章,文章总结了现有的各种ROI Pooling变体,提出了一个统一的数学表达式,藉由这个表达式,提出完全可学习,无人工设计的Region特征,据Han Hu大佬的讲座所说,这篇文章现在只是提出了一种行得通的方案,还没有研究清楚,性能比Deformable Conv那篇文…
CVPR2019论文看点:自学习Anchor原理 原论文链接:https://arxiv.org/pdf/1901.03278.pdf CVPR2019的一篇对anchor进行优化的论文,主要将原来需要预先定义的anchor改成直接end2end学习anchor位置和size.首先anchor的定义通常为(x, y, w, h) (x, y为中心点),formulate一下: 本文所提的guided anchoring利用两个branch分别预测anchor的位置和w.h: guided anc…
作者:褚超群 | 旷视科技 MegEngine 架构师 背景介绍 在算法研究的过程中,算法同学们可能经常会尝试定义各种新的神经网络层(neural network layer),比如 Layer Norm,Deformable Conv 等.为了实现这些层以进行实验,算法同学可以使用神经网络框架或者 numpy 中提供的基础操作(如张量/标量的加减乘除等)去组合出所需的层的功能.然而这通常会造成这些层的性能断崖式的下跌,大大影响了算法同学们尝试新算法的效率.所以很多情况下,算法同学们会选择为自己…