论文名称:CornerNet: Detecting Objects as Paired Keypoints

论文链接:https://arxiv.org/abs/1808.01244

代码链接:https://github.com/princeton-vl/CornerNet


简介

这篇文章是ECCV2018的一篇目标检测论文,该论文的创新之处在于使用Keypoints代替原来的anchor思想进行目标检测,提出检测目标左上点和右下点来确定一个边界框,提出一个新的池化方法:corner pooling,在mscoco数据集上达到42.2%的ap,精度上是当时的单阶段目标检测器的state of the art,但是速度略慢,大约1fps(论文为Titan X 244ms/f),无法满足工程需求。

相对于基于anchor检测器创新意义有:

  1. anchor数量巨大,造成训练正负样本不均衡(anchor机制解决方式为难例挖掘,比如ohem,focal loss)
  2. anchor超参巨多,数量,大小,宽高比等等(比如yolo多尺度聚类anchor,ssd的多尺度aspect ratio)

算法整体架构

如上图fig1,经过特征提取主干网络(主干网络为Hourglass-104)后分为两个分支(两个分支分别接前面提到的corner pooling,随后细谈),一个分支生成目标左上点热力图,一个分支生成目标右下点热力图,而此时两个热力图并没有建立联系,因此无法确定两点是够属于同一目标,因此两分支同时生成embeddings,通过判断两个embedding vector的相似性确定同一物体(距离小于某一阈值则划为同一目标)。

如上图fig4,图片首先经过1个7×7的卷积层将输入图像尺寸缩小为原来的1/4(论文中输入图像大小是511×511,缩小后得到128×128大小的输出)。

然后经过hourglass-104提取特征,该网络通过串联多个hourglass module组成(Figure4中的hourglass network由2个hourglass module组成),每个hourglass module都是先通过一系列的降采样操作缩小输入的大小,然后通过上采样恢复到输入图像大小,因此该部分的输出特征图大小还是128×128,整个hourglass network的深度是104层。

hourglass module后会有两个输出分支模块,分别表示左上角点预测分支和右下角点预测分支,每个分支模块包含一个corner pooling层和3个输出:heatmaps、embeddings和offsets。heatmaps是输出预测角点信息,可以用维度为CHW的特征图表示,其中C表示目标的类别(无背景类),每个点的预测值为0到1,表示该点是角点的分数;embeddings用来找到属于同一个目标的左上角角点和右下角角点;offsets用来对预测框做微调,与anchor机制中的offset有区别,前者用来微调特征图映射回原图后的取整量化误差,后者用来表示ground true与anchor的偏移。

Headmaps

CornerNet的第一个输出headmap用来预测角点的位置。公式(1)是针对角点预测(headmaps)的损失函数,是修改后的focal loss。

pcij表示预测的heatmaps在第c个通道(类别c)的(i,j)位置的值,ycij表示对应位置的ground truth,N表示目标的数量。ycij=1时候的损失函数容易理解,就是focal loss,α参数用来控制难易分类样本的损失权重;ycij等于其他值时表示(i,j)点不是类别c的目标角点,照理说此时ycij应该是0(大部分算法都是这样处理的),但是这里ycij不是0,而是用基于ground truth角点的高斯分布计算得到,因此距离ground truth比较近的(i,j)点的ycij值接近1,这部分通过β参数控制权重,这是和focal loss的差别。因为靠近ground truth的误检角点组成的预测框仍会和ground truth有较大的重叠面积,如下图所示,红色实线框是ground truth;橘色圆圈是根据ground truth的左上角角点、右下角角点和设定的半径值画出来的,半径是根据圆圈内的角点组成的框和ground truth的IOU值大于0.7而设定的,圆圈内的点的数值是以圆心往外呈二维的高斯分布;白色虚线是一个预测框,可以看出这个预测框的两个角点和ground truth并不重合,但是该预测框基本框住了目标,因此是有用的预测框,所以要有一定权重的损失返回,这就是为什么要对不同负样本点的损失函数采取不同权重值的原因。

Embeddings

CornerNet的第二个输出是embeddings,对应文章中group corner的内容。前面介绍了关于角点的检测,在那部分中对角点的预测都是独立的,不涉及一个目标的一对角点的概念,因此如何找到一个目标的两个角点就是第三个输出embedding做的工作。这部分是受associative embedding那篇文章的启发,简而言之就是基于不同角点的embedding vector之间的距离找到每个目标的一对角点,如果一个左上角角点和一个右下角角点属于同一个目标,那么二者的embedding vector之间的距离应该很小。

embedding这部分的训练是通过两个损失函数实现的,etk表示属于k类目标的左上角角点的embedding vector,ebk表示属于k类目标的右下角角点的embedding vector,ek表示etk和ebk的均值。公式(4)用来缩小属于同一个目标(k类目标)的两个角点的embedding vector(etk和ebk)距离。公式(5)用来扩大不属于同一个目标的两个角点的embedding vector距离。

Offsets

CornerNet的第三个输出是offset,这个值和目标检测算法中预测的offset类似却完全不一样,说类似是因为都是偏置信息,说不一样是因为在目标检测算法中预测的offset是表示预测框和anchor之间的偏置,而这里的offset是表示在取整计算时丢失的精度信息,如上式(2),其中(xk,yk)表示第k个角点的原图坐标值,n代表下采样因子,ok表示特征图缩放回原图后与原gt框的精度损失。然后通过公式(3)的smooth L1损失函数监督学习该参数,和常见的目标检测算法中的回归支路类似。

Corner pooling

CornerNet是预测左上角和右下角两个角点,但是这两个角点在不同目标上没有相同规律可循,如果采用普通池化操作,那么在训练预测角点支路时会比较困难。作者认为左上角角点的右边有目标顶端的特征信息(第一张图的头顶),左上角角点的下边有目标左侧的特征信息(第一张图的手),因此如果左上角角点经过池化操作后能有这两个信息,那么就有利于该点的预测。Figure3是针对左上角点做corner pooling的示意图,该层有2个输入特征图,特征图的宽高分别用W和H表示,假设接下来要对图中红色点(坐标假设是(i,j))做corner pooling,那么就计算(i,j)到(i,H)的最大值(对应Figure3上面第二个图),类似于找到Figure2中第一张图的左侧手信息;同时计算(i,j)到(W,j)的最大值(对应Figure3下面第二个图),类似于找到Figure2中第一张图的头顶信息,然后将这两个最大值相加得到(i,j)点的值(对应Figure3最后一个图的蓝色点)。右下角点的corner pooling操作类似,只不过计算最大值变成从(0,j)到(i,j)和从(i,0)到(i,j)。

Figure6也是针对左上角点做corner pooling的示意图,是Figure3的具体数值计算例子,该图一共计算了4个点的corner pooling结果。

Prediction module

Figure7是Figure4中预测模块的详细结构,该结构包括corner pooling模块和预测输出模块两部分,corner pooling模块采用了类似residual block的形式,有一个skip connection,虚线框部分执行的就是corner pooling操作,也就是Figure6的操作。

Loss function

Ldet为角点损失,Lpull、Lpush为embedding损失,Loff为offset损失

其中α为0.1,β为0.1,γ为1,损失函数优化方式为Adam

Testing details

1、在得到预测角点后,会对这些角点做NMS操作,选择前100个左上角角点和100个右下角角点。

2、计算左上角和右下角角点的embedding vector的距离时采用L1范数,距离大于0.5或者两个点来自不同类别的目标的都不能构成一对,检测分数是两个角点的平均分数。

3、测试图像采用0值填充方式得到指定大小作为网络的输入,而不是采用resize,另外同时测试图像的水平翻转图并融合二者的结果。

4、最后通过soft-nms操作去除冗余框,只保留前100个预测框。

Eexperiment

上表Table1是关于是否添加corner pooling的消融实验,可以看出第二行(添加)提升效果明显,尤其在大目标上

上表Table2是关于不同位置负样本采取不同权重的损失函数的效果,第一行为无惩罚减少机制,第二行为固定半径,第三行为采用目标计算得到的半径值,效果提升明显,尤其是在中、大目标上。

上表Table3是关于corner pooling分别对左上角点预测和右下角点预测的影响。

上表Table4是关于主干网络选择的消融实验,该实验分别以fpn为主干网络+corner检测方式,hourglass-104为主干网络+anchor检测方式,hourglass-104为主干网络+corner检测方式,最后说明本文组合方式效果最佳。

上表Table5将cornernet分别与RetinaNet、Cascade R-CNN、IoU-Net在高iou阈值下进行ap对比,证明“好的检测期的边界框与gt更贴近”

上表Table6错误分析。第一行是这篇文章的算法结果;第二行是将角点预测结果用ground truth代替,可以看到提升非常大;第三行是进一步将偏置用ground truth代替,相比之下提升会小很多。这说明目前该算法的瓶颈主要在于角点预测

上表Table7是connerNet和其他优秀目标检测算法的效果对比。

总结

本论文主要提出使用一对关键点(左上角点,右下角点)进行目标检测,并取得非常好的检测精度,由此掀起anchor-free热潮,博主在写此篇博文时cornernet已经被deprecated,取而代之的还是普林斯顿大学团队提出的cornernet-lite(https://arxiv.org/abs/1904.08900),该论文在速度和精度上均对cornernet进行提升,另一篇同期论文(2019.04)centernet(https://arxiv.org/abs/1904.08189)提出Keypoint Triplets思想也对cornernet进行优化,达到目前单阶段目标检测器最高精度(47.0%)。接下来我将对以上两篇论文进行总结,并有可能分析cornernet系列的源码实现细节。本文参考:https://blog.csdn.net/u014380165/article/details/83032273

CornerNet 算法笔记的更多相关文章

  1. CornerNet-Lite算法笔记

    论文名称:CornerNet-Lite: Efficient Keypoint Based Object Detection 论文链接:https://arxiv.org/abs/1904.08900 ...

  2. 学习Java 以及对几大基本排序算法(对算法笔记书的研究)的一些学习总结(Java对算法的实现持续更新中)

    Java排序一,冒泡排序! 刚刚开始学习Java,但是比较有兴趣研究算法.最近看了一本算法笔记,刚开始只是打算随便看看,但是发现这本书非常不错,尤其是对排序算法,以及哈希函数的一些解释,让我非常的感兴 ...

  3. 算法笔记--数位dp

    算法笔记 这个博客写的不错:http://blog.csdn.net/wust_zzwh/article/details/52100392 数位dp的精髓是不同情况下sta变量的设置. 模板: ]; ...

  4. 算法笔记--lca倍增算法

    算法笔记 模板: vector<int>g[N]; vector<int>edge[N]; ][N]; int deep[N]; int h[N]; void dfs(int ...

  5. 算法笔记--STL中的各种遍历及查找(待增)

    算法笔记 map: map<string,int> m; map<string,int>::iterator it;//auto it it = m.begin(); whil ...

  6. 算法笔记--priority_queue

    算法笔记 priority_queue<int>que;//默认大顶堆 或者写作:priority_queue<int,vector<int>,less<int&g ...

  7. 算法笔记--sg函数详解及其模板

    算法笔记 参考资料:https://wenku.baidu.com/view/25540742a8956bec0975e3a8.html sg函数大神详解:http://blog.csdn.net/l ...

  8. 算法笔记——C/C++语言基础篇(已完结)

    开始系统学习算法,希望自己能够坚持下去,期间会把常用到的算法写进此博客,便于以后复习,同时希望能够给初学者提供一定的帮助,手敲难免存在错误,欢迎评论指正,共同学习.博客也可能会引用别人写的代码,如有引 ...

  9. 算法笔记_067:蓝桥杯练习 算法训练 安慰奶牛(Java)

    目录 1 问题描述 2 解决方案   1 问题描述 问题描述 Farmer John变得非常懒,他不想再继续维护供奶牛之间供通行的道路.道路被用来连接N个牧场,牧场被连续地编号为1到N.每一个牧场都是 ...

随机推荐

  1. ubuntu NAT dhcp

    说明: 1.在服务器版本中,没有想桌面版一样的NetworkManager工具,所以的一切都是在命令行上操作的. 2.本文只针对DHCP默认分配的IP进行查看. 方法: 1.如果要使用DHCP,那么需 ...

  2. typescript枚举字符串型不能使用函数问题

    数字型枚举 enum OrderStatus { Start = 1, Unpaid, Shipping, Shipped, Complete } 或者 enum OrderStatus { Star ...

  3. CodeFroces 758C - Unfair Poll

    题意: 老师点名,顺序是1 -- n -- 1 排为一个循环,每列为1 -- m的顺序, 问点到最多次数和最少次数的人的次数以及(x,y)被点的次数. 分析: 由于点名有循环,故可先判断出每一个循环每 ...

  4. Linux Tomcat 文件上传异常

    如题: ERROR > The temporary upload location [/tmp/tomcat.7982919351026796141.9097/work/Tomcat/local ...

  5. PCI-CAN卡驱动与数据通信调试小记

    以前做项目,不注意记录调试过程中遇到的问题,以后应该注意这一点.今天抽空总结一下PCI-CAN卡驱动与数据通信调试过程中遇到的问题,方便以后回忆和思考. 1. 中断服务之字节流报文组包状态机 这是一个 ...

  6. numpy中np.linalg.norm()求向量、矩阵的范数

    np.linalg.norm() # linalg = linear(线性) + algebra(代数),   norm表示范数 x_norm = np.linalg.norm(x, ord=None ...

  7. ISO15765

    常用的缩略词 ISO15765网络层服务 协议功能 a)发送/接收最多4095个字节的数据信息: b)报告发送/接收完成状态. 网络层内部传输服务,CAN总线上的数据帧没帧只能传输8个字节,ISO 为 ...

  8. 「HNOI2014」世界树

    题目链接 问题分析 首先观察数据范围可以知道要用虚树.但是要考虑怎么维护原树的距离信息. 如果只有两个关键点,我们可以很方便地找到中点将整棵树划分为两部分.而如果有多个关键点,看起来有效的方法就是多源 ...

  9. html基础(img、a、列表 )

    图片标签(img) <img src="图片路径" alt="图片描述 图片无法正常显示出现文字" title="爱你"/> i ...

  10. vue-loader+webpack配置项目流程

    前提:安装了node.js与npm 1.建立一个npm项目 新建项目文件夹,打开终端,将路径移动至此文件夹,初始化输入 npm init 按照提示输入项目名称,描述,作者等信息(可回车跳过) 成功创建 ...