[论文理解] CornerNet: Detecting Objects as Paired Keypoints 简介 首先这是一篇anchor free的文章,看了之后觉得方法挺好的,预测左上角和右下角,这样不需要去管anchor了,理论上也就w*h个点,这总比好几万甚至好几十万的anchor容易吧.文章灵感来源于Newell et al. (2017) on Associative Embedding in the context of multi-person pose estimation…
以下内容将介绍ECCV2018的一篇目标检测的文章<CornerNet: Detecting Objects as Paired Keypoints>.该文章讲述了一个老子就是不用anchor boxes的还能做目标检测的故事.对了据说代码公布了(反正我下载的时候里面是缺东西的). 这篇文章为什么让我喜欢看呢 1.你们用anchor boxes但我就不用2.有了一种新的pooling方式,corner pooling3.将很多人体姿态识别的方法和思想用到了目标检测4.我们小组汇报我得汇报这一篇…
CornerNet是一种anchor free的目标检测方法,不需要设置anchor,而是通过检测关键点(Keypoints),即目标的左上角(Top-Left Corners)和右下角(Bottom-Right Corners),再进行配对,来实现目标的检测. 网络的前半部分是一个卷积网络,后半部分是两个独立的分支,一个检测Top-Left Corners,另一个检测Bottom-Right Corners,两个分支分别生成一个热图,来预测每一个位置是Top-Left Corner或者Bott…
论文原址:https://arxiv.org/pdf/1808.01244.pdf github:https://github.com/princeton-vl/CornerNet 摘要 本文提出了目标检测算法的新的模型结构,利用单个卷积网络将框的左上角及右下角两个点组成一对关键点,进而不需要设计在单阶段检测中大量的anchor boxes,同时,引入了corner pooling用于提升角点定位效果. 介绍 单阶段检测通过密集的anchor box及后续的增强定位来获得好的检测效果,但使用an…
论文地址:https://arxiv.org/abs/1808.01244v1 论文代码:https://github.com/umich-vl/CornerNet 概述 CornerNet是一篇发表在ECCV 2018的目标检测论文.有别于主流目标检测算法基于anchor box的思想,CornerNet将关键点检测用于目标检测,通过检测目标区域的左上角和右下角这两个关键点来获取预测框.CornerNet创新性强,而且检测效果很好,在MS COCO数据集上的AP达到42.1%. CornerN…
[论文理解]关于ResNet的理解 这两天回忆起resnet,感觉残差结构还是不怎么理解(可能当时理解了,时间长了忘了吧),重新梳理一下两点,关于resnet结构的思考. 要解决什么问题 论文的一大贡献就是,证明了即使是深度网络,也可以通过训练达到很好的效果,这跟以往的经验不同,以往由于网络层数的加深,会出现梯度消失的现象.这是因为,在梯度反传的时候,由于层数太深,传递过程又是乘法传递,所以梯度值会越乘越小,梯度消失在所难免.那么怎么才能解决这个问题呢?resnet提供了很好的思路. 怎么解决…
MetaAnchor: Learning to Detect Objects with Customized Anchors Intro 本文我其实看了几遍也没看懂,看了meta以为是一个很高大上的东西,一搜是元学习的范畴,学会如何学习,很绕人.万般无奈之下请教了下老师,才知道他想表达什么.其实作者的想法很简单,就是先把最后anchor预测类别和位置的权重拿出来,这里的权重通过设计另一个网络来预测,而这个网络的参数又可以通过整个网络的训练梯度回传来学习.这样做的好处是,将anchor的配置(w,…
1.cornerpooling的设计,个人觉得解释有些牵强. 这里的两个特征图如何解释,corner点为何是横向与纵向响应最强的点.如果仅仅当成一种奇特的池化方式,恰好也有着不错的效果,那倒是可以接受,论文中的解释实在难以接受. 看了CSDN AI之路的博客https://blog.csdn.net/u014380165/article/details/83032273,似乎有些理解了.特此摘抄下来. 如图Figure2所示.因此CornerNet是预测左上角和右下角两个角点,但是这两个角点在不…
一.R-FCN初探 1. R-FCN贡献 提出Position-sensitive score maps来解决目标检测的位置敏感性问题: 区域为基础的,全卷积网络的二阶段目标检测框架: 比Faster-RCNN快2.5-20倍(在K40GPU上面使用ResNet-101网络可以达到 0.17 sec/image); 2. R-FCN与传统二阶段网络的异同点 图1 R-FCN与传统二阶段网络的异同点相同点:首先,两者二阶段的检测框架(全卷积子网络+RoI-wise subnetwork); 其次两…
YOLO3主要的改进有:调整了网络结构:利用多尺度特征进行对象检测:对象分类用Logistic取代了softmax. 1.Darknet-53 network在论文中虽然有给网络的图,但我还是简单说一下.这个网络主要是由一系列的1x1和3x3的卷积层组成(每个卷积层后都会跟一个BN层和一个LeakyReLU)层,作者说因为网络中有53个convolutional layers,所以叫做Darknet-53(我数了下,作者说的53包括了全连接层但不包括Residual层).下图就是Darknet-…
概述 YOLO(You Only Look Once: Unified, Real-Time Object Detection)从v1版本进化到了v2版本,作者在darknet主页先行一步放出源代码,论文在我们等候之下终于在12月25日发布出来. 新的YOLO版本论文全名叫“YOLO9000: Better, Faster, Stronger”,主要有两个大方面的改进: 第一,作者使用了一系列的方法对原来的YOLO多目标检测框架进行了改进,在保持原有速度的优势之下,精度上得以提升.VOC 200…
这篇博客主要是讲下我在阅读ssd论文时对论文的理解,并且自行使用pytorch实现了下论文的内容,并测试可以用. 开篇放下论文地址https://arxiv.org/abs/1512.02325,可以自行参考论文. 接着放下我使用pytorch复现的版本地址https://github.com/acm5656/ssd_pytorch,如果这篇博客或者代码有帮到你,麻烦给个星哈. 代码解读的博客链接如下https://www.cnblogs.com/cmai/p/10080005.html,欢迎大…
Connectionist Text Proposal Network 简介 CTPN是通过VGG16后在特征图上采用3*3窗口进行滑窗,采用与RPN类似的anchor机制,固定width而只预测anchor的y坐标和高度,达到比较精准的text proposal效果.同时,文章的亮点在于引入了RNN,使用BLSTM使得预测更加精准.CTPN在自然场景下文本提取的效果很不错,不同于传统的bottom-up方法,传统方法通过检测单个字符然后再去连接文本线,其准确性主要依赖于单个字符的识别,而且错误…
Deep Residual Learning for Image Recognition 简介 这是何大佬的一篇非常经典的神经网络的论文,也就是大名鼎鼎的ResNet残差网络,论文主要通过构建了一种新的网络结构来解决当网络层数过高之后更深层的网络的效果没有稍浅层网络好的问题,并且做出了适当解释,用ResNet很好的解决了这个问题. 背景 深度卷积神经网络已经在图像分类问题中大放异彩了,近来的研究也表明,网络的深度对精度起着至关重要的作用.但是,随着网络的加深,有一个问题值得注意,随着网络一直堆叠…
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 简介 Faster R-CNN是很经典的two-stage的目标检测方法,前面看了Selective Search以为在这里可以用到,但是作者在这篇文章里面没有采用Selective Search方法得到候选框,而是采用了Edge Boxes方法得到的候选框,好吧,再去看看这个方法到底快在哪里.Faster R-CNN分为两个过程,第一个过…
Selective Search for Object Recognition 简介 Selective Search是现在目标检测里面非常常用的方法,rcnn.frcnn等就是通过selective search方法得到候选框,然后进行分类,也就是传统的two stage方法.本篇也是我看到frcnn之后不得不看的一篇论文,大致将自己的理解记录下来,方便以后指正. Selective Search 算法目的 能够得到各种大小的框 由于图像中的物体可以有任意大小,所以selective sear…
Region-Based Convolutional Networks for Accurate Object Detection and Segmentation 概括 这是一篇2016年的目标检测的文章,也是一篇比较经典的目标检测的文章.作者介绍到,现在表现最好的方法非常的复杂,而本文的方法,简单又容易理解,并且不需要大量的训练集. 文章的大致脉络如图. 产生region proposal 文章提到了滑窗的方法,由于滑窗的方法缺点非常明显,就是每次只能检测一个aspect ratio,所以确…
Rapid-Object-Detection-using-a-Boosted-cascade-of-simple-features 简介 文章是2001年发表的,是一篇很经典的Object Detection的文章,而文章的亮点就在于使用了"Integral Image"计算Haar-like特征,从而加速了计算:此外,文章提出利用级联的方式分类,将很多非脸特征在前面剔除了,减少了大量的计算.文章采用Adaboost训练弱分类器组成强分类器,使得分类精度也很不错,而最大的两点就是其速度…
GAN存在问题 训练困难,G和D多次尝试没有稳定性,Loss无法知道能否优化,生成样本单一,改进方案靠暴力尝试 WGAN GAN的Loss函数选择不合适,使模型容易面临梯度消失,梯度不稳定,优化目标不定导致模型失败,WGAN,找到了更为合适的Loss函数,使得梯度呈线性,事实上WGAN对判别器权重进行了区间限制,使得权重控制在一定范围内,使得梯度更大概率的呈线性增长. WGAN特点 无需平衡D,G的训练组合 解决collapse model(模型崩溃)问题,保证样本多样性 结构更改简单有效 改进…
在弄清楚InfoGAN之前,可以先理解一下变分推断目的以及在概率论中的应用与ELBO是什么,以及KL散度 https://blog.csdn.net/qy20115549/article/details/93074519 https://blog.csdn.net/qy20115549/article/details/86644192. 如果理解了变分推断,KL散度,ELBO,对于InfoGAN中的重要方法就可以很容易理解了. 这里首先看一下简单的对数推导为方便对InfoGAN文中的公式的阅读:…
Attentional Pooling for Action Recognition 简介 这是一篇NIPS的文章,文章亮点是对池化进行矩阵表示,使用二阶池的矩阵表示,并将权重矩阵进行低秩分解,从而使分解后的结果能够自底向上和自顶向下的解释,并巧用attention机制来解释,我感觉学到了很多东西,特别是张量分解等矩阵论的知识点. 基础概念 低秩分解 目的:去除冗余并减少模型的权值参数 方法:使用两个K*1的卷积核代替掉一个K*K的卷积核 原理:权值向量主要分布在一些低秩子空间,使用少量的基就可…
CapsuleNet 前言 找了很多资料,终于把整个流程搞懂了,其实要懂这个运算并不难,难的对我来说是怎么用代码实现,也找了github上的一些代码来看,对我来说都有点冗长,变量分布太远导致我脑袋炸了,所以我就在B站找视频看看有没有代码讲解,算是不负苦心吧,终于把实现部分解决了. 不写论文解读,因为原文实在太难读了,这个老外的英文我基本上每看一句都要取查翻译,很难受,而且网上的教程.解析非常非常之多,所以我留个代码,以后看一下就能想起来了. Capsule是干什么的 capsule是换了一种神经…
Receptive Field Block Net for Accurate and Fast Object Detection 简介 本文在SSD基础上提出了RFB Module,利用神经科学的先验知识来解释这种效果提升.本质上是设计一种新的结构来提升感受野,并表明了人类视网膜的感受野有一个特点,离视线中心越远,其感受野是越大的,越靠近视线中间,感受野越小.基于此,本文提出的RFB Module就是来模拟人类这种视觉特点的. RFB Module 结构如下图所示. 为什么要用空洞卷积呢? 首先…
Squeeze-and-Excitation Networks 简介 SENet提出了一种更好的特征表示结构,通过支路结构学习作用到input上更好的表示feature.结构上是使用一个支路去学习如何评估通道间的关联,然后作用到原feature map上去,实现对输入的校准.支路的帮助学习到的是神经网络更加适合的表示.为了使网络通过全局信息来衡量通道关联,结构上使用了global pooling捕获全局信息,然后连接两个全连接层,作用到输入上去,即完成了对输入的重校准,可以使网络学习到更好的表示…
Fine-Grained Head Pose Estimation Without Keypoints 简介 head pose estimation 经典论文,使用CNN预测三个角度值,pitch,yaw,roll,本文提出一种combined classification and regression方法,并且用了HopeNet,在BIWI.300W-LP和AFLW2000数据集上训练和测试,比使用landmark方法得到了提升,模型大小也不是特别大,能够实时. 网络结构 使用resnet作…
持续更新...... 概括:以往很多论文借助深度信息将2D上升到3D,这篇论文则是想要用网络训练代替深度数据(设备成本比较高),提高他的泛性,诠释了只要合成数据集足够大和网络足够强,我就可以不用深度信息.这篇论文的思路很清晰,主要分为三个部分: 1.HandSegNet 2.PoseNet 3.the PosePrior network 第1.2个网络主要是借助 Convolutional Pose Machines 这篇论文的网络进行设置, 通过卷积图层表达纹理信息和空间信息提取出手的位置(只…
SSD论文贡献: 1. 引入了一种单阶段的检测器,比以前的算法YOLO更准更快,并没有使用RPN和Pooling操作: 2. 使用一个小的卷积滤波器应用在不同的feature map层从而预测BB的类别的BB偏差: 3. 可以在更小的输入图片中得到更好的检测效果(相比Faster-rcnn): 4. 在多个数据集(PASCAL.VOC.COCO.ILSVRC)上面的测试结果表明,它可以获得更高的mAp值: This results in a significant improvement in…
摘要: Mask RCNN可以看做是一个通用实例分割架构. Mask RCNN以Faster RCNN原型,增加了一个分支用于分割任务. Mask RCNN比Faster RCNN速度慢一些,达到了5fps. 可用于人的姿态估计等其他任务: 1.Introduction 实例分割不仅要正确的找到图像中的objects,还要对其精确的分割.所以Instance Segmentation可以看做object dection和semantic segmentation的结合. Mask RCNN是Fa…
论文地址:https://arxiv.org/pdf/1504.08083.pdf 翻译请移步:https://blog.csdn.net/ghw15221836342/article/details/79549500 背景问题: 1.R-CNN网络训练.测试速度都很慢:R-CNN网络中,一张图经由selective search算法提取约2k个建议框[这2k个建议框大量重叠],而所有建议框变形后都要输入AlexNet CNN网络提取特征[即约2k次特征提取],会出现上述重叠区域多次重复提取特征…
论文地址:https://arxiv.org/pdf/1406.4729.pdf 论文翻译请移步:http://www.dengfanxin.cn/?p=403 一.背景: 传统的CNN要求输入图像尺寸是固定的(因为全连接网络要求输入大小是固定的) crop处理,可能不包含整个物体,还会丢失上下文信息 warping处理,会导致图像变形 以上都会导致CNN对不同scale/size泛化能力不强   于是SPP做了如下改进,即将SPP层加在最后一个卷积层后面,然后再送入FC网络.  优点 不管输入…