AdaScale: Towards real-time video object detection using adaptive scaling 2019-02-18 16:14:17 Paper: https://www.sysml.cc/papers.html 本文提出一种新的技术,AdaScale,来改善视频中物体检测的尺度问题,在提升速度的同时,改善了精度. 作者的实验发现在降低图像分辨率的时候,部分图像的识别精度就会得到改善,并且给出了结果展示: 那么是什么原因导致这种情况呢?作者给…
中心思想 继Relation Network实现可学习的nms之后,MSRA的大佬们觉得目标检测器依然不够fully learnable,这篇文章类似之前的Deformable ROI Pooling,主要在ROI特征的组织上做文章,文章总结了现有的各种ROI Pooling变体,提出了一个统一的数学表达式,藉由这个表达式,提出完全可学习,无人工设计的Region特征,据Han Hu大佬的讲座所说,这篇文章现在只是提出了一种行得通的方案,还没有研究清楚,性能比Deformable Conv那篇文…
先说一下,我觉得近两年最好的工作吧.其他的,我就不介绍了,因为我懂得少. 微软的jifeng dai的工作. Deep Feature Flow   github: https://github.com/msracver/Deep-Feature-Flow Flow-guided Feature Aggregation.  Flow-Guided Feature Aggregation for Video Object Detection   github: https://github.com…
论文源址:https://arxiv.org/abs/1605.06409 开源代码:https://github.com/PureDiors/pytorch_RFCN 摘要 提出了基于区域的全卷积网络,用于精确高效的目标检测,相比于基于区域的检测器(Fast/Faster R-CNN),这些检测器重复的在子区域进行数百次计算,而本文在整张图像上进行共享计算.因此,本文提出了基于位置敏感分数图用于解决图像分类中的平移不变性及目标检测中的平移可变性之间的矛盾.将图像分类网络处理为全卷积网络用于目标…
结构推理网络:基于场景级与实例级目标检测 原文链接:https://arxiv.org/abs/1807.00119 代码链接:https://github.com/choasup/SIN Yong Liu, Ruiping Wang, Shiguang Shan, Xilin Chen. Structure Inference Net: Object Detection Using Scene-Level Context and Instance-Level Relationships. pu…
Region-Based Convolutional Networks for Accurate Object Detection and Segmentation 概括 这是一篇2016年的目标检测的文章,也是一篇比较经典的目标检测的文章.作者介绍到,现在表现最好的方法非常的复杂,而本文的方法,简单又容易理解,并且不需要大量的训练集. 文章的大致脉络如图. 产生region proposal 文章提到了滑窗的方法,由于滑窗的方法缺点非常明显,就是每次只能检测一个aspect ratio,所以确…
摘要 目前检测的准确率受物体视频中变化的影响,如运动模糊,镜头失焦等.现有工作是想要在框的级别上寻找时序信息,但这样的方法通常不能端到端训练.我们提出了flow-guided feature aggregation,一个用于视频物体检测的端到端学习框架.在特征级别上利用时序信息,通过相邻帧的运动路径提高每帧的特征,从而提高检测的准确率. 简介 特征提取网络提取出每帧的feature maps.为了enhance被处理帧的特征,用一个光流网络(flownet)预测相邻帧和该帧之间的motions.…
Fully-Convolutional Siamese Networks for Object Tracking 本文作者提出一个全卷积Siamese跟踪网络,该网络有两个分支,一个是上一帧的目标,一个是本帧的候选框,最终得到一个响应图.响应图的最大值就是目标所在的位置. 本文算法的核心是相似性学习,通过交叉相关计算两张图片的相似性. 本文的跟踪框架如下图所示: z表示真实目标,x表示候选图片.候选图片的尺寸是真是目标的四倍. 本网络的结构如下图所示;…
作者: ShijieSun, Naveed Akhtar, HuanShengSong, Ajmal Mian, Mubarak Shah 来源: arXiv:1810.11780v1 项目:https://github.com/shijieS/SST.git 摘要 MOT方法一般包含两个步骤:目标检测和数据关联. 目标检测这两年随着深度学习的发展而迅速发展,但是数据关联绝大多数还是采用hand crafted的方式将表观特征,运动信息,空间关系,group关系等进行结合. 这篇文章则是利用深度…
YOLO的一大特点就是快,在处理上可以达到完全的实时.原因在于它整个检测方法非常的简洁,使用回归的方法,直接在原图上进行目标检测与定位. 多任务检测: 网络把目标检测与定位统一到一个深度网络中,而且可以同时在原图上检测多个物体.步骤总结如下: (1)把图片分割成S*S个方格,假如某个物体的中点落在其中一个方格,那么这个方格就对这个物体负责.这里说的物体的中点应该是指ground truth box中的物体的中心. (2)对于每个格子,预测B个bounding box以及相应的confidence…
由RCNN到FAST RCNN一个很重要的进步是实现了多任务的训练,但是仍然使用Selective Search算法来获得ROI,而FASTER RCNN就是把获得ROI的步骤使用一个深度网络RPN来实现.一个FASTER RCNN可以看作是一个RPN + FAST RCNN的组合,两者通过共享CONV LAYERS组合在一起. RPN网络 一张图片先经过CONV LAYERS得到feature map,图片的大小是任意的.然后,使用一个小的滑动网络,它与feature map的一个n*n的小窗…
2014 ICLR 纽约大学 LeCun团队 Pierre Sermanet, David Eigen, Xiang Zhang, Michael Mathieu, Rob Fergus, Yann LeCun 简单介绍(What) Ovefeat是2013年ImageNet定位任务的冠军,同时在分类和检测任务也取得了不错的结果. 它用一个共享的CNN来同时处理图像分类,定位,检测三个任务,可以提升三个任务的表现. 它用CNN有效地实现了一个多尺度的,滑动窗口的方法,来处理任务. 提出了一种方法…
DeepOrigin: End-to-End Deep Learning for Detection of New Malware Families 标签(空格分隔): 论文 论文基本信息 会议: IEEE(2018 International Joint Conference on Neural Networks [IJCNN]A类会议) 单位:公司Deep Instinct Ltd(以色列的一家网络安全公司) 方法概述 数据:训练集7759 + 测试集2163=9922个恶意样本文件,测试集…
  简介:武大遥感国重实验室-夏桂松和华科电信学院-白翔等合作做的一个航拍图像数据集 摘要: 目标检测是计算机视觉领域一个重要且有挑战性的问题.虽然过去的十几年中目标检测在自然场景已经有了较重要的成就,但在遥感图像上却进展缓慢,原因不仅仅体现在图像规模的庞大及多样性.物体定位问题和地球表面物体实例的形状检测上,还因为遥感场景中具有良好注释的数据集过于匮乏.为了推进在Earth Vision,又称Earth Observation and Remote Sensing上的目标检测的研究,我们引进在…
gansh Fully-Convolutional Siamese Network for Object Tracking 摘要:任意目标的跟踪问题通常是根据一个物体的外观来构建表观模型.虽然也取得了不错的效果,但是他们这些 online-only approach 限制了模型可以学到的模型的丰富性.最近,已经有几个尝试开始探索深度卷积网络的强大的表达能力(express power).但是,当跟踪目标提前未知时,需要在线的执行 SGD 来适应网络的权重,严重的影响了系统的速度.本文中,我们提出…
与 Selective Search 初次见面是在著名的物体检测论文 「Rich feature hierarchies for accurate object detection and semantic segmentation」,因此,这篇论文算是阅读 R-CNN 的准备. 这篇论文的标题虽然也提到了 Object Recognition ,但就创新点而言,其实在 Selective Search .所以,这里只简单介绍 Selective Search 的思想和算法过程,对于 Objec…
目录 0. 前言 1. 博客一 2.. 博客二 0. 前言   这篇论文提出了一种新的特征融合方式来解决多尺度问题, 感觉挺有创新性的, 如果需要与其他网络进行拼接,还是需要再回到原文看一下细节.这里转了两篇比较好的博客作为备忘. 1. 博客一 这篇论文是CVPR2017年的文章,采用特征金字塔做目标检测,有许多亮点,特来分享. 论文:feature pyramid networks for object detection 论文链接:https://arxiv.org/abs/1612.031…
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 简介 Faster R-CNN是很经典的two-stage的目标检测方法,前面看了Selective Search以为在这里可以用到,但是作者在这篇文章里面没有采用Selective Search方法得到候选框,而是采用了Edge Boxes方法得到的候选框,好吧,再去看看这个方法到底快在哪里.Faster R-CNN分为两个过程,第一个过…
论文标题:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 标题翻译:基于区域提议(Region  Proposal)网络的实时目标检测 论文作者:Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun 论文地址:https://arxiv.org/abs/1506.01497 Faster RCNN 的GitHub地址:https://gith…
本文由DataFun社区根据微软亚洲研究院视觉组Lead Researcher Jifeng Dai老师在2018 AI先行者大会中分享的<Recent Advances on Object Detection in MSRA>编辑整理而成. 今天分享的内容会从以下几个方面进行,首先是R-FCN and its extensions,然后是Deformable Conv Nets and its extensions,接着是我们在Video object detection方面所做的工作,最后…
目录 Single Shot Detectors for Object Detection Deep learning-based object detection with OpenCV   这篇文章只是基于OpenCV使用SSD算法执行目标检测:不涉及到SSD的理论原理.不涉及训练过程:也就是说仅仅使用训练好的模型文件基于OpenCV做测试:包括图片和视频:   只用作笔记,原教程地址:Object detection with deep learning and OpenCV Single…
作者从detector的overfitting at training/quality mismatch at inference问题入手,提出了基于multi-stage的Cascade R-CNN,该网络结构清晰,效果显著,并且能简单移植到其它detector中,带来2-4%的性能提升 论文: Cascade R-CNN: Delving into High Quality Object Detection 论文地址: https://arxiv.org/abs/1712.00726 代码地…
之前的目标检测算法大都采用proposals+classifier的做法(proposal提供位置信息,分类器提供类别信息),虽然精度很高,但是速度比较慢,也可能无法进行end-to-end训练.而该论文提出的yolo网络是一个统一的single network,能够进行端到端的优化.作者说到,该结构特别快,base YOLO model可以做到每秒实时处理45帧图像.另外,yolo的smaller version,Fast YOLO,处理速度高达每秒155帧,虽然mAP有所下降,但是仍是其它实…
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作.  在基于深度学习的方法中,想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的.  尽管最近的 CNN based tracke…
在上计算机视觉这门课的时候,老师曾经留过一个作业:识别一张 A4 纸上的手写数字.按照传统的做法,这种手写体或者验证码识别的项目,都是按照定位+分割+识别的套路.但凡上网搜一下,就能找到一堆识别的教程,分割的文章次之,而定位的文章就少之又少了.这其中的缘由也很简单:识别目前来说已经不是什么难事了,所以容易写,但分割和定位却仍然是一个头疼不已的问题,不同场景方法不同,甚至同一场景也要结合多种图像处理方法,因此很难有通用的解决策略.在深度学习火起来之后,很多研究人员开始尝试用深度学习的特征提取能力来…
论文笔记之:Natural Language Object Retrieval 2017-07-10  16:50:43   本文旨在通过给定的文本描述,在图像中去实现物体的定位和识别.大致流程图如下: 此处,作者强调了一点不同之处: Natural language object retrieval differs from text-based image retrieval task as it involves spatial information about objects with…
Video Frame Synthesis using Deep Voxel Flow 论文笔记 arXiv 摘要:本文解决了模拟新的视频帧的问题,要么是现有视频帧之间的插值,要么是紧跟着他们的探索.这个问题是非常具有挑战性的,因为,视频的外观和运动是非常复杂的.传统 optical-flow-based solutions 当 flow estimation 失败的时候,就变得非常困难:而最新的基于神经网络的方法直接预测像素值,经常产生模糊的结果. 于是,在此motivation的基础上,作者…
v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VML);} .shape {behavior:url(#default#VML);} Normal 0 false 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE /* Style Definitions */ table.MsoNormalTable {…
Visual Object Tracking using Adaptive Correlation Filters 一文发表于2010的CVPR上,是笔者所知的第一篇将correlation filter引入tracking领域内的文章,文中所提的Minimum Output Sum of Squared Error(MOSSE),可以说是后来CSK.STC.Color Attributes等tracker的鼻祖.Correlation Filter(以下简称CF)源于信号处理领域,后被运用于图…
论文原址:https://arxiv.org/abs/1509.04874 github:https://github.com/CaptainEven/DenseBox 摘要 本文先提出了一个问题:如何将全卷积网络应用到目标检测中去?本文提出DenseBox,一个集成的FCN 框架可以直接在图像的位置上预测出目标物的边框及类别.本文两方面贡献:(1)FCN可以用于检测不同的目标(2)在多任务学习过程中结合landmark定位可以进一步提高对目标的检测的准确性. 介绍 本文只关注一个问题,即如何将…