实时实例分割的Deep Snake:CVPR2020论文点评 Deep Snake for Real-Time Instance Segmentation 论文链接:https://arxiv.org/pdf/2001.01629.pdf 摘要 本文提出了一种基于轮廓的深度snake方法用于实例的实时分割.与最近一些直接从图像中回归物体边界点坐标的方法不同,deep snake使用神经网络迭代地将初始轮廓变形到物体边界,这一方法用基于学习的方法实现了snake算法的经典思想.对于轮廓的结构化特征…
给手绘图着色(添加颜色或色彩):CVPR2020论文点评 Learning to Shade Hand-drawn Sketches 论文链接:https://arxiv.org/pdf/2002.11812.pdf 摘要 本文提出了一种全自动的方法来产生详细和准确的艺术阴影对线素描和照明方向.本文还提供了一个新的数据集,其中包含1000个用灯光方向标记的线条和阴影对示例.值得注意的是,生成的阴影可以快速传达草图场景的底层三维结构.因此,本文的方法产生的阴影可以直接使用或作为艺术家的一个极好的起…
CVPR2020论文点评: AdderNet(加法网络) 论文原文链接:https://arxiv.org/pdf/1912.13200.pdf 源码链接:https://github.com/huawei-noah/AdderNet 简要 与简单的加法运算相比,乘法运算具有更高的计算复杂度.深度神经网络中广泛使用的卷积正好是来度量输入特征和卷积滤波器之间的相似性,这涉及浮点值之间的大量乘法.现在作者提出了加法网络(AdderNets)来交换深度神经网络中的这些大规模乘法,特别是卷积神经网络(C…
模糊视频帧插值:CVPR2020论文点评 Blurry Video Frame Interpolation 论文链接:https://arxiv.org/pdf/2002.12259.pdf 摘要 现有的工作主要通过帧去模糊和帧内插两种方法来降低运动模糊和上变频帧率.然而,很少有研究涉及到联合视频增强问题,即从低帧速率的模糊输入中合成高帧速率的清晰结果.本文提出了一种模糊视频帧内插方法,可以同时降低运动模糊和上变频帧速率.具体地说,本文开发了一个金字塔模块来周期性地合成清晰的中间帧.金字塔模块具…
论文提出基于轮廓的实例分割方法Deep snake,轮廓调整是个很不错的方向,引入循环卷积,不仅提升了性能还减少了计算量,保持了实时性,但是Deep snake的大体结构不够优雅,应该还有一些工作可以补,推荐大家阅读   来源:晓飞的算法工程笔记 公众号 论文: Deep Snake for Real-Time Instance Segmentation 论文地址:https://arxiv.org/abs/2001.01629 论文代码:https://github.com/zju3dv/sn…
BlendMask通过更合理的blender模块融合top-level和low-level的语义信息来提取更准确的实例分割特征,该模型效果达到state-of-the-art,但结构十分精简,推理速度也不慢,精度最高能到41.3AP,实时版本BlendMask-RT性能和速度分别为34.2mAP和25FPS,并且论文的优化方法很有学习的价值,值得一读 论文:BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation 论文地址:htt…
论文巧妙地基于one-stage目标检测算法提出实时实例分割算法YOLACT,整体的架构设计十分轻量,在速度和效果上面达到很好的trade-off.   来源:[晓飞的算法工程笔记] 公众号 论文: YOLACT: Real-time Instance Segmentation 论文地址:https://arxiv.org/abs/1904.02689 论文代码:https://github.com/dbolya/yolact Introduction   目前的实例分割方法虽然效果都有很大的提…
CVPR 2020几篇论文内容点评:目标检测跟踪,人脸表情识别,姿态估计,实例分割等 CVPR 2020中选论文放榜后,最新开源项目合集也来了. 本届CPVR共接收6656篇论文,中选1470篇,"中标率"只有22%,堪称十年来最难的一届. 目标检测 论文题目: Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection 本文首先指出了基于锚…
安妮 乾明 发自 凹非寺 本文转载自量子位(QbitAI) 实习生又立功了! 这一次,亮出好成绩的实习生来自地平线,是一名华中科技大学的硕士生. 他作为第一作者完成的研究Mask Scoring R-CNN,在COCO图像实例分割任务上超越了何恺明的Mask R-CNN,拿下了计算机视觉顶会CVPR 2019的口头报告. 也就是说,它从5000多篇投稿中脱颖而出,成为最顶尖的5.6%. 无论搭配的基干怎么变,表现一直稳定,总是比Mask R-CNN好一点. 可谓青出于蓝而胜于蓝. 并且,他们的算…
CVPR2020论文解析:实例分割算法 BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation 论文链接:https://arxiv.org/pdf/2001.00309.pdf 摘要 实例分割是基本的视觉任务之一.近年来,全卷积实例分割方法因其比Mask R-CNN等两阶段方法简单.高效而备受关注.迄今为止,当模型具有相似的计算复杂度时,几乎所有这些方法在掩模精度上都落后于两级掩模R-CNN方法,留下了很大的改进空间.在这项工…
CVPR2020:三维实例分割与目标检测 Joint 3D Instance Segmentation and Object Detection for Autonomous Driving 论文地址: http://openaccess.thecvf.com/content_CVPR_2020/papers/Zhou_Joint_3D_Instance_Segmentation_and_Object_Detection_for_Autonomous_Driving_CVPR_2020_pape…
前言: 这是实例分割中的一篇经典论文,以往的实例分割模型都比较复杂,这篇论文提出了一个简单且直接的实例分割模型,如何设计这种简单直接的模型且要达到一定的精度往往会存在一些困难,论文中有很多思路或思想值得借鉴,因此十分值得一读. 在本文中,为让各个方向的读者都能看得懂并抓住重点,较为详细地介绍了本文的创新或改进思路,而对一些细节不予赘述. 论文:SOLO: Segmenting Objects by Locations* 代码:https://git.io/AdelaiDet Introducti…
CVPR2020论文解读:三维语义分割3D Semantic Segmentation xMUDA: Cross-Modal Unsupervised Domain Adaptation  for 3D Semantic Segmentation 摘要 无监督域自适应(UDA)对于解决新域中缺少注释的问题至关重要.有许多多模态数据集,但大多数UDA方法都是单模态的.在这项工作中,我们探索如何从多模态学*,并提出跨模态UDA(xMUDA),其中我们假设存在二维图像和三维点云进行三维语义分割.这是一…
CVPR2020论文解读:手绘草图卷积网络语义分割 Sketch GCN: Semantic Sketch Segmentation with Graph Convolutional Networks 论文链接:https://arxiv.org/pdf/2003.00678.pdf 摘要 介绍了一种用于手绘草图语义分割和标注的图形卷积神经网络SketchGCN.我们将输入草图视为二维点集,并将笔划结构信息编码为图形节点/边缘表示.为了预测每个点的标签,我们的SketchGCN使用图卷积和全局分…
CVPR2020论文解读:OCR场景文本识别 ABCNet:  Real-time Scene Text Spotting with Adaptive Bezier-Curve Network∗ 论文链接:https://arxiv.org/pdf/2002.10200.pdf 摘要 场景文本的检测与识别越来越受到人们的关注.现有的方法大致可以分为两类:基于字符的方法和基于分割的方法.这些方法要么代价高昂,要么需要维护复杂的管道,这通常不适合实时应用.在这里,我们提出了自适应贝塞尔曲线网络(AB…
CVPR2020论文介绍: 3D 目标检测高效算法 CVPR 2020: Structure Aware Single-Stage 3D Object Detection from Point Cloud 随着CVPR2020入选论文的曝光,一篇关于自动驾驶的文章被录用,该论文提出了一个通用.高性能的自动驾驶检测器,首次实现3D物体检测精度与速度的兼得,有效提升自动驾驶系统安全性能.目前,该检测器在自动驾驶领域权威数据集KITTI BEV排行榜上排名第三.论文是如何解决物体检测难题的? View…
深度人脸识别:CVPR2020论文要点 Towards Universal Representation Learning for Deep Face Recognition 论文链接:https://arxiv.org/pdf/2002.11841.pdf 摘要 识别狂野的面孔是极其困难的,因为它们看起来有各种各样的变化.传统的方法要么使用目标域中的特定注释变化数据进行训练,要么通过引入未标记的目标变化数据来适应训练数据.相反,我们提出了一个通用的表示学习框架,它可以在不利用目标领域知识的情况…
CVPR2020论文解析:视觉算法加速 GPU-Accelerated Mobile Multi-view Style Transfer 论文链接:https://arxiv.org/pdf/2003.00706.pdf 摘要 据估计,2018年售出的智能手机中,有60%配备了多个后置摄像头,从而实现了3D照片等多种支持3D的应用.3D照片平台(Facebook 3D Photo.Holopix ,等等)的成功依赖于用户生成内容的稳定流量.这些平台必须提供简单的图像处理工具,以促进内容创建,类似…
CVPR2020论文解析:视频分类Video Classification Rethinking Zero-shot Video Classification: End-to-end Training for Realistic Applications 论文链接:https://arxiv.org/pdf/2003.01455.pdf 摘要 深度学习(deep learning,DL)是在大型数据集上进行训练的,它可以将视频准确地分为数百个不同的类.然而,视频数据的注释是昂贵的.Zero-sh…
SOLOv 2:实例分割(动态.更快.更强) SOLOv2:  Dynamic, Faster and Stronger 论文链接: https://arxiv.org/pdf/2003.10152.pdf 代码链接:https://github.com/aim-uofa/AdelaiDet 摘要 在这项工作中,本文的目标是建立一个简单,直接,快速的实例分割框架,具有很强的性能.本文遵循王等人SOLO的原则."SOLO:按位置分割对象"[33].重要的是,本文进一步通过动态学习对象分段…
PANet是18年的一篇CVPR,作者来自港中文,北大,商汤与腾讯优图,PANET可看作Mask-RCNN+,是在Mask-RCNN基础上做的几处改进. 论文地址:https://arxiv.org/abs/1803.01534 论文翻译:http://tongtianta.site/paper/1184 论文出发点:当前实例分割最佳模型Mask-RCNN的信息传播还不够充分,具体地,低层特征到高层特征的传递路径过长,FPN中每个proposal只负责金字塔特定的一层,掩码预测只基于单一视角 论…
Mask R-CNN实例分割通用框架,检测,分割和特征点定位一次搞定(多图)   导语:Mask R-CNN是Faster R-CNN的扩展形式,能够有效地检测图像中的目标,同时还能为每个实例生成一个高质量的分割掩码. 对Facebook而言,想要提高用户体验,就得在图像识别上做足功夫. 雷锋网此前报道<Facebook AML实验室负责人:将AI技术落地的N种方法>(上 ,下篇)就提到,做好图像识别,不仅能让Facebook的用户更精准搜索到想要的图片,为盲人读出图片中包含的信息,还能帮助用…
一.VG数据集 机器学习领域的突破突然让计算机获得了以未曾有的高精度识别图像中物体的能力--几乎达到了让人惊恐的程度.现在的问题是机器是否还能更上层楼,学会理解这些图片中所发生的事件. Visual Genome的新图像数据库有望推动计算机向这一目标挺进,并帮助衡量计算机在理解真实世界这一进程中的进步.教会计算机理解视觉场景是人工智能非常重要的基础.它不仅能产生更多有用的视觉算法,也能帮助训练计算机实现更高效的交流,因为语言与物质世界的表征具有非常密切的联系. Visual Genome是由专业…
CVPR目标检测与实例分割算法解析:FCOS(2019),Mask R-CNN(2019),PolarMask(2020)1. 目标检测:FCOS(CVPR 2019)目标检测算法FCOS(FCOS: Fully Convolutional One-Stage Object Detection),该算法是一种基于FCN的逐像素目标检测算法,实现了无锚点(anchor-free).无提议(proposal free)的解决方案,并且提出了中心度(Center-ness)的思想,同时在召回率等方面表…
CVPR2020 论文解读:具有注意RPN和多关系检测器的少点目标检测 Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector 具有注意RPN和多关系检测器的少点目标检测 目标检测的惯用方法需要大量的训练数据,准备这样高质量的训练数据很费精力的.本文中,提出一种新的少点目标检测网络,只用几个带注释的示例的看不见的类来检测目标.集中到新方法的核心是,注意力RPN,多相关检测器,以及对比训练策略,探索少点支持集…
CVPR2020论文解读:CNN合成的图片鉴别 <CNN-generated images are surprisingly easy to spot... for now> 论文链接:https://arxiv.org/abs/1912.11035 代码链接:https://peterwang512.github.io/CNNDetection/ 该文章被CVPR2020录用,Arxiv公开于2019年12月,作者来自 UC Berkeley 和 Adobe Research. CNN 生成…
人体姿态和形状估计的视频推理:CVPR2020论文解析 VIBE: Video Inference for Human Body Pose and Shape Estimation 论文链接:https://arxiv.org/pdf/1912.05656.pdf Code and pretrained models are available at: https://github.com/mkocabas/VIBE 摘要 人体运动是理解行为的基础.尽管在单图像三维位姿和形状估计方面取得了进展,…
视频教学动作修饰语:CVPR2020论文解析 Action Modifiers: Learning from Adverbs in Instructional Videos 论文链接:https://arxiv.org/pdf/1912.06617.pdf 摘要 我们提出了一种从结构视频中学习副词表达的方法,该方法使用对伴随叙述的弱监督.我们的方法的关键是,副词的视觉表现高度依赖于它所适用的动作,尽管同一个副词会以类似的方式修改多个动作.例如,虽然"快速传播"和"快速混合&qu…
分层条件关系网络在视频问答VideoQA中的应用:CVPR2020论文解析 Hierarchical Conditional Relation Networks for Video Question Answering 论文链接:https://arxiv.org/pdf/2002.10698.pdf 摘要 视频问答(VideoQA)具有挑战性,因为它需要建模能力来提取动态视觉伪影和远距离关系,并将它们与语言概念相关联.本文介绍了一种通用的可重复使用的神经单元,称为条件关系网络(CRN),它作为…
图像分类:CVPR2020论文解读 Towards Robust Image Classification Using Sequential Attention Models 论文链接:https://arxiv.org/pdf/1912.02184.pdf 摘要 在这篇文章中,我们提出用一个受人类感知启发的注意力模型来扩充一个现代的神经网络结构.具体地说,我们对一个神经模型进行了逆向训练和分析,该模型包含了一个受人启发的视觉注意成分,由一个自上而下的循环顺序过程引导.我们的实验评估揭示了关于这个…