[论文阅读] Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks(MTCNN)

相关论文:Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks 概论用于人脸检测和对齐. 本文提出的unified cascaded CNNs by multi-task learning,包含三个阶段: 1) 利用一个浅层的CNN快速产生候选窗口 2) 利用一个更复杂的CNN排除掉大量非人脸窗口 3) 利用一个更强大的CNN进一步改善结果,并输出人脸关键点位置. 本文的贡献: 1…

《Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks》

<Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks> 论文主要的三个贡献: (1) 揭示了检测和对齐之间的内在联系: (2) 提出了三个CNN级联的网络结构: (3) 提出了一种对于样本的新的hard mining的算法: 整个算法流程如下: Stage 1:采用全卷积神经网络,即P-Net,去获得候选窗体和边界回归向量.同时,候选窗体根据边…

[CVPR2017] Weakly Supervised Cascaded Convolutional Networks论文笔记

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px "Helvetica Neue"; color: #042eee } p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px "Helvetica Neue"; color: #323333 } p.p3 { margin: 0.0px 0.0px 0.0px 0.0px; font: 16.0px "…

论文阅读笔记十：DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs (DeepLabv2)(CVPR2016)

论文链接:https://arxiv.org/pdf/1606.00915.pdf 摘要该文主要对基于深度学习的分割任务做了三个贡献,(1)使用空洞卷积来进行上采样来进行密集的预测任务.空洞卷积可以在不增加参数量的基础上增大filter的感受野,从而可以得到更多的语义信息.(2)空洞空间金字塔池化结构(ASPP)从而以多尺寸来分割目标物体.通过不同sample rates的filters及不同大小的感受野,来获得多尺寸下的语义信息.(3)结合DCNN与概率模型提高物体的检测边界.DCNNs+C…

SPPNet论文翻译-空间金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

http://www.dengfanxin.cn/?p=403 原文地址我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加灵活,分析到卷积网络对尺寸并没有要求,固定尺寸的要求完全来源于全连接层部分,因而借助空间金字塔池化的方法来衔接两者,SPPNet在检测领域的重要贡献是避免了R-CNN的变形.重复计算等问题,在效果不衰减的情况下,大幅提高了识别速度. 用于视觉识别的深度卷积网络空间金字塔池化方法 Spatial…

论文解读 - Composition Based Multi Relational Graph Convolutional Networks

1 简介随着图卷积神经网络在近年来的不断发展,其对于图结构数据的建模能力愈发强大.然而现阶段的工作大多针对简单无向图或者异质图的表示学习,对图中边存在方向和类型的特殊图----多关系图(Multi-relational Graph)的建模工作较少,且大多存在着两个问题: (1)整体网络模型的过参数化, (2)仅针对于结点的表示学习. 针对这两个问题,本论文提出了一种基于组合的图卷积神经网络来同时建模结点和边的表示,为了降低大量的边类型带来的参数量,作者采用了向量分解的方式,所有的边类型表示通过…

论文阅读笔记十三：The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation（FC-DenseNets)(CVPR2016)

论文链接:https://arxiv.org/pdf/1611.09326.pdf tensorflow代码:https://github.com/HasnainRaz/FC-DenseNet-TensorFlow 实验代码:https://github.com/fourmi1995/IronSegExperiment-FC-DenseNet.git 摘要经典的分割结构大致由以下部分构成:(1)用于提取粗略特征的下采样过程.(2)可训练的上采样通道,用于将模型的输出至输入图片大小的分辨率.(3…

【论文阅读】Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks

Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks 参考 1. 人脸关键点: 2. Wing Loss for Robust Facial Landmark Localisation with Convolutional Neural Networks; 完…

论文阅读及复现 | Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks

两种形式的LSTM变体 Child-Sum Tree-LSTMs N-ary Tree-LSTMs https://paperswithcode.com/paper/improved-semantic-representations-from-tree…

论文阅读笔记（十）【CVPR2016】：Recurrent Convolutional Network for Video-based Person Re-Identiﬁcation

Introduction 该文章首次采用深度学习方法来解决基于视频的行人重识别,创新点:提出了一个新的循环神经网络架构(recurrent DNN architecture),通过使用Siamese网络(孪生神经网络),并结合了递归与外貌数据的时间池,来学习每个行人视频序列的特征表示. Method (1)特征提取架构: 第一层:卷积神经网络,提取每个行人的外貌特征向量: 第二层:循环神经网络,让网络更好的提取时空信息: 第三层:时间池,让网络将不同长度的视频序列总结为一个特征向量. Siame…

论文笔记：ReNet: A Recurrent Neural Network Based Alternative to Convolutional Networks

ReNet: A Recurrent Neural Network Based Alternative to Convolutional Networks2018-03-05 11:13:05 1. 引言: 本文尝试用基于四个方向的 RNN 来替换掉 CNN中的 convolutional layer(即:卷积+Pooling 的组合).通过在前一层的 feature 上进行四个方向的扫描,完成特征学习的过程. The recurrent layer ensures that each…

论文阅读笔记（二十一）【CVPR2017】：Deep Spatial-Temporal Fusion Network for Video-Based Person Re-Identiﬁcation

Introduction (1)Motivation: 当前CNN无法提取图像序列的关系特征:RNN较为忽视视频序列前期的帧信息,也缺乏对于步态等具体信息的提取:Siamese损失和Triplet损失缺乏对label信息的考虑(???). (2)Contribution: 提出一个新的端到端网络框架,称为 CNN and RNN Fusion(CRF),结合了Siamese.Softmax 联合损失函数.分别对全身和身体局部进行模型训练,获得更有区分度的特征表示. Method (1)框架: (…

谣言检测（ClaHi-GAT）《Rumor Detection on Twitter with Claim-Guided Hierarchical Graph Attention Networks》

论文信息论文标题:Rumor Detection on Twitter with Claim-Guided Hierarchical Graph Attention Networks论文作者:Erxue Min, Yu Rong, Yatao Bian, Tingyang Xu, Peilin Zhao, Junzhou Huang,Sophia Ananiadou论文来源:2021,EMNLP 论文地址:download 论文代码:download Background 传播结构为谣言的真假…

论文阅读计划2(Deep Joint Rain Detection and Removal from a Single Image)

Deep Joint Rain Detection and Removal from a Single Image[1] 简介:多任务全卷积从单张图片中去除雨迹.本文在现有的模型上,开发了一种多任务深度学习框架,学习了三个方面,包括二元雨条纹映射(binary rain streak map),雨条纹外观和干净的背景.特别是新添加的二元雨条纹映射,其损失函数可以为神经网络提供额外的强特征.对于雨带积累现象(暴雨形成的如烟如雾的现象),采取循环雨检测和清除,以迭代和渐进方式清除. 动机:恢复暴雨下…

论文阅读笔记四十六：Feature Selective Anchor-Free Module for Single-Shot Object Detection（CVPR2019）

论文原址:https://arxiv.org/abs/1903.00621 摘要本文提出了基于无anchor机制的特征选择模块,是一个简单高效的单阶段组件,其可以结合特征金字塔嵌入到单阶段检测器中.FSAF解决了传统基于anchor机制的两个限制:(1)启发式的特征选择(2)overlap-based anchor采样.FSAF的通用解释是将在线特征选择应用于与anchor无关的分支的训练上.即无anchor的分支添加到特征金字塔的每一层,从而可以以任意层次对box进行编码解码.训练过程中,将…

论文阅读：Prominent Object Detection and Recognition: A Saliency-based Pipeline

论文阅读:Prominent Object Detection and Recognition: A Saliency-based Pipeline 如上图所示,本文旨在解决一个问题:给定一张图像,我们最应该关注哪些区域?怎么将其分割出来?这是一个什么东东?这三个子问题为一体. Problem formulation: Given an image, determine the most influential item in the scene in terms of region of i…

论文阅读 | FCOS: Fully Convolutional One-Stage Object Detection

论文阅读——FCOS: Fully Convolutional One-Stage Object Detection 概述目前anchor-free大热,从DenseBoxes到CornerNet.ExtremeNet,以及最近的FSAF.FoveaBox,避免了复杂的超参数设计,而且具有很好的检测效果.本文作者提出了一种全卷积的单阶段目标检测算法,类似于语义分割的做法使用像素级预测.该检测框架简单有效,而且可以方便地用于其他任务. 简介再啰嗦一下基于anchor的检测算法的缺陷: 1.检测…

论文阅读：Adaptive NMS: Refining Pedestrian Detection in a Crowd

论文阅读:Adaptive NMS: Refining Pedestrian Detection in a Crowd 2019年04月11日 23:08:02 Kivee123 阅读数 836 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/qq_37014750/article/details/89222334 Adaptive-NMS(CVPR 2019) 文章又是一篇在NM…

论文阅读笔记：《Interconnected Question Generation with Coreference Alignment and Conversion Flow Modeling》

论文阅读:<Interconnected Question Generation with Coreference Alignment and Conversion Flow Modeling> 作者:Yifan Gao, Piji Li, Irwin King, Michael R.yu 论文来源:ACL2019 WHAT CQG会话问题生成,对于给定文章最终想要生成会话QA对的形式,并且要在每轮对话中实现平稳的过渡. 使用共指想要生成相互关联的问题. HOW 一. 模型 1.多源编码器(使…

论文阅读笔记四十八：Bounding Box Regression with Uncertainty for Accurate Object Detection(CVPR2019)

论文原址:https://arxiv.org/pdf/1809.08545.pdf github:https://github.com/yihui-he/KL-Loss 摘要大规模的目标检测数据集在进行ground truth 框标记时仍存在这歧义,本文提出新的边界框的回归损失针对边界框的移动及位置方差进行学习,此方法在不增加计算量的基础上提高不同结构定位的准确性.而学习到的位置变化用于在进行NMS处理时合并两个相邻的边界框. 介绍在大规模目标检测数据集中,一些场景下框的标记是存在歧义的,十…

论文阅读笔记四十四：RetinaNet:Focal Loss for Dense Object Detection(ICCV2017）

论文原址:https://arxiv.org/abs/1708.02002 github代码:https://github.com/fizyr/keras-retinanet 摘要目前,具有较高准确率的检测器基于双阶段的目标检测算法实现,单阶段通过对可能存在的位置进行密集的采样操作,一定程度上要比双阶段的方法要更简单快速,但是准确率会有所损失.在进行训练时,前景与背景二者之间较大的类别不平衡是产生上述问题的原因.针对上述问题,本文对常规的损失函数进行修改,降低易分类样本产生的损失的贡献度.本文…

论文阅读：Review of Visual Saliency Detection with Comprehensive Information

这篇文章目前发表在arxiv,日期:20180309. 这是一篇针对多种综合性信息的视觉显著性检测的综述文章. 注:有些名词直接贴原文,是因为不翻译更容易理解.也不会逐字逐句都翻译,重要的肯定不会错过^_^.我们的目的是理解文章思想,而不是为了翻译而纯粹翻译.翻译得不好,敬请包涵~ 欢迎同道中人QQ交流:1505543113 abstract: 随着采集技术( acquisition technology)的发展,许多综合性信息(comprehensive information)诸如depth…

论文阅读笔记三十三：Feature Pyramid Networks for Object Detection(FPN CVPR 2017)

论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要特征金字塔是用于不同尺寸目标检测中的基本组件.但由于金字塔表征的特征需要消耗较多的内存及计算资源,因此,深度学习尽量避免使用金字塔特征.本文利用深度卷积网络中自带的多尺寸信息构建特征金字塔.本文搭建了具有横向连接的自上而下的结构FPN,从而在所有尺寸上构建高层次的语义特征.本文在Faster R-CNN的基础结构上增加了FPN结构,并…

论文阅读笔记六十三：DeNet: Scalable Real-time Object Detection with Directed Sparse Sampling（CVPR2017）

论文原址:https://arxiv.org/abs/1703.10295 github:https://github.com/lachlants/denet 摘要本文重新定义了目标检测,将其定义为用于评估一个规模较大但较为稀疏的的边界框依赖性的概率分布.随后,作者确定了一个评价稀疏分布的机制,Directed Sparse Sampling并将其应用至end-to-end的检测模型当中.该方法扩展了以往SOTA检测模型,并提高了eval 速率同时减少了人工设计.该方法存在两个创新点, I:…

论文阅读（Xiang Bai——【CVPR2016】Multi-Oriented Text Detection with Fully Convolutional Networks）

Xiang Bai--[CVPR2016]Multi-Oriented Text Detection with Fully Convolutional Networks 目录作者和相关链接方法概括方法细节创新点和贡献实验结果问题讨论总结与收获点作者和相关链接作者: paper下载方法概括 Step 1--文本块检测: 先利用text-block FCN得到salient map,再对salient map进行连通分量分析得到text block: Step 2--文本线形成:…

论文阅读笔记二十七：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks（CVPR 2016）

论文源址:https://arxiv.org/abs/1506.01497 tensorflow代码:https://github.com/endernewton/tf-faster-rcnn 室友对Faster R-CNN的解读:https://www.cnblogs.com/pursuiting/ 摘要目标检测依赖于区域proposals算法对目标的位置进行预测.SPPnet和Fast R-CNN已经减少了检测网络的运行时间.然而proposals的计算仍是一个重要的瓶颈.本文提出了一个R…

DeconvNet 论文阅读理解

学习语义分割反卷积网络DeconvNet 一点想法:反卷积网络就是基于FCN改进了上采样层,用到了反池化和反卷积操作,参数量2亿多,非常大,segnet把两个全连接层去掉,效果也能很好,显著减少了参数,只有290万,提升了性能摘要提出了一个创新的语义分割算法,反卷积网络.网络前几层用VGG16的结构.反卷积网络由反卷积层和反池化层组成,他们来实现像素级别的语义分割.我们把网络应用于输入图像得到每个结果,再将所有结果组合起来构成最终的语义分割图.这个方法可以降低现有的基于组合深度卷积网络和类别…

论文阅读笔记四十五：Region Proposal by Guided Anchoring（CVPR2019）

论文原址:https://arxiv.org/abs/1901.03278 github:code will be available 摘要区域anchor是现阶段目标检测方法的重要基石.大多数好的目标检测算法都依赖于anchors机制,通过预定义好的尺寸及大小在空间位置上进行均匀的采样.本文提出了一个可替换的解决方案-Guided Anchoring,该方法利用语义特征对anchor进行引导.该方法预测感兴趣目标物的中心的同时预测不同位置处的长宽尺寸及比例大小.在得到anchor的形状之后,…

目标检测论文阅读：Deformable Convolutional Networks

https://blog.csdn.net/qq_21949357/article/details/80538255 这篇论文其实读起来还是比较难懂的,主要是细节部分很需要推敲,尤其是deformable的卷积如何实现的一步上,在写这篇博客之前,我也查阅了很多其他人的分享或者去github找代码,当然也不敢说完全了解了这种特殊的卷积……仅仅做一点自己的阅读心得与体会吧.这是一篇很有意义的工作,但是和深度学习很多论文一样,在读完之后内心也不免有着种种疑云. Deformable Convoluti…

论文阅读笔记 Improved Word Representation Learning with Sememes

论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于知网资源的词嵌入学习模型,在通用的中文词嵌入评测数据集上进行了评测,取得了较好的结果. 作者简介该论文选自 ACL 2017,是清华大学孙茂松刘知远老师组的成果.论文的两名共同第一作者分别是牛艺霖和谢若冰. 牛艺霖,清华本科生. 谢若冰,清华研究生(2014-2017),清华本科生(2010-20…

【[论文阅读] Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks(MTCNN)】的更多相关文章