论文原址:https://arxiv.org/abs/1703.10295 github:https://github.com/lachlants/denet 摘要 本文重新定义了目标检测,将其定义为用于评估一个规模较大但较为稀疏的的边界框依赖性的概率分布.随后,作者确定了一个评价稀疏分布的机制,Directed Sparse Sampling并将其应用至end-to-end的检测模型当中.该方法扩展了以往SOTA检测模型,并提高了eval 速率同时减少了人工设计.该方法存在两个创新点, I:…
论文原址:https://arxiv.org/abs/1904.01355 github: tinyurl.com/FCOSv1 摘要 本文提出了一个基于全卷积的单阶段检测网络,类似于语义分割,针对每个像素进行预测.RetinaNet,SSD,YOLOv3,Faster R-CNN都依赖于预定义的anchor boxes.本文的FCOX是anchor free ,proposal free类型的检测器.将预定义的anchors进行移除,进而减少了大量的计算以及内存占用,同时,anchor中的超参…
今天来看一看一个比较经典的语义分割网络,那就是FCN,全称如题,原英文论文网址:https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf 三位大佬:Jonathan Long Evan Shelhamer Trevor Darrell 这个网址是网上一个大佬记录的FCN的博客,同时深深感受到了自己与大佬的差距,但还是硬着头皮把论文阅读完成,贴出网址,和大家一起学习:https://blog.csdn.net/happyer8…
论文原址:https://arxiv.org/pdf/1904.02701.pdf github:https://github.com/OceanPang/Libra_R-CNN 摘要 相比模型的结构,关注度较少的训练过程对于检测器的成功检测也是十分重要的.本文发现,检测性能主要受限于训练时,sample level,feature level,objective level的不平衡问题.为此,提出了Libra R-CNN,用于对目标检测中平衡学习的简单有效的框架.主要包含三个创新点:(1)Io…
论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要 特征金字塔是用于不同尺寸目标检测中的基本组件.但由于金字塔表征的特征需要消耗较多的内存及计算资源,因此,深度学习尽量避免使用金字塔特征.本文利用深度卷积网络中自带的多尺寸信息构建特征金字塔.本文搭建了具有横向连接的自上而下的结构FPN,从而在所有尺寸上构建高层次的语义特征.本文在Faster R-CNN的基础结构上增加了FPN结构,并…
论文原址:https://arxiv.org/abs/1811.07275 摘要 一个训练好的网络模型由于其模型捕捉的特征中存在大量的重叠,可以在不过多的降低其性能的条件下进行压缩剪枝.一些skip/Dense网络结构一定程度上减弱了重叠的现象,但这种做法引入了大量的计算及内存.本文从更改训练方式的角度来解决上述问题.本文发现,通过对模型进行临时裁剪,并对一定的filter进行恢复,重复操作,可以减少特征中的重叠效应,同时提高了模型的泛化能力.本文证明当前的压缩标准在语义上并不是最优的,本文引入…
论文原址:https://arxiv.org/abs/1709.01507 github:https://github.com/hujie-frank/SENet 摘要 卷积网络的关键构件是卷积操作,在每层感受野的范围内通过融合局部及channel-wise信息可以使网络构建特征.一些研究关注空间组件,通过增强空间特征等级的编码能力在增强表示力.本文重点在于通道之间的联系,提出了SENet block,通过对通道之间的独立性建模来自适应的调整通道之间的响应.可以将这些block进行堆叠得到SEN…
论文原址:https://arxiv.org/abs/1904.03797 摘要 FoveaBox属于anchor-free的目标检测网络,FoveaBox直接学习可能存在的图片种可能存在的目标,这期间并不需要anchor作为参考.主要靠两方面实现:(1)产生类别敏感的语义map用于表示目标物存在的可能性.(2)在每个可能存在目标物的位置生成与类别无关的边界框.目标边框的尺寸与对应输入图片的特征金字塔的表示相关. 介绍 目标检测主要包含两个任务:定位及识别,输入一张图片,检测系统需要判断是否有预…
论文链接:https://arxiv.org/abs/1711.06897 代码链接:https://github.com/sfzhang15/RefineDet 摘要 RefineDet是CVPR 2018的一篇论文,文中提出了一个新的single-shot检测器RefineDet,实现了比二阶段方法更高的准确率而且具有与一阶段方法相当的效率.RefineDet包括两个互连模型ARM(anchor refinement module)和ODM(object detection module):…
题目:Deep Continuous Fusion for Multi-Sensor 3D Object Detection 来自:Uber: Ming Liang Note: 没有代码,主要看思想吧,毕竟是第一篇使用RGB feature maps 融合到BEV特征中: 从以下几个方面开始简述论文 Open Problems Contributions Methods Experiments My Conclusion 1> Open Problems 联合多传感器数据能获得更好的特征表示:…
论文原址:https://arxiv.org/abs/1902.05093 github:https://github.com/lingtengqiu/Deeperlab-pytorch 摘要 本文提出了一种bottoom-up,single-shot的全景图像分析方法.全景图像分析包含"stuff"形式(类别)的语义分割及“thing”形式(区别不同个体)的实例分割.目前,全景图像分析的经典方法是由语义分割任务及实例分割任务的独立的模块组成,同时其需要进行多次inference操作.…
论文原址:https://pdfs.semanticscholar.org/eeb7/c037e6685923c76cafc0a14c5e4b00bcf475.pdf 摘要 本文研究了利用深度神经网络及逆行自动语音识别(ASR)的语音模型,其输入是直接输入窗口形语音波(WSW).本文首先证明了,网络要实现自动化需要具有于梅尔频谱相类似的特征,(梅尔频谱是啥?参考,https://blog.csdn.net/qq_28006327/article/details/59129110),本文研究了挖掘…
论文源址:https://arxiv.org/abs/1709.04609 摘要 该文提出了基于深度学习的实例分割框架,主要分为三步,(1)训练一个基于ResNet-101的通用模型,用于分割图像中的前景和背景.(2)将通用模型进行微调成为一个实例分割模型,借助于视频第一帧的标签文件对不同个体进行实例分割.同时,从实例分割模型中得到每一个物体的像素级score map.每张score map代表物体类别的概率,并且只和视频第一帧的ground truth 计算.(3)提出空间传播网络用于增强前面…
论文原址:https://arxiv.org/abs/1808.08718 代码:https://github.com/JiahuiYu/wdsr_ntire2018 摘要 本文证明在SISR中在ReLU之前特征图越宽,在有效的计算资源及内存条件下,模型的性能越好.本文提出的残差网络具有平滑的identity mapping pathway,在激活层之前,每个block含有2x,4x多的通道数.为了进行6x,9x的增宽,本文将低等级的卷积引入到超分辨网络中.对比有BN层无BN层,本文发现对权重正…
论文原址:https://arxiv.org/abs/1707.02921 代码: https://github.com/LimBee/NTIRE2017 摘要 以DNN进行超分辨的研究比较流行,其中,残差学习较大的提高了性能.本文提出了增强的深度超分辨网络(EDST)其性能超过了当前超分辨最好的模型.本文模型性能的大幅度提升主要是移除卷积网络中不重要的模块进行优化得到的.本文模型可以在固定训练步骤的同时,进一步扩大模型的尺寸来提升模型性能.本文同时提出了一个多尺寸超分辨系统(MDSR)及训练方…
论文原址:https://arxiv.org/pdf/1903.06586.pdf github: https://github.com/implus/SKNet 摘要 在标准的卷积网络中,每层网络中神经元的感受野的大小都是相同的.在神经学中,视觉神经元感受野的大小是由刺激机制构建的,而在卷积网络中却很少考虑这个因素.本文提出的方法可以使神经元对于不同尺寸的输入信息进行自适应的调整其感受野的大小.building block为Selective Kernel单元.其存在多个分支,每个分支的卷积核…
Introduction (1)Motivation: 当前的一些video-based reid方法在特征提取.损失函数方面不统一,无法客观比较效果.本文作者将特征提取和损失函数固定,对当前较新的4种行人重识别模型进行比较. (2)Contribution: ① 对四种ReId方法(temporal pooling, temporal attention, RNN and 3D conv)进行科学合理的比较: ② 提出了一种采用时空卷积提取时间特征的注意力提取网络. Method (1)视频片…
论文源址:https://arxiv.org/abs/1710.08864 tensorflow代码: https://github.com/Hyperparticle/one-pixel-attack-keras 摘要 在对网络的输入上做点小处理,就可以改变DNN的输出结果.本文分析了一种极限条件下的攻击情形,只改变一个输入中的一个像素使网络的输出发生改变.本文提出了一个基于差分进化生成单像素的对抗性扰动.可以以最小攻击信息的条件下,对更多类型的网络进行欺骗.结果表明,CIFAR-10测试集上…
源文网址:https://arxiv.org/abs/1707.03718 tensorflow代码:https://github.com/luofan18/linknet-tensorflow 基于Linknet的分割实验:https://github.com/fourmi1995/IronSegExperiment-LinkNet 摘要 像素级分割不仅准确率上有要求,同时需要应用的实际中实时的应用中.虽然精度上较高,但参数与操作上的数量都是十分巨大的.本文提出的网络结构参数并未增加.只使用了…
论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Zhao_EGNet_Edge_Guidance_Network_for_Salient_Object_Detection_ICCV_2019_paper.pdf 当前方法的问题 全卷积网络解决了像素标记问题,出现了几种用于显着物体检测的端到端深度架构. 输出显着性图的基本单位从图像区域开始变成每个像素. 一方面,由于每个像素都有其显着性值,结果突出显示了细节. 但是,它忽略了对…
R-CNN总结 不总结就没有积累 R-CNN的全称是 Regions with CNN features.它的主要基础是经典的AlexNet,使用AlexNet来提取每个region特征,而不再是传统的SIFT.SURF的特征.同时,还利用了AlexNet本来的功能:分类,这时所得的分类结果相当于预分类.最后,由于每个Region是有边界的,使用SVM对其进行分类得到一个score,定位每个物体的bounding box. 预处理: 先看一看AlexNet的网络结构 可以看到,它的输入图像是一个…
[论文阅读笔记] metapath2vec: Scalable Representation Learning for Heterogeneous Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 解决异构网络上的节点嵌入问题. 论文中指出了异构网络嵌入的两个关键问题: 在异构网络中,如何定义和建模节点邻域的概念? 如何优化嵌入模型,使得其能够有效的保留多种类型的节点和边的结构和语义信息. (2) 主要贡献 Contribution 1: 定义了异构网络表示学…
[论文阅读笔记] node2vec:Scalable Feature Learning for Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 由于DeepWalk的随机游走是完全无指导的随机采样,即随机游走不可控.本文从该问题出发,设计了一种有偏向的随机游走策略,使得随机游走可以在DFS和BFS两种极端搜索方式中取得平衡. (2) 主要贡献 Contribution: 本篇论文主要的创新点在于改进了随机游走的策略,定义了两个参数p和q,使得随机游走在BFS…
[论文阅读笔记] LouvainNE: Hierarchical Louvain Method for High Quality and Scalable Network Embedding 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 本篇论文是针对现有表征算法计算开销比较大,不能够很好应用到大规模网络上的问题. (2) 主要贡献 Contribution: 提出一种快速且可扩展网络表征框架,LouvainNE,能够为包含数百亿边的网络生成高质量的表征向量. (3) 算法…
这是一个导读,可以快速找到我记录的关于人工智能(深度学习)加速芯片论文阅读笔记. ISSCC 2017 Session14 Deep Learning Processors: ISSCC 2017关于Deep Learning Processors的Slides笔记,主要参考了[1]中的笔记,自己根据paper和slides读一遍,这里记一下笔记,方便以后查阅. 14.1 A 2.9TOPS/W Deep Convolutional Neural Network SoC in FD-SOI 28…
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http://blog.csdn.net/colorant/article/details/8256145 == 目标问题 == 下一代的Hadoop框架,支持10,000+节点规模的Hadoop集群,支持更灵活的编程模型 == 核心思想 == 固定的编程模型,单点的资源调度和任务管理方式,使得Hadoop 1…
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http://blog.csdn.net/colorant/article/details/8256145 == 目标问题 == 为了提高资源的利用率以及满足不同应用的需求,在同一集群内会部署各种不同的分布式运算框架(cluster computing framework),他们有着各自的调度逻辑. Mesos…
论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, built using word co-occurrence statistics as per the distributional hypothesis. 分布式假说(distributional hypothesis) word with similar contexts have the…
论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作 使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于知网资源的词嵌入学习模型,在通用的中文词嵌入评测数据集上进行了评测,取得了较好的结果. 作者简介 该论文选自 ACL 2017,是清华大学孙茂松刘知远老师组的成果.论文的两名共同第一作者分别是牛艺霖和谢若冰. 牛艺霖,清华本科生. 谢若冰,清华研究生(2014-2017),清华本科生(2010-20…
Nature/Science 论文阅读笔记 Unsupervised word embeddings capture latent knowledge from materials science literature The overwhelming majority of scientific knowledge is published as text, which is difficult to analyse by either traditional statistical anal…