论文原址:https://arxiv.org/abs/1902.05093 github:https://github.com/lingtengqiu/Deeperlab-pytorch 摘要 本文提出了一种bottoom-up,single-shot的全景图像分析方法.全景图像分析包含"stuff"形式(类别)的语义分割及“thing”形式(区别不同个体)的实例分割.目前,全景图像分析的经典方法是由语义分割任务及实例分割任务的独立的模块组成,同时其需要进行多次inference操作.…
前面曾提到过CTPN,这里就学习一下,首先还是老套路,从论文学起吧.这里给出英文原文论文网址供大家阅读:https://arxiv.org/abs/1609.03605. CTPN,以前一直认为缩写一般是从题目的开始依次排序选取首字母的,怕是孤陋寡闻了,全称是“ Detecting Text in Natural Image with Connectionist Text Proposal Network”,翻译过来是基于连接Proposal(直译太难受!!)网络的文本检测. 作者在论文中描述了…
论文原址:https://arxiv.org/pdf/1904.02701.pdf github:https://github.com/OceanPang/Libra_R-CNN 摘要 相比模型的结构,关注度较少的训练过程对于检测器的成功检测也是十分重要的.本文发现,检测性能主要受限于训练时,sample level,feature level,objective level的不平衡问题.为此,提出了Libra R-CNN,用于对目标检测中平衡学习的简单有效的框架.主要包含三个创新点:(1)Io…
论文原址:https://arxiv.org/abs/1810.08425 github:https://github.com/KimSoybean/ScratchDet 摘要 当前较为流行的检测算法是在经典的大规模分类的数据集上进行微调,但这样做会存在两个问题: (1)分类任务与检测任务二者之间对位置的敏感性差异较大,进而造成了优化目标之间存在偏差. (2)目标检测的结构受制于分类模型,进而造成对模型修改上的不便. 为了应对上面的这两个问题,从头重新训练检测器是一种可行的方法.但这种方法又存在…
论文原址:https://arxiv.org/pdf/1809.08545.pdf github:https://github.com/yihui-he/KL-Loss 摘要 大规模的目标检测数据集在进行ground truth 框标记时仍存在这歧义,本文提出新的边界框的回归损失针对边界框的移动及位置方差进行学习,此方法在不增加计算量的基础上提高不同结构定位的准确性.而学习到的位置变化用于在进行NMS处理时合并两个相邻的边界框. 介绍 在大规模目标检测数据集中,一些场景下框的标记是存在歧义的,十…
论文原址:https://arxiv.org/abs/1903.00621 摘要 本文提出了基于无anchor机制的特征选择模块,是一个简单高效的单阶段组件,其可以结合特征金字塔嵌入到单阶段检测器中.FSAF解决了传统基于anchor机制的两个限制:(1)启发式的特征选择(2)overlap-based anchor采样.FSAF的通用解释是将在线特征选择应用于与anchor无关的分支的训练上.即无anchor的分支添加到特征金字塔的每一层,从而可以以任意层次对box进行编码解码.训练过程中,将…
论文原址:https://arxiv.org/abs/1708.02002 github代码:https://github.com/fizyr/keras-retinanet 摘要 目前,具有较高准确率的检测器基于双阶段的目标检测算法实现,单阶段通过对可能存在的位置进行密集的采样操作,一定程度上要比双阶段的方法要更简单快速,但是准确率会有所损失.在进行训练时,前景与背景二者之间较大的类别不平衡是产生上述问题的原因.针对上述问题,本文对常规的损失函数进行修改,降低易分类样本产生的损失的贡献度.本文…
论文原址:https://arxiv.org/abs/1703.10295 github:https://github.com/lachlants/denet 摘要 本文重新定义了目标检测,将其定义为用于评估一个规模较大但较为稀疏的的边界框依赖性的概率分布.随后,作者确定了一个评价稀疏分布的机制,Directed Sparse Sampling并将其应用至end-to-end的检测模型当中.该方法扩展了以往SOTA检测模型,并提高了eval 速率同时减少了人工设计.该方法存在两个创新点, I:…
论文原址:https://arxiv.org/pdf/1902.09630.pdf github:https://github.com/generalized-iou 摘要 在目标检测的评测体系中,IoU是最流行的评价准则.然而,在对边界框的参数进行优化时,常用到距离损失,而按照IOU的标准则是取其最大值,二者之间是有一定差别的.对一个标准进行优化的目标函数是其标准本身.比如,对于2D的坐标对齐的边界框,可以直接使用IoU作为回归损失.然而,该方法存在一个弊端,就是当两个边界框不发生重叠时,Io…
论文原址:https://arxiv.org/abs/1901.03278 github:code will be available 摘要 区域anchor是现阶段目标检测方法的重要基石.大多数好的目标检测算法都依赖于anchors机制,通过预定义好的尺寸及大小在空间位置上进行均匀的采样.本文提出了一个可替换的解决方案-Guided Anchoring,该方法利用语义特征对anchor进行引导.该方法预测感兴趣目标物的中心的同时预测不同位置处的长宽尺寸及比例大小.在得到anchor的形状之后,…
论文原址:https://arxiv.org/pdf/1409.4842.pdf 代码连接:https://github.com/titu1994/Inception-v4(包含v1,v2,v4)  摘要 本文提出了一个深层的卷积网络结构-Inception,该结构的主要特点是提高了网络内部计算资源的利用率.在预估计算资源消耗量不变的情况下增加网络的深度及宽度.为了进行有效的优化,结构决策基于Hebbian原理及多尺寸处理操作.本文思想的一个经典实现是GoogLeNet,网络的深度为22层,该网…
论文原址:https://arxiv.org/abs/1409.1556 代码原址:https://github.com/machrisaa/tensorflow-vgg 摘要 本文主要分析卷积网络的深度对基于大数据集分类任务中准确率的影响,本文使用较小的卷积核(3x3), 应用至较深的网络中并进行评估,将网络中的深度增加至16至19层,可以有效改进分类效果. 介绍 卷积网络在大规模图片/视频分类任务中取得巨大成功的原因主要有,(1)大规模的图像数据,像ImageNet(2)高性能的计算资源(G…
论文源址:https://arxiv.org/abs/1811.11168 摘要 可变形卷积的一个亮点是对于不同几何变化的物体具有适应性.但也存在一些问题,虽然相比传统的卷积网络,其神经网络的空间形状更接近于目标物体的形状,但有时会超出ROI区域,从而引入不相关的图像信息进而对提取的特征造成影响.为此,本文提出了改造后的可变形卷积,通过增加建模及更强的训练来改善其聚焦图像相关区域的能力.通过在网路中引入更多的可变形卷积,同时,引入调制机制来扩大可变形的范围.为了有效的利用丰富的建模能力,通过一个…
论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要 特征金字塔是用于不同尺寸目标检测中的基本组件.但由于金字塔表征的特征需要消耗较多的内存及计算资源,因此,深度学习尽量避免使用金字塔特征.本文利用深度卷积网络中自带的多尺寸信息构建特征金字塔.本文搭建了具有横向连接的自上而下的结构FPN,从而在所有尺寸上构建高层次的语义特征.本文在Faster R-CNN的基础结构上增加了FPN结构,并…
论文源址:https://arxiv.org/abs/1709.04609 摘要 该文提出了基于深度学习的实例分割框架,主要分为三步,(1)训练一个基于ResNet-101的通用模型,用于分割图像中的前景和背景.(2)将通用模型进行微调成为一个实例分割模型,借助于视频第一帧的标签文件对不同个体进行实例分割.同时,从实例分割模型中得到每一个物体的像素级score map.每张score map代表物体类别的概率,并且只和视频第一帧的ground truth 计算.(3)提出空间传播网络用于增强前面…
Introduction (1)Motivation: 当前的一些video-based reid方法在特征提取.损失函数方面不统一,无法客观比较效果.本文作者将特征提取和损失函数固定,对当前较新的4种行人重识别模型进行比较. (2)Contribution: ① 对四种ReId方法(temporal pooling, temporal attention, RNN and 3D conv)进行科学合理的比较: ② 提出了一种采用时空卷积提取时间特征的注意力提取网络. Method (1)视频片…
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http://blog.csdn.net/colorant/article/details/8256145 == 目标问题 == 下一代的Hadoop框架,支持10,000+节点规模的Hadoop集群,支持更灵活的编程模型 == 核心思想 == 固定的编程模型,单点的资源调度和任务管理方式,使得Hadoop 1…
作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 更多论文阅读笔记 http://blog.csdn.net/colorant/article/details/8256145 == 目标问题 == 为了提高资源的利用率以及满足不同应用的需求,在同一集群内会部署各种不同的分布式运算框架(cluster computing framework),他们有着各自的调度逻辑. Mesos…
论文阅读笔记 Word Embeddings A Survey 收获 Word Embedding 的定义 dense, distributed, fixed-length word vectors, built using word co-occurrence statistics as per the distributional hypothesis. 分布式假说(distributional hypothesis) word with similar contexts have the…
论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作 使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于知网资源的词嵌入学习模型,在通用的中文词嵌入评测数据集上进行了评测,取得了较好的结果. 作者简介 该论文选自 ACL 2017,是清华大学孙茂松刘知远老师组的成果.论文的两名共同第一作者分别是牛艺霖和谢若冰. 牛艺霖,清华本科生. 谢若冰,清华研究生(2014-2017),清华本科生(2010-20…
这是一个导读,可以快速找到我记录的关于人工智能(深度学习)加速芯片论文阅读笔记. ISSCC 2017 Session14 Deep Learning Processors: ISSCC 2017关于Deep Learning Processors的Slides笔记,主要参考了[1]中的笔记,自己根据paper和slides读一遍,这里记一下笔记,方便以后查阅. 14.1 A 2.9TOPS/W Deep Convolutional Neural Network SoC in FD-SOI 28…
Nature/Science 论文阅读笔记 Unsupervised word embeddings capture latent knowledge from materials science literature The overwhelming majority of scientific knowledge is published as text, which is difficult to analyse by either traditional statistical anal…
Introduction (1)Motivation: 当前CNN无法提取图像序列的关系特征:RNN较为忽视视频序列前期的帧信息,也缺乏对于步态等具体信息的提取:Siamese损失和Triplet损失缺乏对label信息的考虑(???). (2)Contribution: 提出一个新的端到端网络框架,称为 CNN and RNN Fusion(CRF),结合了Siamese.Softmax 联合损失函数.分别对全身和身体局部进行模型训练,获得更有区分度的特征表示. Method (1)框架: (…
论文阅读笔记(十七)ICCV2017的扩刊(会议论文[传送门]) 改进部分: (1)惩罚函数:原本由两部分组成的惩罚函数,改为只包含 Sequence Cost 函数: (2)对重新权重改进: ① Positive Re-Weighting: 其中 若太大,则选择的样本标签的可信度小:若太小,则样本数量不足以进行矩阵学习,因此设置如下的: 其中,σ为 [0, 1],如果 σ = 1,则说明充分相信样本估计的可信度,反之设置为 σ = 0. ② Negative Re-Weighting: 对于所…
[论文阅读笔记] GEMSEC: Graph Embedding with Self Clustering 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 已经有一些工作在使用学习到的节点表示来做社区发现,但是仅仅局限在得到节点表示之后使用聚类算法来得到社区划分,简单说就是节点表示和目标任务分离了,学习到的节点表示并不能很有效地应用于聚类算法(因为可能节点表示向量所在的低维空间中并不存在容易容易划分的簇,从而使用聚类算法也不能得到很好的社区划分结果). (2) 主要贡献 Co…
[论文阅读笔记] metapath2vec: Scalable Representation Learning for Heterogeneous Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 解决异构网络上的节点嵌入问题. 论文中指出了异构网络嵌入的两个关键问题: 在异构网络中,如何定义和建模节点邻域的概念? 如何优化嵌入模型,使得其能够有效的保留多种类型的节点和边的结构和语义信息. (2) 主要贡献 Contribution 1: 定义了异构网络表示学…
[论文阅读笔记] node2vec:Scalable Feature Learning for Networks 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 由于DeepWalk的随机游走是完全无指导的随机采样,即随机游走不可控.本文从该问题出发,设计了一种有偏向的随机游走策略,使得随机游走可以在DFS和BFS两种极端搜索方式中取得平衡. (2) 主要贡献 Contribution: 本篇论文主要的创新点在于改进了随机游走的策略,定义了两个参数p和q,使得随机游走在BFS…
[论文阅读笔记] Fast Network Embedding Enhancement via High Order Proximity Approximation 本文结构 解决问题 主要贡献 主要内容 参考文献 (1) 解决问题 大多数先前的工作,要么是没有考虑到网络的高阶相似度(如谱聚类,DeepWalk,LINE,Node2Vec),要么是考虑了但却使得算法效率很低,不能拓展到大规模网络(如GraRep). (2) 主要贡献 Contribution 1. 将许多现有的NRL算法架构总结…
[论文阅读笔记] Community aware random walk for network embedding 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 先前许多算法都只考虑了网络的局部拓扑结构信息,忽略了原始网络中潜藏的社区信息. (2) 主要贡献 Contribution: 为了结合聚类将表示学习应用于基于图结构的社区发现任务上,本文在随机游走过程中结合了社区信息,使得同社区节点具有相近的表示向量,方便聚类任务. (3) 算法原理 CARE算法框架主要包含两个…
[论文阅读笔记] Are Meta-Paths Necessary? Revisiting Heterogeneous Graph Embeddings 本文结构 解决问题 主要贡献 算法原理 参考文献 (1) 解决问题 传统的异构网络中的随机游走常常偏向于采样节点数比较多的节点类型.为了克服该问题,metapath2vec提出了基于元路径的随机游走,然而使用元路径策略要么要求先验知识,要么需要通过额外的操作来结合所有短的元路径到一个预定义的序列长度(如多元路径的情况,如何取舍,哪个更重要?).…