论文链接:https://arxiv.org/abs/1506.04924 摘要 该文提出了基于混合标签的半监督分割网络.与当前基于区域分类的单任务的分割方法不同,Decoupled 网络将分割与分类任务分离,并为每个任务单独学习一个分离的网络.分类网络识别与图片相关的标签,然后在每个识别的标签中进行二进制的分割.Decoupled网络可以基于图像级别标签学习分类网络,基于像素级别标签学习分割网络.该网络通过桥链接层获得类别明确的激活maps来减少分割的搜索空间.该文在少量训练数据的条件下仍优于…
Introduction (1)背景知识: ① 人脸识别是具有高可靠性的生物识别技术,但在低解析度(resolution)和姿态变化下效果很差. ② 步态(gait)是全身行为的生物识别特征,大部分步态识别方法是基于轮廓而不受外貌影响,但在复杂的背景和遮挡下轮廓难以提取. (2)问题场景: 假设行人在不同的相机中不更换衣服,结合人体外貌特征和步态特征进行识别. 难点:行人重识别受到姿态.视角.光照.遮挡的影响,空间对齐(spatial alignment)通过处理不同部位的样貌来解决该问题. 然…
论文源址:https://arxiv.org/pdf/1612.01105.pdf tensorflow代码:https://github.com/hellochick/PSPNet-tensorflow 基于PSPNet101的钢铁分割实验:https://github.com/fourmi1995/IronSegExperiment-PSPNet 摘要 对于不非特殊条件的场景解析仍十分困难.该文利用金字塔池化模型,融合了图像中不同区域的上下文信息. 介绍 分割可以预测完全理解场景,预测标签,…
论文链接:https://arxiv.org/pdf/1606.00915.pdf 摘要 该文主要对基于深度学习的分割任务做了三个贡献,(1)使用空洞卷积来进行上采样来进行密集的预测任务.空洞卷积可以在不增加参数量的基础上增大filter的感受野,从而可以得到更多的语义信息.(2)空洞空间金字塔池化结构(ASPP)从而以多尺寸来分割目标物体.通过不同sample rates的filters及不同大小的感受野,来获得多尺寸下的语义信息.(3)结合DCNN与概率模型提高物体的检测边界.DCNNs+C…
论文源址:https://arxiv.org/abs/1705.06820 tensorflow(github): https://github.com/HongyangGao/PixelDCN 基于PixelDCL分割实验:https://github.com/fourmi1995/IronsegExperiment-PixelDCL 摘要 反卷积被广泛用于深度学习的上采样过程中,包括语义分割的编码-解码网络与无监督学习的深度生成网络.反卷积的一个缺点是生成的特征图类似于棋盘状,相邻元素之间的…
论文源址:https://arxiv.org/abs/1606.02147 tensorflow github: https://github.com/kwotsin/TensorFlow-ENet 摘要 在移动端上进行实时的像素级分割十分重要.基于分割的深度神经网络中存在大量的浮点运算而且需要经过较长的时间才可以进行投入使用.该文提出的ENet目的是减少潜在的计算.ENet相比现存的分割网络,速度快18倍,参数量要少79倍,同时分割得到的准确率不有所损失,甚至有所提高. 介绍 目前,增强现实可…
论文源址:https://arxiv.org/abs/1505.04366 tensorflow代码:https://github.com/fabianbormann/Tensorflow-DeconvNet-Segmentation 基于DenconvNet的钢铁分割实验:https://github.com/fourmi1995/IronSegExperiment-DeconvNet 摘要 通过学习一个反卷积网络来实现分割算法, 本文卷积部分基于改进的VGG-16,反卷积网络部分由反卷积层和…
论文链接:https://arxiv.org/abs/1802.02611 tensorflow 官方实现: https: //github.com/tensorflow/models/tree/master/research/deeplab 实验代码:https://github.com/fourmi1995/IronSegExperiment-Deeplabv3_PLUS.git 摘要 分割任务中常见的结构有空间池化模型与编码-解码结构,前者主要通过不同的卷积和不同rate的池化操作和感受野…
Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值.这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值.简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数. 哈希表是根据设定的哈希函数H(key)和处理冲突方法将一组关键字映射到一个有限的地址区间上,并以关键字在地址区间中的象作为记…
Introduction 本文的贡献:提出了基于视频的行人重识别模型:Appearance and Motion Enhancement Model(AMEM).该模型对两类信息进行提取:提出了Appearance Enhancement Module(AME),采用行人属性学习提取行人的样貌特征:提出了Motion Enhancement Module(MEM),提取行人的步态特征,并对其行走进行预测. 在预测阶段仅使用提出模型的主干网络和两个特征提取模块. Approach (1)整体框架:…