基于三端卷积网络的在线视频目标分割

针对半监督视频目标分割任务，作者采取了和MaskTrace类似的思路，以optical flow为主。

本文亮点在于：

1. 使用共享backbone，三输出的自编码器。

2. 对一些视频中确定性像素建模，分割前后景。

3. 对被遮挡又重新出现的物体使用前后景GMMs损失建模识别，增加正确率。

摘要

半监督的在线视频目标分割任务就是给定第一帧的Mask，然后分割后续的帧。我们可以使用optical flow向量传递前面帧的分割效果到后续帧，但是这样会产生错误。因此作者提出了一个三端网络(CTN)——输出分割概率，确定性前景概率和确定性后景概率，然后使用马尔科夫随机场优化得到最终结果。

Proposed Algorithm

算法流程如下：

1. 首先输入当前帧 t 和前一帧 t-1 的分割mask，前一帧的分割mask在optcal flow的指导下预测出 t 帧的大致样子。

2. 同时对 t 帧和传播后的mask进行crop截取path。经过前景后景抽取的mask和crop后的 t 帧输入到网络得到三张概率map。

3. 对概率图进行MRF优化得到第 t 帧的分割效果。

Propagation of Segmentation Labels

对于像素点p=[x, y]^T，从I^(t-1)到I^(t)的label传播为：

其中S^(t-1)为前一帧的分割label图。[u, v]为I^(t)到I^(t-1)的后向optical flow向量。

Network Architecture

编码结构采用VGG-16，224x224x3为输入，由13个卷积层，3个全链接层和5个池化层组成。

分割概率需要精准风格边界，所以需要shortcut结构获取低层特征信息。确定性前景或后景只判断最可能确定的像素点，所以不需要细节信息。前景后景的输入resize到14x14和VGG输出对齐，因为只是估计确定性像素点，所以相当于低通滤波的resize可以这么设计。卷积层加BN+ReLU。

Training Phase

介绍完网络结构，接下来要说怎么训练，因为原始数据集一般都只带有label mask。

给定输入图片（a），根据边距进行裁剪，与图片的形状大小成正比。然后对mask降质(degrade)，对masked区域填充[0.5)的随机强度，然后遮盖部分或圆形噪声点（e）。对降质后的图片进行高斯smoothing和阈值化得到两个Ground truth。

推理阶段，截取图片和传播后的H输入网络，H需要多截取50像素点然后resize。

Markov Random Field Optimization

优化目标函数：。

其中前景后景的作用点在于一元能量函数：

Reappearing Object Detection

如何定义不连续的像素点来检测重新出现的目标，作者定义了像素点的不连续性

。假设前一帧的像素点为 p_head ，当前帧为 p，大于某阈值即为不连续。

对第一帧和第（t-1）帧使用前景和后景的GMMs。那么一个属于重新出现部分的不连续点的前景高斯损失就会低于后景高斯损失。高斯损失定义在公式（3）。

Experimental Results

作者又提出了一个Fast版本。

实验结果图：

[CVPR2017]Online Video Object Segmentation via Convolutional Trident Network的更多相关文章

泡泡一分钟:SceneCut: Joint Geometric and Object Segmentation for Indoor Scenes
张宁 SceneCut: Joint Geometric and Object Segmentation for Indoor Scenes "链接:https://pan.ba ...
论文笔记：AdaScale: Towards real-time video object detection using adaptive scalingAdaScale
AdaScale: Towards real-time video object detection using adaptive scaling 2019-02-18 16:14:17 Paper: ...
PaperNotes Instance-Level Salient Object Segmentation
title: PaperNotes Instance-Level Salient Object Segmentation comments: true date: 2017-12-20 13:53:1 ...
论文笔记：Capsules for Object Segmentation
Capsules for Object Segmentation 2018-04-16 21:49:14 Introduction: ----
video object detection
先说一下,我觉得近两年最好的工作吧.其他的,我就不介绍了,因为我懂得少. 微软的jifeng dai的工作. Deep Feature Flow github: https://github.co ...
Relation-Shape Convolutional Neural Network for Point Cloud Analysis(CVPR 2019)
代码:https://github.com/Yochengliu/Relation-Shape-CNN 文章:https://arxiv.org/abs/1904.07601 作者直播:https:/ ...
1 - ImageNet Classification with Deep Convolutional Neural Network （阅读翻译）
ImageNet Classification with Deep Convolutional Neural Network 利用深度卷积神经网络进行ImageNet分类 Abstract We tr ...
论文笔记：（CVPR2019）Relation-Shape Convolutional Neural Network for Point Cloud Analysis
目录摘要一.引言二.相关工作基于视图和体素的方法点云上的深度学习相关性学习三.形状意识表示学习 3.1关系-形状卷积建模经典CNN的局限性变换:从关系中学习通道提升映射 3.2性 ...
论文翻译：2020_FLGCNN: A novel fully convolutional neural network for end-to-end monaural speech enhancement with utterance-based objective functions
论文地址:FLGCNN:一种新颖的全卷积神经网络,用于基于话语的目标函数的端到端单耳语音增强论文代码:https://github.com/LXP-Never/FLGCCRN(非官方复现) 引用格式 ...

随机推荐

R语言学习笔记（六）：列表及数据框的访问
List R语言中各组件的名称叫做标签(tags),访问列表有3种方法: j$salary 通过标签名字访问,只要不引起歧义,可以只写出前几个字母. j[['sal']] 夹在两个中括号时引号里的标签 ...
The Road to learn React书籍学习笔记(第三章)
The Road to learn React书籍学习笔记(第三章) 代码详情声明周期方法通过之前的学习,可以了解到ES6 类组件中的生命周期方法 constructor() 和 render() ...
vs13发布web程序 iis上
一.配置iis 1,找到控制面板--程序--启用或关闭Windows功能 2,从列表中选择Internet Infomation Services,并且把相应的功能条目勾选上,如果不清楚,可以全部选中 ...
新手入门Sqlalchemy
此文已由作者尤炳棋授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 入职考拉半年多,一直在从事KLQA平台的开发,KLQA平台后端是用基于python的flask框架搭建的.F ...
PostgreSQL 数据库升级
PostgreSQL软件版本升级后,需要使用pg_upgrade迁移旧版本的数据库,具体的操作参数可以参考官方文档,在此记录一下操作过程中出现的细节问题: 新版本软件在initdb的时候要保证loca ...
对工具的反思 & deadlines与致歉
人和动物最大的区别就是使用工具的水平. 有些人只凭着对工具的熟练掌握便成了牛人. 工具,到底应该以何种态度去看待? 在我小的时候,工具仅仅是指树枝.线.粉笔,可以让自己有更多游戏可玩:上学之后,便又有 ...
Jmeter——小性能用例
1.添加默认值,将代理服务器写入 2.添加HTTP请求头,将域名部分用变量形式写入:${__CSVRead(D:/number.txt,0)},这是为了查询不同页面,在D:/number.txt路径下 ...
解决灰色shader与mask冲突的方案
Shader "Custom/Opaque" { Properties { [PerRendererData] _MainTex ("Sprite Texture&quo ...
总结java操作MySQL 即JDBC的使用
java.sql包中存在DriverManager类,Connection接口,Statement接口和ResultSet接口.类和接口作用如下: DriverManager:主要用于管理驱动程序和连 ...
mysqldump: Got error: 1135: Can't create a new thread (errno 11); if you are not out of available memory, you can consult the manual for a possible OS-dependent bug when trying to connect 解决办法
在进行数据库备份的时候发现服务器报 mysqldump: Got error: 1135: Can't create a new thread (errno 11); if you are not o ...

[CVPR2017]Online Video Object Segmentation via Convolutional Trident Network