Background Suppression Network for Weakly-supervised Temporal Action Localization [Paper Reading]

研究内容：弱监督时域动作定位

结果：Thumos14 mAP0.5 = 27.0

ActivityNet1.3 mAP0.5 = 34.5

从结果可以看出弱监督这种瞎猜的方式可以PK掉早些时候的一些全监督方法

Code: GitHub P.S.我在机器上复现始终差一点点

Motivation: 发现之前的工作没有考虑到背景类别，会将背景帧误分为动作类别，造成大量FP。本文提出了背景抑制网络BaSNet，引入了额外的背景类，两支镜像网络(一支为base网络，一支为用attention抑制背景的suppression网络)，实验表明这样设计可以有效抑制背景的影响，从而提高定位的准确性。

Idea来源: attention模块参考自STPN (CVPR2018) 将fc换成时域卷积，STPN的作者今年有一篇ICCV2019的工作也是围绕背景建模，在STPN的基础上引入了(1-λ)作为背景类的权重，细节暂且不表

关于背景建模出现在弱监督时域动作定位领域最早的一篇是"Completeness modeling and context separation for weakly supervised temporal action localization"(CVPR2019)

这篇文章的主要卖点不是背景这里，但背景类的引入启发了后续的3个工作，本文和上面提到的STPN的强化版，还有特别优秀的LPAT(Shou Zheng团队的工作)

方法:

过去的工作类似base branch没有背景类。作者想引入背景类，如果单纯的直接引入背景类，数据集的设定使得无法找到完全没有背景的负样本用于训练，即每个视频groundtruth背景类别均为1(全是正样本)，最后会导致背景类的异常高响应，定位结果很差。

为了构造背景类的负样本，在另一支网络中引入attention模块(filtering module)抑制背景的响应。整个网络结构使用共享权重的conv模块分别处理两个分支，这两个分支唯一的不同点就是输入(supp分支的输入经过attention处理)和background label(base的背景类为1，supp的背景类为0) 这两点不同。这样做的目标是更好的训练filtering module使其学到前景信息，从而有效过滤并抑制背景的响应。

MIL分类的 top-k mean 想法源自WTALC的方法

最后的location模块在测试阶段选取supp分支的输出，后续操作仍然采用多阈值分割后NMS的方式，proposal的confidence score本文借用CMCS的方法：计算proposal区域和边界区域的均值得分之差

效果图：

Background Suppression Network for Weakly-supervised Temporal Action Localization [Paper Reading]的更多相关文章

LPAT: Learning to Predict Adaptive Threshold for Weakly-supervised Temporal Action Localization [Paper Reading]
Motivation: 阈值分割的阈值并没有通过模型训练学出来,而是凭借主观经验设置,本文通过与背景得分比较提取对应的proposal,不用阈值的另一篇文章是Shou Zheng的AutoLoc,通过 ...
2018年发表论文阅读：Convolutional Simplex Projection Network for Weakly Supervised Semantic Segmentation
记笔记目的:刻意地.有意地整理其思路,综合对比,以求借鉴.他山之石,可以攻玉. <Convolutional Simplex Projection Network for Weakly Supe ...
TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals（ICCV2017）
Motivation 实现快速和准确地抽取出视频中的语义片段 Proposed Method -提出了TURN模型预测proposal并用temporal coordinate regression来 ...
论文笔记之 SST: Single-Stream Temporal Action Proposals
SST: Single-Stream Temporal Action Proposals 2017-06-11 14:28:00 本文提出一种时间维度上的 proposal 方法,进行行为的识别.本 ...
SST:Single-Stream Temporal Action Proposals论文笔记
SST:Single-Stream Temporal Action Proposals 这是本仙女认认真真读完且把算法全部读懂(其实也不是非常懂)的第一篇论文 CVPR2017 一作论文写作的动机m ...
[CVPR2017] Deep Self-Taught Learning for Weakly Supervised Object Localization 论文笔记
http://openaccess.thecvf.com/content_cvpr_2017/papers/Jie_Deep_Self-Taught_Learning_CVPR_2017_paper. ...
Temporal Action Detection with Structured Segment Networks (ssn)【转】
Action Recognition: 行为识别,视频分类,数据集为剪辑过的动作视频 Temporal Action Detection: 从未剪辑的视频,定位动作发生的区间,起始帧和终止帧并预测类别 ...
[CVPR 2016] Weakly Supervised Deep Detection Networks论文笔记
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 } p. ...
[CVPR2017] Weakly Supervised Cascaded Convolutional Networks论文笔记
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px "Helvetica Neue"; color: #042eee } p. ...

随机推荐

如何让SQL语句不执行默认排序，而是按照in语句的顺序返回结果
Oracle: ')order by instr('111,222,333,444,555,666',order_id); Mysql: ') order by instr(',111,222,333 ...
一入 Java 深似海【目录】-----------------------------------------【目录】
[目录] 一.计算机相关知识 1. 2. 3. 二.Java 基础语法 1.Java 语言概述 2.数据类型 & 变量与常量 & 注释 3.运算符 4.流程控制语句之顺序结构 5. ...
APP手势密码绕过
之前写的文章收到了很多的好评,主要就是帮助到了大家学习到了新的思路.自从发布了第一篇文章,我就开始筹备第二篇文章了,最终打算在07v8首发,这篇文章我可以保障大家能够学习到很多思路.之前想准备例子视频 ...
Class版本号和Java版本对应关系
1.背景版本号不对,会报错,如下 2.版本对应情况 JDK 1.8 = 52 JDK 1.7 = 51 JDK 1.6 =50 JDK 1.5 = 49 JDK 1.4 = 48 JDK 1. ...
SQL Server 修改表结构（转载）
SQL Server 修改表结构本文链接:https://blog.csdn.net/petezh/article/details/81744374 查看指定表结构 exec sp_help Rep ...
彻底理解webgl
javascript很简单,核心点就一个: 一切皆对象. 简单又熟悉.呵呵这么简单的一句话,理解后,你就掌握了js. 一切皆对象,函数也是对象,创建静态方法 fun.action, 创建实例:new ...
HFS ~ Http File Server
HFS ~ Http File Server官网:https://www.rejetto.com/hfs/ 官方下载地址:https://www.rejetto.com/hfs/hfs.exe
Websocket --socket.io的用法
<!DOCTYPE html> <html> <head> <title>Hello WebSocket</title> <link ...
django 权限设置-登录配置权限
1.首先需要一个判断用户是否拥有这个权限的name来区分在主页上是否显示标签在permission中加入 name=models.CharField(max_length=32, verbose_n ...
MMORPG服务器场景中的aoi算法思考
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/lwtbn1/article/details/37961695 最近在做一个移动平台上的MMORPG项 ...

Background Suppression Network for Weakly-supervised Temporal Action Localization [Paper Reading]

Background Suppression Network for Weakly-supervised Temporal Action Localization [Paper Reading]的更多相关文章

随机推荐

热门专题