LPAT: Learning to Predict Adaptive Threshold for Weakly-supervised Temporal Action Localization [Paper Reading]

Motivation: 阈值分割的阈值并没有通过模型训练学出来，而是凭借主观经验设置，本文通过与背景得分比较提取对应的proposal，不用阈值的另一篇文章是Shou Zheng的AutoLoc，通过伪标签训练回归网络

阈值分割缺点：低阈值会把多个动作实例ground-truth合并成一个动作实例，高阈值会将一个动作实例ground-truth分割成多个动作实例

忽略背景建模：过去的方法没有对视频的背景建模无法利用动作和背景之间的先验知识

Feature Transformation Module: (1) full-connected (2) 1D时域卷积<+TemConv> 后接ReLU和Dropout(0.7)

Per-snippet Classifier: full-connected layer with linear activation

训练：

为了选出可能包含动作的视频帧用于视频分类，过去使用的方法有attention和top K(length*1/8)动作得分。作者通过添加背景类，引入这样的先验(如果帧片段的动作得分>背景得分，这样的帧片段将选为某类动作片段)

对每一个视频T*C的动作得分矩阵和T*1的背景得分矩阵求差，后接非线性函数

时域池化：用上一个公式求得的结果与原T*C的动作得分矩阵求加权和得到每个动作的平均分，背景类同理

为了得到最后的置信得分对类别得分向量求softmax

最后求加权交叉熵loss用于视频分类，因为背景和动作的类别不平衡，实验将背景部分的权重wb设为1/C

Proposal Confidence Loss

上面的约束用于对动作和背景建模，并没有对动作提名进一步约束，作者想进一步拉开threshold和动作得分之间的距离，这样产生的提名将获得高置信度

首先取ground-truth对应T*C'分数矩阵，对各个时间维度(T)沿类别维度(C')求最大值

约束每个视频片段的动作得分和背景得分是负数，有如下公式

类似于余弦相似度，达到最小值时是s和b向量里每个元素都异号，这里的0.5为margin约束

Inference阶段：

视频分类用的是softmax后的p得分向量，选取 > C类平均得分的类别为预测类别，然后定位每一个预测类别的动作片段，选取动作得分 > 背景得分的所有片段为最终的proposal，从而得到最终的 (start, end, score）

对比试验加入了WTALC的Co-Activity Similarity Loss约束

这种ranking hinge loss实现的约束使得最终的mAP0.5达到29.5，作为扩展视频中各类别动作发生的次数也可作为监督进一步提高模型的精度

综上，个人觉得本文的方法非常clean & solid，很强的motivation没有强加模块的痕迹，最后的结果非常好，不知后续有没有这么干净的idea可以刷出新高度，拭目以待。

LPAT: Learning to Predict Adaptive Threshold for Weakly-supervised Temporal Action Localization [Paper Reading]的更多相关文章

[CVPR2017] Deep Self-Taught Learning for Weakly Supervised Object Localization 论文笔记
http://openaccess.thecvf.com/content_cvpr_2017/papers/Jie_Deep_Self-Taught_Learning_CVPR_2017_paper. ...
Adaptive Threshold
Adaptive Threshold 1. Otsu's Binarization: Using a discriminant analysis to partition the image into ...
[CVPR2017] Weakly Supervised Cascaded Convolutional Networks论文笔记
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px "Helvetica Neue"; color: #042eee } p. ...
[CVPR 2016] Weakly Supervised Deep Detection Networks论文笔记
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 } p. ...
Robust Tracking via Weakly Supervised Ranking SVM
参考文献:Yancheng Bai and Ming Tang. Robust Tracking via Weakly Supervised Ranking SVM Abstract 通常的算法:ut ...
[place recognition]NetVLAD: CNN architecture for weakly supervised place recognition 论文翻译及解析（转）
https://blog.csdn.net/qq_32417287/article/details/80102466 abstract introduction method overview Dee ...
2018年发表论文阅读：Convolutional Simplex Projection Network for Weakly Supervised Semantic Segmentation
记笔记目的:刻意地.有意地整理其思路,综合对比,以求借鉴.他山之石,可以攻玉. <Convolutional Simplex Projection Network for Weakly Supe ...
Two-Stream Adaptive Graph Convolutional Network for Skeleton-Based Action Recognition
Two-Stream Adaptive Graph Convolutional Network for Skeleton-Based Action Recognition 摘要基于骨架的动作识别因为 ...
[ICCV 2019] Weakly Supervised Object Detection With Segmentation Collaboration
新在ICCV上发的弱监督物体检测文章,偷偷高兴一下,贴出我的poster,最近有点忙,话不多说,欢迎交流- https://arxiv.org/pdf/1904.00551.pdf http://op ...

随机推荐

2019国际VR/AR暨3D显示大会内容总结
一.VR/AR标准化进程牟同生(浙大) 1.单眼FOV,双眼FOV FOV:又称视场,视角FOV是指镜头所能覆盖的范围(物体超过这个范围就不会被收在镜头内),一般用角度值表示. ...
vue单元素/组件的过渡
(1)过渡的类名 v-enter:定义进入过渡的开始状态.在元素被插入之前生效,在元素被插入之后的下一帧移除. v-enter-active:定义进入过渡生效时的状态.在整个进入过渡的阶段中应用,在元 ...
Android 培训准备资料之project与module的区别（1）
project和module的区别? 现在我们来看看在Android studio中怎样新建一个project (1)file->new->new project. Application ...
普通Java项目中使用Sl4j+Log4j2打印日志
因工作需要,采用JavaFx开发了一个windows窗口程序.在开发过程中,由于没有引入日志框架,只能自己手动在控制台打印些信息,给调试带来了很多麻烦:因此决定引入日志框架.由于之前接触的项目 ...
C#中的函数(一) 无参无返回值的函数
分析下C#中的函数先写一个小例子,一个静态函数,无返回值,无形参在第17行与20行分别下断点 F5调试运行,此时中断在第17行MyFunction(), 在第17行右键反汇编,看下反汇编代码这里 ...
woocommerce隐藏breadcrumb面包屑导航
woocommerce已经集成比较完善的组件,当然也包含breadcrumb面包屑导航,但是我们如果调整一下breadcrumb的位置要如何操作呢?首先要先把woocommerce隐藏breadcru ...
JDOJ 1606 数字三角形
JDOJ 1606: 数字三角形 JDOJ传送门 Description 输入n,输出n的数字三角形见样例 Input n Output n的数字三角形 Sample Input 4 Sample ...
Fish eating fruit 沈阳网络赛（树形dp）
Fish eating fruit \[ Time Limit: 1000 ms \quad Memory Limit: 262144 kB \] 题意大体的题意就是给出一棵树,求每一对点之间的距离 ...
maker使用说明书
1.以自带的示例数据为例 dpp_contig.fasta dpp_est.fasta dpp_protein.fasta te_proteins.fasta 2.生成控制文件控制文件是特定于运行的 ...
Linux】目录文件权限的查看和修改【转】
转载自:http://zhaoyuqiang.blog.51cto.com/6328846/1214718 ============================================== ...

LPAT: Learning to Predict Adaptive Threshold for Weakly-supervised Temporal Action Localization [Paper Reading]

LPAT: Learning to Predict Adaptive Threshold for Weakly-supervised Temporal Action Localization [Paper Reading]的更多相关文章

随机推荐

热门专题