1.针对的问题

  现有的方法主要遵循于通过优化视频级分类目标来实现定位的方式,这些方法大多忽略了视频之间丰富的时序对比关系,因此在分类学习和分类-定位自适应的过程中面临着极大的模糊性。(1)在弱监督设置中没有足够的标注,学习的分类器本身没有足够的区别和鲁棒性,导致了动作-背景分离的困难。(2)由于分类和定位之间存在较大的任务差距,学习到的分类器通常专注于易于区分的片段,而忽略那些在定位中不突出的片段。因此,局部的时间序列往往是不完整和不精确的。

2.主要贡献

  •引入了第一个用于鲁棒WSAL的区分顺序到顺序的比较框架,以解决缺乏能够利用细粒度时间差别的帧级标注的问题。

  •设计了一个统一的可导动态规划公式,包括细粒度序列远程学习和最长公共子序列挖掘,该公式具有(1)区分动作背景分离和(2)缓解分类与定位之间的任务差距的优点。

  •在两个常用基准上的广泛实验结果表明,提出的FTCL算法具有良好的性能。所提出的策略是与模型无关的,并且不具有干扰性,因此可以在现有方法之上发挥补充作用,从而始终如一地提高动作定位性能。

3.方法

  本文认为通过考虑上下文的序列到序列对比可以为弱监督时序行为定位提供本质的归纳偏置并帮助识别连续的行为片段。在一个可导的动态规划框架下,设计了两个互补的对比目标,其中包括细粒度序列距离(FSD)对比和最长公共子序列(LCS)对比,其中,第一个通过使用匹配、插入和删除操作符来考虑各种动作/背景建议之间的关系,第二个挖掘两个视频之间最长的公共子序列。两种对比模块可以相互增强,共同享受区分动作-背景分离的优点,减轻分类和定位之间的任务差距。

  细粒度序列距离(FSD)对比:考虑动作背景的分离,提高学习动作分类器的识别能力,其中将可导的匹配,插入和删除操作符用于序列之间的相似性计算,具体来说,使用学习到的CAS,可以生成各种行动/背景建议,其中行动建议U包含具有高行动激活的片段,而背景建议V恰恰相反。对于长度为M和N的两个建议序列,U=[u1,...,ui,...,uM]∈RD×M和V=[v1,...,vi,...,vM]∈RD×N,通过以下递归对它们的相似性进行评估:

  其中,子序列相似度得分S(i,j)在第一个序列U的位置i和第二个序列V的位置j上被计算。S(0,:)和S(:,0)被初始化为零。直观地说,在位置(i,j)中,如果ui和vj相匹配,则序列相似性得分应该增加。如果执行插入或删除操作,应该对相似度评分进行惩罚。为此,学习了三种类型的残差值(标量),即µi,j,gi,j和hi,j。以µi,j,gi,j为例,计算方法如下:

  其中,∆µi,j=[fµ(ui),fµ(vj)]和∆gi,j的定义类似。fµ(·),fg(·)和fh(·)是三个全连接的层。利用这些函数来模拟不同的操作,包括匹配,插入和删除。σµ和σg是获取残差值的激活函数。由此,保证了S(i,j)是两个序列之间的最优相似度得分,显然,来自同一类别的两个行动建议之间的相似性应该大于行动建议和背景建议之间的相似性。通过利用这种关系,设计了FSD对比损失如下:

  其中,ℓ(x)表示ranking loss。下标[UV]表示来自同一类别的两个计算序列到序列相似度的动作建议s=S(M,N)。U'和V'代表背景建议。由于等式(2)中的max操作是不可导的,所以作者进行了平滑,将其换为

  最长公共子序列(LCS)对比:在两个未裁剪的视频X和Z之间挖掘最长公共子序列(LCS),从而提高学习到的动作建议的一致性。这个想法背后的直觉是双重的:(1)如果两个视频没有共享相同的动作,那么X和Z之间的LCS长度应该很小。显然,由于两种类型的动作背景不同,差异较大,两个单独视频的片段很可能高度不一致,导致LCS较短。(2)同样的,如果两个视频共享同一个动作,那么它们的LCS很容易长,因为同一类别的动作实例是由相似的时间动作片段组成的。理想情况下,这种情况下的LCS与较短的动作实例一样长。计算公式如下:

  其中,τ是一个阈值,它决定了视频X的第i个片段和视频Z的第j个片段是否匹配。ci,j=cos(xi,zj)是片段xi和zj的余弦相似性。得到的结果值r = R(T, T)表示两个视频之间的最长公共子序列的soft长度。使用交叉熵损失作为约束。

  讨论:其实FSD和LCS都是对序列进行对比,都有计算相似性的过程,那么是否可以只用其中一个呢?论文中特意进行了说明和实验。(1)考虑到不同类型的序列,它们的目标是不同的。我们利用FSD学习强大的行动背景分离,同时采用不同的动作和背景建议。而LCS对比性是为了在两个未裁剪的视频中找到一致的动作实例,从而实现分类到定位的适应。(2)二者具有不同的对比水平。在FSD对比中,不同的动作/背景对之间的关系被考虑,而在LCS中,对比是在一对未经裁剪的视频中进行的,而且实验也证明单独使用一种方法的性能较差。

  FTCL架构和简单示例如下:

  首先对输入视频采用预先训练好的I3D模型,得到RGB和光流特征。然后利用嵌入模块在视频级监督下提取片段级特征。再经过两个左右两种方法进行优化。

搜索

复制

FTCL:Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization概述的更多相关文章

  1. [CVPR2017] Deep Self-Taught Learning for Weakly Supervised Object Localization 论文笔记

    http://openaccess.thecvf.com/content_cvpr_2017/papers/Jie_Deep_Self-Taught_Learning_CVPR_2017_paper. ...

  2. [paper reading] C-MIL: Continuation Multiple Instance Learning for Weakly Supervised Object Detection CVPR2019

    MIL陷入局部最优,检测到局部,无法完整的检测到物体.将instance划分为空间相关和类别相关的子集.在这些子集中定义一系列平滑的损失近似代替原损失函数,优化这些平滑损失. C-MIL learns ...

  3. Background Suppression Network for Weakly-supervised Temporal Action Localization [Paper Reading]

    研究内容:弱监督时域动作定位 结果:Thumos14 mAP0.5 = 27.0 ActivityNet1.3 mAP0.5 = 34.5 从结果可以看出弱监督这种瞎猜的方式可以PK掉早些时候的一些全 ...

  4. 【PPT】 Least squares temporal difference learning

    最小二次方时序差分学习 原文地址: https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd= ...

  5. PP: Multi-Horizon Time Series Forecasting with Temporal Attention Learning

    Problem: multi-horizon probabilistic forecasting tasks; Propose an end-to-end framework for multi-ho ...

  6. 论文解读(PCL)《Prototypical Contrastive Learning of Unsupervised Representations》

    论文标题:Prototypical Contrastive Learning of Unsupervised Representations 论文方向:图像领域,提出原型对比学习,效果远超MoCo和S ...

  7. 论文解读(SimCLR)《A Simple Framework for Contrastive Learning of Visual Representations》

    1 题目 <A Simple Framework for Contrastive Learning of Visual Representations> 作者: Ting Chen, Si ...

  8. Remote Sensing Images Semantic Segmentation with General Remote Sensing Vision Model via a Self-Supervised Contrastive Learning Method

    论文阅读: Remote Sensing Images Semantic Segmentation with General Remote Sensing Vision Model via a Sel ...

  9. Robust Pre-Training by Adversarial Contrastive Learning

    目录 概 主要内容 代码 Jiang Z., Chen T., Chen T. & Wang Z. Robust Pre-Training by Adversarial Contrastive ...

  10. Adversarial Self-Supervised Contrastive Learning

    目录 概 主要内容 Linear Part 代码 Kim M., Tack J. & Hwang S. Adversarial Self-Supervised Contrastive Lear ...

随机推荐

  1. BBS项目 未完待续

    项目开发基本流程 1.需求分析 2.架构设计 3.分组开发 4.提交测试 5.交付上线 创建项目配置 环境配置 TEMPLATES = [ { 'BACKEND': 'django.template. ...

  2. Redux与前端表格施展“组合拳”,实现大屏展示应用的交互增强

    Redux 是 JavaScript 状态容器,提供可预测化的状态管理.它可以用在 react.angular.vue 等项目中, 但与 react 配合使用更加方便一些. Redux 原理图如下,可 ...

  3. [剑指Offer]3.数组中重复的数字

    题目 找出数组中重复的数字. 在一个长度为n的数组中的所有数字都在0~n-1的范围内.数组中某些数字是重复的,但是不知道有几个数字重复了,也不知道每个数字重复了几次.请找出数组中任意一个重复的数组.例 ...

  4. 【力扣】剑指 Offer II 092. 翻转字符

    题目 解题思路 一个很暴力的想法,在满足单调递增的前提下,使每一位分别取 1 或 0,去看看哪个结果小. 递归函数定义int dp(StringBuilder sb, int ind, int pre ...

  5. 继承QAbstractTableModel QStyledItemDelegate实现自定义表格,添加进度条和选中框。

    由于项目要求,需要实现一个列表目录显示信息,并且需要实现每一项提供进度条和选项框功能,所以需要继承QAbstractTableModel和QStyledItemDelegate进行自定义. -自定义数 ...

  6. windows右键菜单扩展

    今天给大家分享一个我做的小工具,可以自定义扩展右键菜单的功能来提高工作效率,效果图如下: image 如上图,右键菜单多了几个我自定义的菜单 复制文件路径 复制文件夹路径 我的工具箱 <走配置文 ...

  7. Node.js学习笔记----day03

    认真学习,认真记录,每天都要有进步呀!!! 加油叭!!! 一.Node中的模块系统 使用Node编写应用程序主要就是在使用 EcmaScript 和浏览器不一样的是,在Node中没有BOM.DOM 核 ...

  8. SQL优化的七个方面

    SQL优化的七个方面 1. 创建索引 禁止给表中每一列都建立单独索引 每个Innodb表都必须有一个主键 要注意组合索引的字段顺序 优先考虑覆盖索引 避免使用外键约束 2. 避免索引失效 失效场景: ...

  9. 城市路(Dijkstra)

    这道题目需要用到 Dijkstra plus 版(堆优化) 模板还是一样就是有几个点值得注意 1.这里用的是优先队列,原版需要搜出最小,并且没用过的点,省时间就剩在这里用小根堆就可以完美解决这个问题. ...

  10. SpringBoot 学习 step.3数据库

    数据库 JPA默认用的是Hibernate. SpringBoot开发WEB应用时,目前菜用较多的是mybatis+mybatis-plus,还有是springboot-data-jpa,jpa默认使 ...