这是期刊论文的版本,不是会议论文的版本.看了论文之后,只能说,太TM聪明了.膜拜~~ 视频的表示方法有很多,一般是把它看作帧的序列.论文提出一种新的方法去表示视频,用ranking function的参数编码视频的帧序列.它使用一个排序函数(ranking function)主要基于这样的假设:帧的appearance的变化与时间相关,如果帧vt+1在vt后面,则定义:此外,假设同一动作的视频帧序列,学习到的排序函数的参数,应该的大致一致的.但实际上,后面的假设并没有给出严格的证明,只能说实验的…
论文的重点在于后面approximation部分. 在<Rank Pooling>的论文中提到,可以通过训练RankSVM获得参数向量d,来作为视频帧序列的representation.而在dynamic论文中发现,这样的参数向量d,事实上与image是同等大小的,也就是说,它本身是一张图片(假如map与image同大小而不是提取的特征向量),那么就可以把图片输入到CNN中进行计算了.如下图可以看到一些参数向量d pooling的样例 参数向量d的快速计算 把计算d的过程定义一个函数.一个近似…
Two-Stream Convolutional Networks for Action Recognition in Videos & Towards Good Practices for Very Deep Two-Stream ConvNets Note here: it's a learning note on the topic of video representations. This note incorporates two papers about popular two-s…
论文阅读:Prominent Object Detection and Recognition: A Saliency-based Pipeline  如上图所示,本文旨在解决一个问题:给定一张图像,我们最应该关注哪些区域?怎么将其分割出来?这是一个什么东东?这三个子问题为一体. Problem formulation: Given an image, determine the most influential item in the scene in terms of region of i…
论文的三个贡献 (1)提出了two-stream结构的CNN,由空间和时间两个维度的网络组成. (2)使用多帧的密集光流场作为训练输入,可以提取动作的信息. (3)利用了多任务训练的方法把两个数据集联合起来. Two stream结构 视屏可以分成空间与时间两个部分,空间部分指独立帧的表面信息,关于物体.场景等:而时间部分信息指帧间的光流,携带着帧之间的运动信息.相应的,所提出的网络结构由两个深度网络组成,分别处理时间与空间的维度. 可以看到,每个深度网络都会输出一个softmax层,最后会通过…
4 Dynamic Graph Representation Learning Via Self-Attention Networks link:https://arxiv.org/abs/1812.09430 Abstract 提出了在动态图上使用自注意力 Conclusion 本文提出了使用自注意力的网络结构用于在动态图学习节点表示.具体地说,DySAT使用(1)结构邻居和(2)历史节点表示上的自我注意来计算动态节点表示,虽然实验是在没有节点特征的图上进行的,但DySAT可以很容易地推广到特…
14 TEMPORAL GRAPH NETWORKS FOR DEEP LEARNING ON DYNAMIC GRAPHS link:https://scholar.google.com.hk/scholar_url?url=https://arxiv.org/pdf/2006.10637.pdf%3Fref%3Dhttps://githubhelp.com&hl=zh-TW&sa=X&ei=oVakYtvtIo74yASQ1Jj4AQ&scisig=AAGBfm0bNv…
由RCNN到FAST RCNN一个很重要的进步是实现了多任务的训练,但是仍然使用Selective Search算法来获得ROI,而FASTER RCNN就是把获得ROI的步骤使用一个深度网络RPN来实现.一个FASTER RCNN可以看作是一个RPN + FAST RCNN的组合,两者通过共享CONV LAYERS组合在一起. RPN网络 一张图片先经过CONV LAYERS得到feature map,图片的大小是任意的.然后,使用一个小的滑动网络,它与feature map的一个n*n的小窗…
密集轨迹的方法是通过在视频帧上密集地采样像素点并且在追踪,从而构造视频的局部描述子,最后对视频进行分类的方法依然是传统的SVM等方法. 生成密集轨迹: (1)从8个不同的空间尺度中采样,它们的尺度差因子为,而采样的点只需要简单地每间隔W = 5个像素取一个点即可. (2)对于下一个点位置的估计,通过估计密集光流场获得,有以下计算公式: ,其中M是均值过滤器,就是计算的光流场,是Pt周围的点.这样可以对采样点逐帧追踪. (3)为了防止轨迹点的漂移,密集轨迹最多追踪L帧.当在一个W*W的邻域内没有发…
生成式对抗网络GAN 1.  基本GAN 在论文<Generative Adversarial Nets>提出的GAN是最原始的框架,可以看成极大极小博弈的过程,因此称为“对抗网络”.一般包含两个部分:生成器(Generator)和判别器(Discriminator).训练的过程是无监督学习. 先总结一下训练的过程.一般而言,输入是一个一维向量z,它从先验生成.假设现在Generator生成的是图像.我们知道,无监督学习目的是学习数据集中的特征(或者说分布),假设真实的分布为,而Generat…