ARTnet: caffe实现:代码 1 Motivation:How to model appearance and relation (motion) 主要工作是在3D卷积的基础上,提升了action recognition的准确率,没有使用光流信息,因为光流的提取速度特别慢,这可能是未来的研究趋势,该方法更不会像IDT那套方法一样计算复杂. 实验以C3D-ResNet18实现的,只以rgb为输入,训练的时候采用了TSN的稀疏采样策略.appearance分支对每帧图片提取特征(可以看作tw…
主要原理: 和Siamese Neural Networks一样,将分类问题转换成两个输入的相似性问题. 和Siamese Neural Networks不同的是: Relation Network中branch的输出和relation classifier的输入是feature map 而Siamese中branch的输出和classifier的输入是feature vector 其中: g-表示关系深度网络 C-表示concatenate f-表示特征提取网络(branch) xi,xj-…
读了一篇文章,用到卷积神经网络的方法来进行文本分类,故写下一点自己的学习笔记: 本文在事先进行单词向量的学习的基础上,利用卷积神经网络(CNN)进行句子分类,然后通过微调学习任务特定的向量,提高性能. 在从无监督神经语言模型中获得单词向量(Tomas Mikolov等人做过相关工作,即谷歌的word2vector完成,将原始的1/V模型变化为分布式低维表示)后利用一层卷积层的CNN进行学习. 模型结构: 首先输入具有两个通道,分别对应static和non-static的方式,其中static方式…
论文信息 论文标题:DropEdge: Towards Deep Graph Convolutional Networks on Node Classification论文作者:Yu Rong, Wenbing Huang, Tingyang Xu, Junzhou Huang论文来源:2020, ICLR论文地址:download 论文代码:download 1 Introduction 由于 2022 年的论文看不懂,找了一篇 2020 的论文缓解一下心情,我太难了. 提出一种可以缓解过拟合…
论文地址 Abstract Open-text semantic parsers are designed to interpret any statement in natural language by inferring a corresponding meaning representation (MR – a formal representation of its sense). 开放文本语义分析器被设计为通过推断相应的意义表示(MR -其意义的正式表示)来解释自然语言中的任何语句.…
CVPR2020论文解析:视频分类Video Classification Rethinking Zero-shot Video Classification: End-to-end Training for Realistic Applications 论文链接:https://arxiv.org/pdf/2003.01455.pdf 摘要 深度学习(deep learning,DL)是在大型数据集上进行训练的,它可以将视频准确地分为数百个不同的类.然而,视频数据的注释是昂贵的.Zero-sh…
PredNet --- Deep Predictive coding networks for video prediction and unsupervised learning   ICLR 2017  2017.03.12  Code and video examples can be found at: https://coxlab.github.io/prednet/ 摘要:基于监督训练的深度学习技术取得了非常大的成功,但是无监督问题仍然是一个未能解决的一大难题(从未标注的数据中学习到…
Use bigger datasets for CNN in hope of better performance. A new data set for sports video classification: sports-1M. CNN in one frame is about the same as many frames. CNN is good at image but not modeling temporal sequences. The result is not good.…
Relation Networks for Object Detection笔记  写在前面:关于这篇论文的背景知识,请参考我前面的两篇随笔(<关于目标检测>和<关于注意力机制>) 摘要: 所有最先进的物体检测系统仍然依赖于单独识别物体实例, 在学习过程中并没有利用它们的关系.(背景) 这个工作提出了一个目标关系模块.它通过它们的外观特征和几何图形之间的交互来同时处理一组物体,从而对它们之间的关系进行建模.它是轻量级的和就地(in-place)这里的relation module是…
Spatial-Temporal Relation Networks for Multi-Object Tracking 2019-05-21 11:07:49 Paper: https://arxiv.org/pdf/1904.11489.pdf 1. Background and Motivation: 多目标跟踪的目标是:定位物体并且在视频中仍然可以保持他们的身份.该任务已经应用于多种场景,如视频监控,体育游戏分析,自动驾驶等等.大部分的方法都依赖于 “tracking-by-detect…