Multi-Fiber Networks for Video Recognition (MFNet)
Motivation:减少时空网络的计算量,保持视频分类精度的基础上,使速度尽可能接近对应网络的2D版本。
为此提出 Multi-Fiber 网络,将复杂网络拆分成轻量网络的集成,利用 fibers 间的信息流引入多路器模块。
Result:比I3D和R(2+1)D分别少9倍,13倍的计算量,但精度更高,UCF-101, HMDB-51 and Kinetics 上的 state of the art。
2D网络需要10s GFLOP来处理单帧,3D网络需要100s GFLOP处理一个clip,作者认为3D网络有能力进一步提高因为融入了时空信息。
3D卷积开销很大,与Du tran和Xie Saining提出的R(2+1)D和S3D用1x3x3, 3x1x1时空分解卷积替代3x3x3这种做法不同,因为相对其2D版本仍有数量级的复杂度,以上两种方法很难在实际应用,受low-power MobileNet-v2网络的启发以及通过分组卷积稀疏化做法的启发,作者提出稀疏连接结构,并在2D CNN图片分类上实验确认结构的有效性,后扩展为时空CNN。
(a) resnet block (b) resNeXt block (c) fibers(author) (d) 加入multiplexer 传递不同fiber间信息 (e) 两个线性层降维和升维
resNeXt的中间模块对通道分组后分别用3x3卷积,bottleneck结构+分组卷积会很大程度降低计算量。d中可以看出去除了对整个通道的1x1卷积(全连接),引入了multiplexer层弥补信息损失,将主干feature的channel全部分组后,平行的残差计算,其中每一个分支称为(fiber)
resnet两个conv的简化连接数计算,其中Min表示输入channel,Mmid,Mout等同:
如果这个运算单元channel的维数增加k倍,那么运算量将增加K的平方倍。反之,减小也是2次的减小。
对channel切分为N个并行且独立的模块后,总的简化连接的数量,可见是直接resnet模块的1/N倍,实验中N=16。
Multi-Fiber Networks
2D图片域的验证:
1. 基于ResNet-18和MobileNet-v2的baseline,将其中的模块替换为多纤维模块
2. 重新设计了一个2D MF-Net
可以看出,Multi-Fiber结构在ResNet-18和MobileNet-v2上可以在少量降低计算量和参数量的情况下,精度上有一定提高,表明模块的有效性。而MF-Net也在参数和计算量较低的情况下达到了不错的效果。最后一栏实验则表明了Multiplexer模块大概会占据30%的计算量,但对效果的提升也是比较明显的。
3D版本
为了降低计算量,两层卷积只有一层进行了时序上的卷积
UCF101和HMDB51上的结果
Kinetics分类结果分析
在400类中有190类准确率超过80%,349类超过50%。只有17类低于30%效果糟糕。
特别的是那些准确率高的类,其特点:
1. 相对别的类有特殊的物体/背景
2. 跨越较长时间所发生的特殊动作
识别不好的类,其特点:
通常没有可区分的物体或在长视频中目标动作持续很短
部分参考自:
知乎林天威
Multi-Fiber Networks for Video Recognition (MFNet)的更多相关文章
- 【ML】Two-Stream Convolutional Networks for Action Recognition in Videos
Two-Stream Convolutional Networks for Action Recognition in Videos & Towards Good Practices for ...
- Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Kaiming He, Xiangyu Zh ...
- 目标检测--Spatial pyramid pooling in deep convolutional networks for visual recognition(PAMI, 2015)
Spatial pyramid pooling in deep convolutional networks for visual recognition 作者: Kaiming He, Xiangy ...
- PredNet --- Deep Predictive coding networks for video prediction and unsupervised learning --- 论文笔记
PredNet --- Deep Predictive coding networks for video prediction and unsupervised learning ICLR 20 ...
- SPPNet论文翻译-空间金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
http://www.dengfanxin.cn/?p=403 原文地址 我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加 ...
- Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition
Multi-Agent Reinforcement Learning Based Frame Sampling for Effective Untrimmed Video Recognition IC ...
- 深度学习论文翻译解析(九):Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
论文标题:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 标题翻译:用于视觉识别的深度卷积神 ...
- Local Relation Networks for Image Recognition
目录 概 主要内容 Hu H., Zhang Z., Xie Z., Lin S. Local relation networks for image recognition. In Internat ...
- 论文阅读笔记二十五:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition(SPPNet CVPR2014)
论文源址:https://arxiv.org/abs/1406.4729 tensorflow相关代码:https://github.com/peace195/sppnet 摘要 深度卷积网络需要输入 ...
随机推荐
- shell 在手分析服务器日志【转】
自己的小网站跑在阿里云的 ECS 上面, 偶尔也去分析分析自己网站服务器日志,看看网站的访问量.看看有没有黑阔搞破坏!于是收集,整理一些服务器日志分析命令,大家可以试试! awk '{print $1 ...
- 通过python操作smtplib模块发送邮件
# gconf.py SMTP_SERVER_HOST='smtp.exmail.qq.com' SMTP_SERVER_PORT=25 SMTP_USER='jack@qq.com' # 邮箱客户端 ...
- centos6.5中部署Zeppelin并配置账号密码验证
centos6.5中部署Zeppelin并配置账号密码验证1.安装JavaZeppelin支持的操作系统如下图所示.在安装Zeppelin之前,你需要在部署的服务器上安装Oracle JDK 1.7或 ...
- 【原创】大数据基础之Flume(2)应用之kafka-kudu
应用一:kafka数据同步到kudu 1 准备kafka topic # bin/kafka-topics.sh --zookeeper $zk:2181/kafka -create --topic ...
- Spring动态数据源实现读写分离
一.创建基于ThreadLocal的动态数据源容器,保证数据源的线程安全性 package com.bounter.mybatis.extension; /** * 基于ThreadLocal实现的动 ...
- 执行原生SQL语句的方式
原生sql语句 cursor方法:from api.models import *from django.db import connection,connectionscursor=connecti ...
- python-函数入门(一)
1.什么是函数: 可重复使用的,用来实现单一,或相关联功能的代码段. 函数分为内置函数和自定义函数,这里先讲自定义函数 2.如何定义函数: #语法 def 函数名(参数1,参数2,参数3,...): ...
- 洛谷P4606 [SDOI2018]战略游戏 [广义圆方树]
传送门 思路 先考虑两点如何使他们不连通. 显然路径上所有的割点都满足条件. 多个点呢?也是这样的. 于是可以想到圆方树.一个点集的答案就是它的虚树里圆点个数减去点集大小. 可以把点按dfs序排序,然 ...
- Confluence 6 内存使用和需求和一些问题
系统备份和恢复 Confluence 的备份和恢复是与数据库中数据量的大小有关.这个操作可能会对 Confluence 的性能产生很多关键性的影响并且大量消耗内存.如果你在 Confluence 的 ...
- Confluence 6 创建-使用-删除快捷链接
创建快捷链接 如何创建一个快捷键链接: 在屏幕的右上角单击 控制台按钮 ,然后选择 General Configuration 链接. 在左侧面板中选择 快捷链接(Shortcut Links). 为 ...