互补时域动作提名生成 这里的互补是指actionness score grouping 和 sliding window ranking这两种方法提proposal的结合,这两种方法各有利弊,形成互补. 滑窗均匀覆盖所有的视频片段,但时域边界不准确,聚合方法可能更准确但当actionness score比较低的时候,也会漏掉一些proposal. 整体思路: 用actionness score proposal训好PATE网络作用在滑窗proposal上,以此来收集被actionness sco…
主要观点:基于sliding window(SW)类的方法,如TURN,可以达到很高的AR,但定位不准:基于Group的方法,如TAG,AR有明显的上界,但定位准.所以结合两者的特长,加入Complementary Filtering(互补滤波)模块,实际上就是加一个网络预测TAG能不能搞,不能搞就用SW. 第一阶段:视频被划分为等长的单元,使用两层时序卷积生成unit-level的actionness score,基于这一分数序列,分别使用TAG和滑动窗口生成两组proposals,其中TAG…
SST: Single-Stream Temporal Action Proposals 2017-06-11 14:28:00 本文提出一种 时间维度上的 proposal 方法,进行行为的识别.本文方法具有如下的几个特点: 1. 可以处理 long video sequence,只需要一次前向传播就可以处理完毕整个video:可以处理任意长度的 video,而不需要处理重叠的时间窗口: 2. 在 proposal generation task 上取得了顶尖的效果: 3. SST propo…
SST:Single-Stream Temporal Action Proposals 这是本仙女认认真真读完且把算法全部读懂(其实也不是非常懂)的第一篇论文 CVPR2017 一作 论文写作的动机motivation 这篇文章介绍了一个时间维度上的proposal方法,用来进行动作识别 Introduction 视频中记录了大量关于人类行为动作的信息,要想处理这些数据,计算机视觉算法需要能够进行人类动作识别和检测的能力 以往所用的动作识别的方法: 一开始动作识别被简单的看作是视频分割,也就是把…
Action Recognition: 行为识别,视频分类,数据集为剪辑过的动作视频 Temporal Action Detection: 从未剪辑的视频,定位动作发生的区间,起始帧和终止帧并预测类别 难点 1: 边界不明确(助跑跳远,上篮,高尔夫挥杆) 2: 如何利用时序信息 3: 时序跨度大(Activitynet:1s — 200s) 上图为模型框架,用temporal actionness grouping算法提取proposal后进行上下文信息的金字塔池化,后接两个级联分类器分别是完整…
Motivation 实现快速和准确地抽取出视频中的语义片段 Proposed Method -提出了TURN模型预测proposal并用temporal coordinate regression来校正proposal的边界 -通过复用unit feature来实现快速计算 主要步骤如下: Video Unit Processing: 将输入的视频平均分为多个video units,每一个unit包含16帧,源码给的feature是30fps的帧率.将每一个unit送入visual encod…
研究内容:弱监督时域动作定位 结果:Thumos14 mAP0.5 = 27.0 ActivityNet1.3 mAP0.5 = 34.5 从结果可以看出弱监督这种瞎猜的方式可以PK掉早些时候的一些全监督方法 Code: GitHub P.S.我在机器上复现始终差一点点 Motivation: 发现之前的工作没有考虑到背景类别,会将背景帧误分为动作类别,造成大量FP.本文提出了背景抑制网络BaSNet,引入了额外的背景类,两支镜像网络(一支为base网络,一支为用attention抑制背景的su…
Zhuoyao Zhong--[aixiv2016]DeepText A Unified Framework for Text Proposal Generation and Text Detection in Natural Images 目录 作者和相关链接 方法概括 创新点和贡献 方法细节 实验结果 问题讨论 总结与收获点 参考文献 作者和相关链接 作者 Zhuoyao Zhong, z.zhuoyao@mail.scut.sdu.cnLianwen Jin, lianwen.jin@gm…
Motivation: 阈值分割的阈值并没有通过模型训练学出来,而是凭借主观经验设置,本文通过与背景得分比较提取对应的proposal,不用阈值的另一篇文章是Shou Zheng的AutoLoc,通过伪标签训练回归网络 阈值分割缺点:低阈值会把多个动作实例ground-truth合并成一个动作实例,高阈值会将一个动作实例ground-truth分割成多个动作实例 忽略背景建模: 过去的方法没有对视频的背景建模无法利用动作和背景之间的先验知识 Feature Transformation Modu…
虽然ICCV2019已经公布了接收ID名单,但是具体的论文都还没放出来,为了让大家更快得看论文,我们汇总了目前已经公布的大部分ICCV2019 论文,并组织了ICCV2019论文汇总开源项目(https://github.com/extreme-assistant/iccv2019),目前已经收集到70篇论文,其中10篇Oral,13篇开源,见下方list.建议Oral的文章一定要去读一读. 本文中所有论文PDF已经打包上传到百度云,可以直接在GitHub项目上看到或者直接微信后台回复"ICCV…
6 月 19-25 日,备受全球瞩目的国际顶级视觉会议 CVPR2021(Computer Vision and Pattern Recognition,即国际机器视觉与模式识别)在线上举行,但依然人气爆棚,参会者的激情正如夏日般火热. 今年阿里云多媒体 AI 团队(由阿里云视频云和达摩院视觉团队组成,以下简称 MMAI)参加了大规模人体行为理解公开挑战赛 ActivityNet.当前最大时空动作定位挑战赛 AVA-Kinetics.超大规模时序行为检测挑战赛 HACS 和第一视角人体行为理解挑…
IEEE International Conference on Computer Vision, ICCV 2017, Venice, Italy, October 22-29, 2017. IEEE Computer Society 2017, ISBN 978-1-5386-1032-9 Oral Session 1 Globally-Optimal Inlier Set Maximisation for Simultaneous Camera Pose and Feature Corre…
http://www.cv-foundation.org/openaccess/CVPR2016.py ORAL SESSION Image Captioning and Question Answering Monday, June 27th, 9:00AM - 10:05AM. These papers will also be presented at the following poster session 1   Deep Compositional Captioning: Descr…
CVPR2016 Paper list ORAL SESSIONImage Captioning and Question Answering Monday, June 27th, 9:00AM - 10:05AM. These papers will also be presented at the following poster session 1 Deep Compositional Captioning: Describing Novel Object Categories Witho…
@http://www-cs-faculty.stanford.edu/people/karpathy/cvpr2015papers/ CVPR 2015 papers (in nicer format than this) maintained by @karpathy NEW: This year I also embedded the (1,2-gram) tfidf vectors of all papers with t-sne and placed them in an interf…
Large Scale Visual Recognition Challenge 2015 (ILSVRC2015) Legend: Yellow background = winner in this task according to this metric; authors are willing to reveal the method White background = authors are willing to reveal the method Grey background…
CVPR2017 paper list Machine Learning 1 Spotlight 1-1A Exclusivity-Consistency Regularized Multi-View Subspace Clustering Xiaojie Guo, Xiaobo Wang, Zhen Lei, Changqing Zhang, Stan Z. Li Borrowing Treasures From the Wealthy: Deep Transfer Learning Thro…
(摘自王逍同学的论文arxiv-2019+Pedestrian Attribute Recognition A Survey) 1. 数据集 Dataset Pedestrians Attribute Source PETA Dataset 19000 61 binary and 4 multi-class attributes outdoor & indoor RAP Dataset 41585 69 binary and 3 multi-class attributes indoor RAP…
  awesome-object-proposals  A curated list of object proposals resources for object detection. This Blog From this link: https://github.com/caocuong0306/awesome-object-proposals Table of Contents Introduction Tutorials Papers Objectness Scoring Simil…
1 介绍(INTRODUCTION) 本文主要对最近的 proposal 检测方法做一个总结和评价.主要是下面这些方法.  2 Detection Proposal 方法(DETECTION PROPOSAL METHODS) 作者将 Detection Proposal 分为两类,grouping method (将图片分为碎片,最后聚合)和 window scoring method (对分成的大量窗口打分). 2.1 分组 proposal 方法(Grouping proposal met…
AI(人工智能)技术已经广泛应用于美团的众多业务,从美团App到大众点评App,从外卖到打车出行,从旅游到婚庆亲子,美团数百名最优秀的算法工程师正致力于将AI技术应用于搜索.推荐.广告.风控.智能调度.语音识别.机器人.无人配送等多个领域,帮助美团3.2亿消费者和400多万商户改善服务和体验,帮大家吃得更好,生活更好. 基于AI技术,美团搭建了世界上规模最大,复杂度最高的多人.多点实时智能配送调度系统:基于AI技术,美团推出了业内第一款大规模落地的企业应用级语音交互产品,为50万骑手配备了智能语…
视频描述 顾名思义视频描述是计算机对视频生成一段描述,如图所示,这张图片选取了一段视频的两帧,针对它的描述是"A man is doing stunts on his bike",这对在线的视频的检索等有很大帮助.近几年图像描述的发展也让人们思考对视频生成描述,但不同于图像这种静态的空间信息,视频除了空间信息还包括时序信息,同时还有声音信息,这就表示一段视频比图像包含的信息更多,同时要求提取的特征也就更多,这对生成一段准确的描述是重大的挑战. 一.long-term Recurrent…
Xiang Bai--[CVPR2015]Symmetry-Based Text Line Detection in Natural Scenes 目录 作者和相关链接 方法概括 创新点和贡献 方法细节 实验结果 问题讨论 总结与收获点 参考文献 作者和相关链接 作者 白翔个人主页 论文下载 代码下载 方法概括 Step 1: 采用多尺度滑窗检测文本线的中心像素点,用对称特征和表观特征训练的随机森林得到候选的字符像素区域(两种特征是作者自己提的,文章亮点所在): Step 2: 利用字符像素的角…
faster r-cnn 1.问题 在fast r-cnn中,proposals已经成为速度提高的瓶颈.在本文中,使用深度网络来计算proposals, 使得与检测网络的计算量相比,proposals的计算量可忽略不计.为此,本文提出了RPN网络(Region Proposal Network), 与目标检测网络共享卷积层,大大减少了计算proposals的时间. 2.方案 在fast r-cnn中,region-based detectors可以使用卷积特征图,那么这些特征图也可以用来生成re…
2015年2月10日-3月20日,开源社 成员 微软开放技术,GitCafe,极客学院联合举办" Open XML SDK 在线编程黑客松 ",为专注于开发提高生产力的应用及服务的程序猿们提供一个在线动手开发,学习交流,技术分享,发挥创意与竞技的盛宴. 我们为参赛队伍准备了丰富的技术干货,国内外高手无私分享以及技术支持,逐步引导的在线学习视频教程与技术文档,场景范例,在线编程及演示环境,社区互动,丰富礼品(如极客学院特别为每位参赛人员提供月VIP码,用户可以免费学习极客学院全网课程)及…
http://openaccess.thecvf.com/content_cvpr_2017/papers/Jie_Deep_Self-Taught_Learning_CVPR_2017_paper.pdf Deep Self-Taught Learning for Weakly Supervised Object Localization. Zequn Jie, Yunchao Wei, Xiaojie Jin, Jiashi Feng, Wei Liu 亮点 监督学习中用难例挖掘,弱监督中靠…
目录 写在前面 目标检测任务与挑战 目标检测方法汇总 基础子问题 基于DCNN的特征表示 主干网络(network backbone) Methods For Improving Object Representation Context Modeling Detection Proposal Methods Other Special Issues Datasets and Performance Evaluation 博客:blog.shinelee.me | 博客园 | CSDN 写在前面…
title: PaperNotes Instance-Level Salient Object Segmentation comments: true date: 2017-12-20 13:53:11 description: updated: categories: tags: --- https://arxiv.org/pdf/1704.03604.pdf 摘要 现有的显著性检测算法被DL带了一波节奏,但是好像还没有说哪个方法能在显著性区域中找出object instance.本文就是做这…
Prerequisite: VGG Ref: [Object Tracking] Localization and Detection SSD Paper: http://lib.csdn.net/article/deeplearning/53059 SSD Paper: https://arxiv.org/abs/1512.02325 [Origin, Liu et al., 2015] 17 pages. 摘要: 我们提出了一种使用单个深层神经网络检测图像中对象的方法. 我们的方法,名为SS…
Video Analysis 相关领域介绍之Video Captioning(视频to文字描述)http://blog.csdn.net/wzmsltw/article/details/71192385 基于视频图像的信息:包括简单的用CNN(VGGNet, ResNet等)提取图像(spatial)特征,用action recognition的模型(如C3D)提取视频动态(spatial+temporal)特征 先验特征:比如视频的类别,这种特征能提供很强的先验信息 基于文本的特征:此处基于文…