将视频插入视频:CVPR2019论文解析 Inserting Videos into Videos 论文链接: http://openaccess.thecvf.com/content_CVPR_2019/papers/Lee_Inserting_Videos_Into_Videos_CVPR_2019_paper.pdf 摘要 在本文中,本文引入了一个新的问题,即通过插入其他视频来操作给定的视频.本文的主要任务是,给定一个对象视频和一个场景视频,在场景视频中用户指定的位置插入对象视频,以使生成…
人体姿态和形状估计的视频推理:CVPR2020论文解析 VIBE: Video Inference for Human Body Pose and Shape Estimation 论文链接:https://arxiv.org/pdf/1912.05656.pdf Code and pretrained models are available at: https://github.com/mkocabas/VIBE 摘要 人体运动是理解行为的基础.尽管在单图像三维位姿和形状估计方面取得了进展,…
2.5D Visual Sound:CVPR2019论文解析 论文链接: http://openaccess.thecvf.com/content_CVPR_2019/papers/Gao_2.5D_Visual_Sound_CVPR_2019_paper.pdf Video results: http://vision.cs. utexas.edu/projects/2.5D_visual_sound/ 摘要 双耳音频为听者提供了3D的声音感受,使其对场景有丰富的感知体验.然而,双耳录音几乎不…
白*衡(Color Constancy,无监督AWB):CVPR2019论文解析 Quasi-Unsupervised Color Constancy 论文链接: http://openaccess.thecvf.com/content_CVPR_2019/papers/Bianco_Quasi-Unsupervised_Color_Constancy_CVPR_2019_paper.pdf 摘要 本文提出了一种计算颜色恒常性的方法,即训练一个深卷积神经网络来检测彩色图像中转换成灰度后的消色差像…
全景分割:CVPR2019论文解析 Panoptic Segmentation 论文链接: http://openaccess.thecvf.com/content_CVPR_2019/papers/Kirillov_Panoptic_Segmentation_CVPR_2019_paper.pdf For results: https://arxiv.org/abs/1801.00868. 摘要 本文提出并研究了一个称为全景分割(PS)的任务.全景分割是典型的语义分割(为每个像素指定一个类标签…
慢镜头变焦:视频超分辨率:CVPR2020论文解析 Zooming Slow-Mo:  Fast and Accurate One-Stage Space-Time Video Super-Resolution 论文链接:https://arxiv.org/pdf/2002.11616.pdf The source code is released in:https://github.com/Mukosame/ZoomingSlowMo-CVPR-2020 摘要 本文探讨了一种时空视频超分辨率解…
视频教学动作修饰语:CVPR2020论文解析 Action Modifiers: Learning from Adverbs in Instructional Videos 论文链接:https://arxiv.org/pdf/1912.06617.pdf 摘要 我们提出了一种从结构视频中学习副词表达的方法,该方法使用对伴随叙述的弱监督.我们的方法的关键是,副词的视觉表现高度依赖于它所适用的动作,尽管同一个副词会以类似的方式修改多个动作.例如,虽然"快速传播"和"快速混合&qu…
分层条件关系网络在视频问答VideoQA中的应用:CVPR2020论文解析 Hierarchical Conditional Relation Networks for Video Question Answering 论文链接:https://arxiv.org/pdf/2002.10698.pdf 摘要 视频问答(VideoQA)具有挑战性,因为它需要建模能力来提取动态视觉伪影和远距离关系,并将它们与语言概念相关联.本文介绍了一种通用的可重复使用的神经单元,称为条件关系网络(CRN),它作为…
CVPR2020论文解析:视频语义检索 Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning 论文链接:https://arxiv.org/pdf/2003.00392.pdf 摘要 随着视频在网络上的迅速出现,视频与文本的跨模式检索越来越受到人们的关注.目前解决这个问题的主要方法是学习一个联合嵌入空间来测量跨模态相似性.然而,简单的联合嵌入不足以表示复杂的视觉和文本细节,如场景.对象.动作及其构图.为了改进细粒度…
视频动作定位的分层自关注网络:ICCV2019论文解析 Hierarchical Self-Attention Network for Action Localization in Videos 论文链接: http://openaccess.thecvf.com/content_ICCV_2019/papers/Pramono_Hierarchical_Self-Attention_Network_for_Action_Localization_in_Videos_ICCV_2019_pape…