[CVPR2017] Visual Translation Embedding Network for Visual Relation Detection 论文笔记

http://www.ee.columbia.edu/ln/dvmm/publications/17/zhang2017visual.pdf

Visual Translation Embedding Network for Visual Relation Detection Hanwang Zhang† , Zawlin Kyaw‡ , Shih-Fu Chang† , Tat-Seng Chua‡ †Columbia University, ‡National University of Singapore

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 15.0px Arial; color: #323333 }
p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px Arial; color: #323333 }
p.p3 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px Arial; color: #323333; min-height: 15.0px }
li.li2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px Arial; color: #323333 }
span.s1 { }
ul.ul1 { list-style-type: disc }
ul.ul2 { list-style-type: circle }
ul.ul3 { list-style-type: square }

亮点

视觉关系预测问题的分析与化简：把一种视觉关系理解为在特征空间从主语到宾语的一种变换，很有效、很直白
实验设计的很棒，从多角度进行了分析对比：语言空间划分，多任务对物体检测的提升，零次学习等。

现有工作

Mature visual detection [16, 35]
Burgeoning visual captioning and question answering [2, 4]

directly bridge the visual model (e.g., CNN) and the language model (e.g., RNN), but fall short in modeling and understanding the relationships between objects.
poor generalization ability

Visual Relation Detection: a visual relation as a subject-predicate-object triplet

joint models, a relation triplet is considered as a unique class [3, 9, 33, 37].

the long-tailed distribution is an inherent defect for scalability.

separate model

modeling the large visual variance of predicates is challenging.

language priors to boost relation detection

主要思想

Translation Embedding 视觉关系预测的难点主要是：对于N个物体和R种谓语，有N^2R种关系，是一个组合爆炸问题。解决这个问题常用的办法是：

估计谓语，不估计关系，缺点：对于不同的主语、宾语，图像视觉差异巨大

受Translation Embedding (TransE) 启发，文章中将视觉关系看作在特征空间上从主语到宾语的一种映射，在低维空间上关系元组可看作向量变换，例如person+ride ≈ bike.

Knowledge Transfer in Relation 物体的识别和谓语的识别是互惠的。通过使用类别名、位置、视觉特征三种特征和端对端训练网络，使物体和谓语之前的隐含关系在网络中能够学习到。

算法

Visual Translation Embedding

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px Arial; color: #323333 }
span.s1 { }

Loss function

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px Arial; color: #323333 }
p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px Arial; color: #323333; min-height: 16.0px }
span.s1 { }

Feature Extraction Layer

classname + location + visual feature 不同的特征对不同的谓语（动词、介词、空间位置、对比）都有不一样的作用

Bilinear Interpolation

In order to achieve object-relation knowledge transfer, the relation error should be back-propagated to the object detection network and thus refines the objects. We replace the RoI pooling layer with bilinear interpolation [18]. It is a smooth function of two inputs:

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 16.0px Arial; color: #323333 }
p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px Arial; color: #323333 }
li.li2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px Arial; color: #323333 }
span.s1 { }
ul.ul1 { list-style-type: disc }

结果

Translation embeding: ＋18%

object detection ＋0.6% ～ 0.3%

State-of-art:

Phrase Det. +3% ~ 6%
Relation Det. +1%
Retrieval -1% ~ 2%
Zero-shot phrase detection

Phrase Det. －0.7% (without language prior)
Relation Det. －1.4%
Retrieval ＋0.2％

问题

两个物体之间可能有多种关系，比如person ride elephant，同时也存在person short elephant但是文章中的方法无法表示多样化的关系
没有使用语言先验知识，使用多模态信息可能会有所提升

[CVPR2017] Visual Translation Embedding Network for Visual Relation Detection 论文笔记的更多相关文章

[CVPR2017] Deep Self-Taught Learning for Weakly Supervised Object Localization 论文笔记
http://openaccess.thecvf.com/content_cvpr_2017/papers/Jie_Deep_Self-Taught_Learning_CVPR_2017_paper. ...
论文笔记系列-Neural Network Search ：A Survey
论文笔记系列-Neural Network Search :A Survey 论文笔记 NAS automl survey review reinforcement learning Bayesia ...
谣言检测（）《Data Fusion Oriented Graph Convolution Network Model for Rumor Detection》
论文信息论文标题:Data Fusion Oriented Graph Convolution Network Model for Rumor Detection论文作者:Erxue Min, Yu ...
论文笔记： Dual Deep Network for Visual Tracking
论文笔记: Dual Deep Network for Visual Tracking 2017-10-17 21:57:08 先来看文章的流程吧 ... 可以看到,作者所总结的三个点在于: 1. ...
论文笔记：Visual Semantic Navigation Using Scene Priors
Visual Semantic Navigation Using Scene Priors 2018-10-21 19:39:26 Paper: https://arxiv.org/pdf/1810 ...
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪 ...
论文笔记之：Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
论文速读（Jiaming Liu——【2019】Detecting Text in the Wild with Deep Character Embedding Network ）
Jiaming Liu--[2019]Detecting Text in the Wild with Deep Character Embedding Network 论文 Jiaming Liu-- ...
论文笔记之：Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...

随机推荐

【一天一道LeetCode】#55. Jump Game
一天一道LeetCode系列 (一)题目 Given an array of non-negative integers, you are initially positioned at the fi ...
016-类与对象-OC笔记
学习目标 1.[理解]对象在内存中的存储 2.[理解]nil和NULL 3.[了解]#pragma mark分组导航标记 4.[理解]方法与函数 5.[掌握]多文件开发 6.[掌握]对象和方法 7.[ ...
关于Android自定义view 你所需要知道的基本函数
开始时之前想吐槽一句..iphone的闹钟,12小时制.我成功的把闹钟订到了下午5:00 导致错过一班飞机.心疼改签费. 候机ing,没有事做,来写一下学习自定义view必须掌握的基本函数.这里只挑一 ...
【一天一道LeetCode】#10. Regular Expression Matching
一天一道LeetCode系列 (一)题目 Implement regular expression matching with support for '.' and '*'. '.' Matches ...
集团公司（嵌入ETL工具）财务报表系统解决方案
集团公司(嵌入ETL工具)财务报表系统解决方案一.项目背景: 某集团公司是一家拥有100多家子公司的大型集团公司,旗下子公司涉及各行各业,包括:金矿.铜矿.房产.化纤等.由于子公司在业务上的差异,子 ...
用javah 导出类的头文件，常见的错误及正确的使用方法
******************************************************************************** 用javah 导出类的头文件, 常见的 ...
STL - miltimap（可重映射）
#include <iostream> #include <map> #include <string> using namespace std; //Multim ...
《java入门第一季》之二维数组
/* 格式2: 数据类型[][] 数组名 = new 数据类型[m][]; m:表示这个二维数组有多少个一维数组. 列数没有给出,可以动态的给.这一次是一个变化的列数. */ class Array2 ...
开源框架VTMagic的使用介绍
VTMagic 有很多开发者曾尝试模仿写出类似网易.腾讯等应用的菜单分页组件,但遍观其设计,大多都比较粗糙,不利于后续维护和扩展.琢磨良久,最终决定开源这个耗时近两年打磨而成的框架,以便大家可以快速实 ...
Mybatis的resultType
使用mybatis去查询数据时,没有指定resultType,mybatis无法返回正常结果,当然在web中并没有出现报错,所以有点坑自己了,所以需要使用如下配置: <select id=&qu ...

[CVPR2017] Visual Translation Embedding Network for Visual Relation Detection 论文笔记

[CVPR2017] Visual Translation Embedding Network for Visual Relation Detection 论文笔记的更多相关文章

随机推荐

热门专题