论文名称:ScanRefer: 3D Object Localization in RGB-D Scans using Natural Language

这篇文章最主要的工作,我觉得是两个,第一,提出了一个问题;第二,比较简单地解决了这个问题。

Project page: https://daveredrum.github.io/ScanRefer/

3D Visual Grounding

提出这个问题,是这篇文章的核心,也因此,作者在Abstract上方首先插入了一张图:

他说,我们“introduce”一个task,我其实也是第一次读这类挖大坑的文章,很有意思,毕竟只有这种刚开始起步的方向,我才会专门去找一下开头读一读。开篇讲了3D Visual Grounding到底是在做什么,与2d有什么区别,很清晰。

然后他还说:

ScanReferDataSet

挖坑之作,提出问题,你要解决问题,当然需要与这个问题相关的数据集,那你挖的坑,当然你也要给出一个数据集。

这个领域的数据集重点就在于文本和场景的匹配了,而不是场景的采集,因此这个数据集是基于ScanNet数据集来做的(一个1613个RGBD室内场景的数据集)。有了场景,我们就要对场景中的object进行label了,因为是自然语言做label,所以这部分必然逃不过人工,做不到完全的自动化。作者团队做了一个网站,然后请了一批人(好像是大学生志愿者)来作标定,首先是做标注,就是给你一个场景,然后给你标出这个场景的某个物体,要求你用自然语言描述这个物体的位置(或者物体本身的特征),你的描述最终必须指向这个特定的物体。等这批人标记完成之后,再选另外一批人来验证这些标记,即看看他们的表述是否真的唯一地指向空间中的某个场景,同时要检查表述中是否有错误拼写啊,错误的语法啊之类的。

文章的补充材料里把他们的UI还做了个好多截图贴进来:

我也是第一次读这种做一个数据集的文章,讲道理,数据集构建占了相当大的篇幅,包括各种角度的数据分布,数据集采集过程,谁采集的,采集后验证过程修改了多少错误单词和错误表述等等,十分详细。

只不过这个数据集好像不如ReferIt3D数据集更被大家接受?还不知道为何,走走看。哦对咱也不知道为什么有了ScanRefer,ReferIt3D还要花心思再去构建一个新的数据集,偶不,两个。

Method

这个模型,怎么说呢,复杂也不是很复杂,但是作为一个双模态的任务肯定也简单不了,我们可以看一下。

文本编码器

首先,text先进入GloVe模型(应该是被预训练好的模型,和Word2Vec是同一类很火的专门做词向量的模型)得到这个表述的Embedding,然后送入GRU(一种类似LSTM但是比LSTM的性能好的网络)得到语言特征,后面加了一个文本分类器,其实就是对提取到的语言特征进行分类,看看能不能找到它指向的类别,这里做了一个Loss,算是对GRU的一个有监督的强化。(这个东西其实MVT也有,我还以为那是MVT作者干的,没想到这玩意在开山之作里面就已经出现了。。。)

点云编码器+目标检测器

没啥可说的,PointNet++提取点云特征,利用Voting Module来做目标检测?这个地方的子论文没读,做完目标检测,得到M个点云簇(原作者M设置的是256),然后再对256个box(或者叫proposal更合适)进行mask。

模态融合器

所谓的模态融合大家也看到了,就是简单粗暴的concat起来,很naive,但是确实也无所谓,这不是这篇工作的重点了已经。对concat之后的高维矩阵进行mask,直接把mask矩阵(向量)广播成融合后数据的形状,直接乘过来,0的地方就被mask掉了,方便,粗暴,就得到了融合后的features。

定位器

所谓的定位部分也非常简单,就是一点FC,然后过一个Softmax,把得分最高的proposal选出来,就算是完成了定位。

可以看到,整个模型是非常简单甚至有些naive的,发展空间很大。

实验部分

讲道理,他这个表格和表述我看的不是很懂,一方面是可能我第一次看这类文章很不适应,另一方面是这里面涉及到的工作我都不了解。

大概就是,每一组,上面是baseline,下面是他们的东西?不太理解,而且他们为什么要强调自己end to end?看得有点蒙。

而且用GT box我觉得属实是有点在玩的感觉了……我没找到这个比较的意义……

但是可能这也不是重点吧,重点可能是:

[3] ScanRefer论文精读 3DVisual Grounding开山之作的更多相关文章

  1. 【深度学习 论文篇 02-1 】YOLOv1论文精读

    原论文链接:https://gitee.com/shaoxuxu/DeepLearning_PaperNotes/blob/master/YOLOv1.pdf 笔记版论文链接:https://gite ...

  2. 这部分布式事务开山之作,凭啥第一天预售就拿下当当新书榜No.1?

    大家好,我是冰河~~ 今天,咱们就暂时不聊[精通高并发系列]了,今天插播一下分布式事务,为啥?因为冰河联合猫大人共同创作的分布式事务领域的开山之作--<深入理解分布式事务:原理与实战>一书 ...

  3. 用深度学习(DNN)构建推荐系统 - Deep Neural Networks for YouTube Recommendations论文精读

    虽然国内必须FQ才能登录YouTube,但想必大家都知道这个网站.基本上算是世界范围内视频领域的最大的网站了,坐拥10亿量级的用户,网站内的视频推荐自然是一个非常重要的功能.本文就focus在YouT ...

  4. 【DL论文精读笔记】Object Detection in 20 Y ears: A Survey目标检测综述

    目标检测20年综述(2019) 摘要 Abstract 该综述涵盖了400篇目标检测文章,时间跨度将近四分之一世纪.包括目标检测历史上的里程碑检测器.数据集.衡量指标.基本搭建模块.加速技术,最近的s ...

  5. AFM论文精读

    深度学习在推荐系统的应用(二)中AFM的简单回顾 AFM模型(Attentional Factorization Machine) 模型原始论文 Attentional Factorization M ...

  6. Faster-RCNN论文精读

    State-of-the-art object detection networks depend on region proposal algorithms to hypothesize objec ...

  7. 论文翻译——R-CNN(目标检测开山之作)

    R-CNN论文翻译 <Rich feature hierarchies for accurate object detection and semantic segmentation> 用 ...

  8. 【DL论文精读笔记】 深度压缩

    深度压缩 DEEP COMPRESSION: COMPRESSING DEEP NEURAL NETWORKS WITH PRUNING, TRAINED QUANTIZATION AND HUFFM ...

  9. 【DL论文精读笔记】Image Segmentation Using Deep Learning: A Survey 图像分割综述

    深度学习图像分割综述 Image Segmentation Using Deep Learning: A Survey 原文连接:https://arxiv.org/pdf/2001.05566.pd ...

  10. DeepWalk论文精读:(3)实验

    模块三 1 实验设计 1.1 数据集 BLOGCATALOG[39]:博客作者网络.标签为作者感兴趣的主题. FLICKR[39]:照片分享网站的用户网络.标签为用户的兴趣群组,如"黑白照片 ...

随机推荐

  1. 在Mariadb中创建数据库-九五小庞

    MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,采用GPL授权许可 MariaDB的目的是完全兼容MySQL,包括API和命令行,使之能轻松成为MySQL的代替品.在存储引擎 ...

  2. 非线性优化-NLopt

    通过 对 一个 数学 模型 的求解 来介绍 NLopt的使用方法 数学模型: 这个是目标函数 求满足 条件的情况下 x2的开平方最小 边界约束 非线性不等式约束如下 有两个参数 x1 和 x2 ,其中 ...

  3. Dapr Workflow构建块的.NET Demo

    Dapr 1.10版本中带来了最有亮点的特性就是工作流构建块的的发布,虽然是Alpha 阶段,可以让我们尽早在应用系统中规划工作流, 在使用Dapr的系统中更好的编写负责的分布式应用系统.Dapr 工 ...

  4. jsp传入servlet数据

    面对老师的19级期末,要用到jsp传入servlet的数据传输,借鉴了其他人的代码,以下是我的程序 jsp界面: <%request.getSession().setAttribute(&quo ...

  5. UI自动化中上传与唤醒弹窗

    本篇想谈的是在ui自动化中对上传的一些理解,干货满满. 一.是否有必要唤醒弹窗 以selenium为代表的库在进行文件上传时,是可以直接对输入框 "发送" 文件的,其send_ke ...

  6. 基于C++的OpenGL 10 之光照贴图

    1. 引言 本文基于C++语言,描述OpenGL的光照贴图 前置知识可参考: 基于C++的OpenGL 09 之材质 - 当时明月在曾照彩云归 - 博客园 (cnblogs.com) 笔者这里不过多描 ...

  7. GeoServer发布Oracle空间数据

    1. 概述 Oracle是常用的数据库,Oracle数据库包含空间数据库,可以在Oracle中进行空间数据的存储,更详细的信息可参考: 空间数据库 | Oracle 中国 GeoServer是常用的开 ...

  8. LeetCode-432 全O(1)的数据结构

    来源:力扣(LeetCode)链接:https://leetcode-cn.com/problems/all-oone-data-structure 题目描述 请你设计一个用于存储字符串计数的数据结构 ...

  9. 完全机器模拟浏览器操作自动刷网课!不怕被封!!-----python基于selenium实现超星学习通刷视频网课

    (使用过程中有小伙伴反映如果课程的第一章是空白的页面会报错,我当时做的时候是根据我自己的课程,没有第一节是空页面的现象,这个以后有时间我再改一下吧,或者小伙伴自己修改一下也可) 原谅我这个标题党,对叭 ...

  10. 04-python垃圾回收机制

    python垃圾回收机制 一.引入 解释器在执行定义变量的语法时,会申请内存空间来存放变量值,每一块内存空间都有其唯一的内存地址,我们在前面说过,变量名并不是存放的变量值,而是存放的内存地址,通过访问 ...