[3] ScanRefer论文精读 3DVisual Grounding开山之作

论文名称：ScanRefer: 3D Object Localization in RGB-D Scans using Natural Language

这篇文章最主要的工作，我觉得是两个，第一，提出了一个问题；第二，比较简单地解决了这个问题。

Project page: https://daveredrum.github.io/ScanRefer/

3D Visual Grounding

提出这个问题，是这篇文章的核心，也因此，作者在Abstract上方首先插入了一张图：

他说，我们“introduce”一个task，我其实也是第一次读这类挖大坑的文章，很有意思，毕竟只有这种刚开始起步的方向，我才会专门去找一下开头读一读。开篇讲了3D Visual Grounding到底是在做什么，与2d有什么区别，很清晰。

然后他还说：

ScanReferDataSet

挖坑之作，提出问题，你要解决问题，当然需要与这个问题相关的数据集，那你挖的坑，当然你也要给出一个数据集。

这个领域的数据集重点就在于文本和场景的匹配了，而不是场景的采集，因此这个数据集是基于ScanNet数据集来做的（一个1613个RGBD室内场景的数据集）。有了场景，我们就要对场景中的object进行label了，因为是自然语言做label，所以这部分必然逃不过人工，做不到完全的自动化。作者团队做了一个网站，然后请了一批人（好像是大学生志愿者）来作标定，首先是做标注，就是给你一个场景，然后给你标出这个场景的某个物体，要求你用自然语言描述这个物体的位置（或者物体本身的特征），你的描述最终必须指向这个特定的物体。等这批人标记完成之后，再选另外一批人来验证这些标记，即看看他们的表述是否真的唯一地指向空间中的某个场景，同时要检查表述中是否有错误拼写啊，错误的语法啊之类的。

文章的补充材料里把他们的UI还做了个好多截图贴进来：

我也是第一次读这种做一个数据集的文章，讲道理，数据集构建占了相当大的篇幅，包括各种角度的数据分布，数据集采集过程，谁采集的，采集后验证过程修改了多少错误单词和错误表述等等，十分详细。

只不过这个数据集好像不如ReferIt3D数据集更被大家接受？还不知道为何，走走看。哦对咱也不知道为什么有了ScanRefer，ReferIt3D还要花心思再去构建一个新的数据集，偶不，两个。

Method

这个模型，怎么说呢，复杂也不是很复杂，但是作为一个双模态的任务肯定也简单不了，我们可以看一下。

文本编码器

首先，text先进入GloVe模型（应该是被预训练好的模型，和Word2Vec是同一类很火的专门做词向量的模型）得到这个表述的Embedding，然后送入GRU（一种类似LSTM但是比LSTM的性能好的网络）得到语言特征，后面加了一个文本分类器，其实就是对提取到的语言特征进行分类，看看能不能找到它指向的类别，这里做了一个Loss，算是对GRU的一个有监督的强化。（这个东西其实MVT也有，我还以为那是MVT作者干的，没想到这玩意在开山之作里面就已经出现了。。。）

点云编码器+目标检测器

没啥可说的，PointNet++提取点云特征，利用Voting Module来做目标检测？这个地方的子论文没读，做完目标检测，得到M个点云簇（原作者M设置的是256），然后再对256个box（或者叫proposal更合适）进行mask。

模态融合器

所谓的模态融合大家也看到了，就是简单粗暴的concat起来，很naive，但是确实也无所谓，这不是这篇工作的重点了已经。对concat之后的高维矩阵进行mask，直接把mask矩阵（向量）广播成融合后数据的形状，直接乘过来，0的地方就被mask掉了，方便，粗暴，就得到了融合后的features。

定位器

所谓的定位部分也非常简单，就是一点FC，然后过一个Softmax，把得分最高的proposal选出来，就算是完成了定位。

可以看到，整个模型是非常简单甚至有些naive的，发展空间很大。

实验部分

讲道理，他这个表格和表述我看的不是很懂，一方面是可能我第一次看这类文章很不适应，另一方面是这里面涉及到的工作我都不了解。

大概就是，每一组，上面是baseline，下面是他们的东西？不太理解，而且他们为什么要强调自己end to end？看得有点蒙。

而且用GT box我觉得属实是有点在玩的感觉了……我没找到这个比较的意义……

但是可能这也不是重点吧，重点可能是：