Implicit Autoencoder for Point-Cloud Self-Supervised Representation Learning

2023 ICCV

*Siming Yan, Zhenpei Yang, Haoxiang Li, Chen Song, Li Guan, Hao Kang, Gang Hua, Qixing Huang*; Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2023, pp. 14530-14542


总结 :本文专注于autoencoder框架下的点云表示模型的性能优化,提出了sample-variant issue ,即不同采样(采样是因为网络处理体量限制,需要先对数据集中的数据进行降采样)引入的噪声不同,普通的autoencoder点云表示学习方法,例如Point-MAE拟合输入和重建点云保持完全一致,导致采样中的噪声一定程度上也影响到的了encoder输出的latent code,降低了对同一目标的不同点云的语义表示一致性,换句话说: limiting the model's ability to extract valuable information about the true 3D geometry。作者基于这一点提出了对于decoder的优化,decoder原来是重建点云数据,作者换为重建输入点云的隐式表示 (SDF、UDF、occupancy grid),并且原来的Loss函数(Chamfer Distance Loss,Earth Mover`s Distance)替换为:将重建的隐式表示,和输入点云计算得到的隐式表示之间的L1 distance(for SDF,UDF),或者cross entropy(for occupancy grid)。Loss替换还有一个好处在于大大降低了计算复杂度,使得输入点云的点数能够大大增多,论文中表明点数能从1k左右 -> 40k,在tesla V100的GPU加持下。

Sample Variation Issue

从图中不同的采样在不同位置的点云密度不同,密度大的自然网络容易学习,密度小的网络学习较为困难,但确实原来直接重建点云的方法,使得latent code不得不带有不同sample distinctive的特征描述,本文就意在解决这一问题,促使网络学习到更加generalize的特征)(for one 3D object)。



这里主要说的pretrain阶段的decoder的输出,本文主要改进的也是他,这里的 \((g \circ f)(x | \mathcal{P})\) 表示这个autoencoder-decoder架构在 \(\mathcal{P}\) 采样输入样本下的重建出来的隐式表示, \(\lambda_{gt}\) 表示使用ground truth(数据集中的数据)计算出来的隐式表示,例如SDF、UDF、occupancy grid三种:



在隐式表示是occupancy grid用的decoder:

