查看原文
其他

ACM MM 2021|难负样本采样下基于自相似性对比的点云自监督表征学习方法

arxiv: https://arxiv.org/abs/2107.01886

【导读】

本文是对发表于计算机多媒体领域顶级会议 ACM MM 2021的论文 “Self-Contrastive Learning with Hard Negative Sampling for Self-supervised Point Cloud Learning(难负样本采样下基于自相似性对比的点云自监督表征学习方法)”的解读。

该论文由北京大学王选所胡玮课题组与美国西弗吉尼亚大学合作完成,旨在利用点云自身几何结构的非局部自相似性质在点云内部构造正负样本,进而进行自对比学习,在充分利用点云非局部几何信息的同时减少对于数据增强的依赖。此外,该论文在点云中引入难负样本的概念,通过简单的线性退火方式逐步学习几何上难以区分的负样本,以进一步提升网络的判别能力。实验证明,该论文提出的点云自监督表征学习方法比现有的其他自监督方法具有更强的语义表征能力,同时对点云噪声以及点云密度等具有良好的鲁棒性。这通过点云分类和点云语义分割等下游任务进行了定量验证,也通过可视化结果的方式进行了定性验证。

1

背景介绍

在图形图像技术飞速发展的今天,点云数据也呈现出海量增长的趋势。不论是在自动驾驶导航领域,文物保护领域,3D打印技术还是VR场景建模,都对点云数据的生成与处理提出种种需求。一方面,对于激光扫描仪等三维扫描硬件设备产生的点云数据,大多数方法仍然依赖于人工地标注点云的结构信息和部件的语义信息(即有监督学习方法),比如车辆的轮胎,车牌,车门等。随着数据量的迭代式增长,标注成本已成为一项巨大的开销,因此需要无监督与自监督条件下的点云表征学习方法来解决。另一方面,点云分类和语义分割等下游任务往往依赖于在上游训练好的,能有效提取点云特征的自编码器(即点云表征学习),而点云分类和语义分割又是三维场景重建,目标识别跟踪等实际应用技术的基础。因此自监督点云表征学习这类分析方法也成为了人工智能领域研究的热点和难点问题。

2

相关工作

近年来,在点云上已经出现了一些自监督表征学习的工作,这些方法主要基于点云重建或者点云生成等前置任务,通过利用点云重建信息,空间位置关系,或上下文语义等信号建立伪标签来进行自监督表征学习。

此外,基于对比学习的思想也有一系列自监督学习方法,这些方法通常希望最大化嵌入特征空间中相同图像的增强视图之间的一致性,同时最大化不同图像构造的负样本之间的差异性。这个范式已经扩展到三维点云数据,它可以在不同的点云或输入点云的不同投影视图之间进行对比。不过,这通常诉诸于大量的数据增强(如点云的多视角投影,几何变换等),同时这一类方法更多地利用点云中局部和全局的信息,而忽视了点云几何结构中存在的非局部自相似信息。

3

方法概览

我们提出了一种新的基于自对比学习的自监督点云表示学习框架,该框架由自相似判别模块,正样本和难负样本采样模块,自对比学习模块三部分组成,旨在利用点云的非局部自相似性质,从输入的单点云中主动学习正样本和负样本。关键的观察结果是,作为3D对象或场景的表示,点云通常表现出非局部自相似性,即在仿射变换之后相似或甚至相同的局部几何结构,如图1所示的Patch A和Patch D。基于这一观察,我们建议学习点云内部自相似的目标块作为正样本或负样本,而无需借助其他点云或额外的数据增强,同时根据点云数据自身密度特点选取合适的目标块大小,避免目标块太小而导致没有具体的语义信息,或目标块太大而导致难以匹配到自相似块。这种自我对比监督的方法标志着对比学习标准框架的重要拓展。


图1:点云非局部自相似性质及正样本和难负样本图示。其中Patch A是锚定块;pos和neg代表正样本(即Patch D)和负样本(Patch B和C)。

3.1

自相似判别模块



图2:自相似判别模块图示,训练完成后编码器  权重被冻结用于辅助自对比学习模块进行更精细的非局部自相似特征提取。

我们首先给出自相似定义如下:

给定一个点云P,两个目标块  是自相似的,当且仅当:

  

其中  代表每一个目标块从神经网络层中学习到的特征向量,  是一个衡量不同特征向量之间相似性大小的度量函数,比如余弦相似性(Cosine Similarity)。  是一个0到1之间的阈值。

对于输入的点云  ,我们通过迭代最远点采样算法(FPS)进行下采样,以此选择目标块中心点集合,并通过kNN算法构建所有的目标块,k值决定了目标块的大小。如图2所示,我们首先引入编码器  ,其作用是原始点云映射到粗略的几何判别空间中。为了学习目标的自相似几何性质,我们通过对给定的锚定块  进行随机度旋转来构造相似样本,同时,我们随机抽取另一个目标块  作为与锚点块不相似的样本,再通过判别器对目标块对进行二值打分,以此粗略地区分相似和不相似的非局部目标块对几何结构。

3.2

正样本和难负样本采样模块


在该模块中,我们基于第一部分的自相似判别模块主动学习每个锚定点云块上的负采样条件。自相似判别模块中的编码器  将原始的点云块映射到粗略的几何相似度判别空间中,我们通过在该特征空间中锚定块对之间的余弦相似度,并手动设定分类阈值来进行正样本和难负样本采样:  ,该余弦相似度限定在[0,1]区间中,作为两个目标块之间几何结构相似性的连续值度量。我们采用简单的线性退火算法,对阈值进行动态改变,以此在训练过程中向网络逐步输入更加难以区分容易混淆的负样本,进而提高网络精细的判别能力。


3.3

自对比学习模块




图3:点云自对比学习模块图示,采用InfoNCE Loss作为损失函数。

如图3所示,在自对比学习模块中,我们首先通过特征编码器学习点云  的逐点特征,希望该编码器能在  的基础上具有更精细的几何结构区分能力。我们使用DGCNN作为骨干网,并聚合点特征向量来获得目标块的全局特征表示。我们的对比学习网络通过最小化InfoNCE损失函数进行训练:

  

(其中  表示  是  的一个难负样本.   )


4

实验结果

我们在通用的ModelNet40,ShapeNet等三维点云物体基准数据集上进行了实验。

ModelNet40:这个数据集包含40个类别的12311个模型,其中9843个模型用于训练,2468个模型用于测试。我们从原始模型中为每个数据集抽取1024个点来训练网络。

ShapeNet Part:这个数据集包含16个对象类别的16881个点云,用50个不同的部分进行注释。我们从每个3D点云中抽取2048个点。我们采用12137个模型进行训练,2874个模型进行测试。


4.1

迁移学习条件下的三维点云分类


我们首先在迁移学习的设置中使用我们的模型学习点云的特征表示,骨干网络在ShapeNet Part数据集上进行训练,随后在ModelNet 40上训练线性SVM分类器。如表一所示:我们的方法优于其他无监督竞争方法,证明了该方法的有效性。


表1:从ShapeNet迁移到ModelNet40上的分类学习结果

4.2

三维点云分割


我们还在三维点云实例分割任务上将我们的模型与现有的无监督和有监督方法进行了比较,如表2所示。为了公平比较,我们使用不同数量的完全连接层作为分类器与其他方法进行比较。在“1 FC”设置下,我们实现了76.0%的mIoU,显著优于最先进的无监督方法MAP-VAE 8.0%和GraphTER 13.5%。在“5fcs”设置下,我们实现了82.3%的mIoU,这也比最先进的无监督方法GraphTER高出了0.4%。此外,该模型的性能与现有的全监督方法相当,弥补了无监督模型和全监督模型在性能上的差距。

可以看到,我们的模型在大多数类别中都达到了最高的性能。这是因为飞机、摩托车、滑板等大多数模型都具有自相似的结构,因此本文提出的非局部自相似对比学习方法抓住了这些结构之间的潜在关系,最终促进了这些模型分割结果的提高。



表2:ShapeNet数据集上的部件分割结果,度量单位是点的mIoU(%)。

4.3

鲁棒性检测和消融实验


我们进一步测试了我们的模型在不同噪声和不同点云密度下的鲁棒性,并进行了对难负样本采样模块的消融实验。如图4所示,我们分别对原始三维点云进行高斯加噪和下采样,结果显著优于此前最具竞争力的方法GraphTER,证明了该方法对噪声和稀疏点云的鲁棒性。这为提出的非局部自相似对比学习方法提供了依据,该方法能够捕捉点云各部分之间的关系。这种特性对于点云数据经常受到噪声或低密度影响的实际应用非常重要。


图4:不同噪声和点云密度下的鲁棒性检测实验

此外,为了验证所提出的难负采样模块的优越性,我们将所有的负样本在整个训练过程中都输入网络。如表3所示,我们发现,在所有的实验环境下,我们提出的点云难负采样模块的mIoU指标和没有难负采样模块的mIoU指标相比有很大的优势。因此,本文提出的点云难负采样模块有助于在对比学习范式中优化三维点云表征学习。


表3:基于ShapeNet部件分割任务mIoU(%)指标的难负采样模块消融实验

4.4

实验结果可视化


我们定性地比较了所提出的方法与在不同设置下此前最具竞争力的无监督方法MAP-VAE和GraphTER等进行了比较,如图5所示。我们看到我们的模型在一些细节区域产生了更精确的结果,例如飞机模型的尾部,摩托车和滑板模型的轮子,这得益于非局部相似性的利用。



图5:实验结果可视化图示

5

总结

本文提出了一种新的自监督点云表征学习框架,该方法利用点云几何结构的非局部自相似性质进行自对比学习,对原有对比学习范式进行拓展,由自相似判别模块,正样本和难负样本采样模块,以及自对比学习模块三部分构成。通过点云分类和点云语义分割等下游任务,实验证明了该方法在ModelNet40和ShapeNet等常用的基准数据集上取得了优于其他自监督学习方法的表征效果,同时也缩小了无监督和有监督学习方法之间的差距。在未来的工作中,非局部自相似性质的利用也会有助于其他点云分析的下游任务,如去噪,重建和生成等。

关于PKUGLab


北京大学图形信号处理和分析研究室(PKUGLab)致力于研究图机器学习、图信号处理及其在三维视觉、网络数据、多模态数据等中的应用,即面向图数据(三维点云、脑网络、药物分子等),发展机器学习和信号处理的方法分析和处理图数据。实验室目前由十几位研究生和本科生组成,在图机器学习和图信号处理方向的理论和应用成果发表在国际顶级期刊和会议上,并获得多项奖学金和荣誉,包括CVPR 2021最佳论文提名等国际论文奖励和博士研究生校长奖学金、未名学士、“十佳”优秀毕业论文、北大三好学生标兵、CCF优秀大学生等奖励。

漫漫科研路,唯有热爱与专注同行。研究室注重激发学生的创造性学习热情,培养科研能力和团队协作能力。同时,研究室具备良好的科研环境和计算资源,与国内外高校和知名企业开展深入合作。


研究室主页:

https://www.wict.pku.edu.cn/huwei/

PI胡玮老师邮箱:

forhuwei AT pku.edu.cn


北大王选所

2021年度优秀成果推介

近期发布

release

—   版权声明  —

本微信公众号刊载的所有内容,由北京大学王选计算机研究所微信自身创作、收集的文字、图片和音视频资料,版权属北京大学王选计算机研究所所有;从公开渠道收集、整理及授权转载的文字、图片及音视频资料,版权属原作者。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存