HTML
-
实验在Linux系统环境下进行,程序运行的硬件环境为CPU处理器Intel(R) Xeon(R) Gold 6330,主频2.00 GHz;GPU为NVIDIA RTX A5000,内存24 GB;软件环境为Python 3.8和PyTorch 1.8.1。本文中的方法在公开数据集ShapeNet上进行训练和测试,同时与相关的基于深度学习的点云补全方法在相同数据集上的补全效果进行对比。
-
实验中采用ShapeNet数据集中16类不同的物体形状数据训练并评估网络的点云补全性能,如手提包、汽车、椅子、台灯等,总计17775个3维物体点云模型。网络输入的点云数据均以原点为几何中心,3维坐标数值均被归一化到[-1, 1]区间内。真实完整点云数据是通过在数据集中的点云模型上均匀采样2048个点得到的,残缺点云是通过在3维坐标轴预设的5个视点中随机选取一个视点作为中心,从真实完整点云中去除一定半径范围内的点来生成的。实验借助自适应矩估计(adaptive moment estimation, Adam)优化器训练3维点云补全网络,神经网络中的学习率设置为0.0002,批次大小设置为64,持续201个周期。本文实验中采用残缺程度设置为25%的点云数据进行训练和测试,并与其它点云补全方法比较。
-
为了评估本文中网络补全残缺点云形状的有效性,采用倒角距离(chamfer distance,CD)[21]作为评估指标,来计算网络补全后的点云S1与真实点云S2之间的误差,S1与S2的CD距离dCD定义如下[21]:
式中,dCD是生成点云与真实点云的平均最近平方距离,两个点云模型的dCD值越接近于零,表示模型之间的相似度越高,其用于补全残缺点云的神经网络效果越好。
-
表 1给出了本文中的方法与自编码生成对抗网络(learning generative adversarial autoencoder network,LGAN-AE)、PCN网络、3维胶囊网络(three-dimensional capsule network,3D-Capsule)、PF-Net网络4种点云补全方法在ShapeNet数据集上的实验对比结果。评估指标为生成点云与真实点云的dCD值,加粗字体为每行最优值。从表 1中可以看出,本文中的网络在16个类别的平均dCD值优于PF-Net和其它网络,比PF-Net网络性能提升约1.79%。具体来看,手提包、帽子、吉他、摩托车、马克杯等11类物体上的dCD值优于PF-Net网络以及其余网络,这是因为本文中的网络,其图注意力层网络结构比组合多层感知机(combined multi-layer perception,CMLP)结构[11]更适合提取点云的局部特征,从而可以更好地补全复杂物体表面的缺失部分数据。
category LGAN-AE[22] PCN[10] 3D-Capsule[23] PF-Net[11] ours airplane 0.007903 0.008050 0.008604 0.002383 0.002724 bag 0.029005 0.028683 0.028219 0.008471 0.008435 cap 0.027510 0.026586 0.027223 0.010359 0.010147 car 0.019384 0.020069 0.021898 0.005019 0.005026 chair 0.014262 0.014813 0.015319 0.004221 0.004191 earphone 0.043240 0.044876 0.046606 0.012170 0.012097 guitar 0.003816 0.003951 0.003918 0.001048 0.001018 knife 0.004404 0.004563 0.004507 0.001227 0.001342 lamp 0.026173 0.025314 0.026458 0.009531 0.009035 laptop 0.010432 0.011064 0.011945 0.002741 0.002775 motorbike 0.015923 0.015444 0.016261 0.004570 0.004486 mug 0.026252 0.026482 0.028037 0.006560 0.005745 pistol 0.011173 0.009975 0.011776 0.002793 0.002620 rocket 0.008317 0.007773 0.008784 0.001964 0.001817 skateboard 0.012564 0.013844 0.014771 0.002738 0.002978 table 0.017315 0.018019 0.018998 0.004572 0.004491 mean 0.017352 0.017469 0.018333 0.005023 0.004933 Table 1. Experimental results of our network compared with other networks on the ShapeNet dataset
图 5是本文中网络与PF-Net网络在ShapeNet数据集上的补全效果。从图 5中补全椅子形状的对比图可以看出,PF-Net网络准确地补全了椅子的椅脚缺失部分,但在椅背部分补全数据不均匀,本文中网络在补全椅腿的基础上保证了椅背补全数据的均匀分布。相同的情况也出现在耳机类别上,输入的残缺点云缺失了耳机的头梁部分,PF-Net网络很好地识别出头梁的缺失,但补全的数据主要堆积于某个区域,没有体现耳机头梁的均匀结构,而本文中网络识别出耳机头梁的均匀结构并尝试对其进行补全。由图 5中吉他类的对比图可以看出,PF-Net网络未补全出吉他缺失部分的圆弧轮廓,而本文中网络虽然也在补全过程中输出噪声点,但很好地生成吉他的边缘形状。同样的例子也体现在桌子类别中,本文中网络更有效地对桌脚末端与横梁相接处进行补全。实验证明,本文作者提出的3维点云补全网络能够生成具有均匀结构的3维点云形状,并且针对形状精细部分的补全能力更强。
如图 6所示,利用LiAir无人机机载激光雷达采集获得城市场景点云数据。对场景点云进行目标提取,得到单个汽车点云模型。将点云数据预处理后输入到点云补全网络中,图 7是本文中网络与PF-Net网络在实测数据上的补全结果。从图 7中可以看出,经网络补全后,PF-Net网络生成的点云数据集中且不均匀,未能体现出汽车底部轮廓。而本文中网络能够有效补全出汽车底部轮廓,生成的形状具有均匀的结构。对于实测数据的补全实验,进一步验证了提出3维点云补全网络的有效性。
-
为了验证网络中图注意力层、折叠操作层、图注意力鉴别器3个模块对实验结果的影响,本文中在完整ShapeNet数据集上进行了4组消融实验,网络结构设计为3个去除上述模块之一的对比网络和本文作者提出的完整网络。表 2中给出了消融实验对比结果。图 8是4组消融实验补全飞机机翼的可视化补全效果图。从实验结果可以看出,实验4中补全出的点云数据与真实点云数据的误差最小,取得了最优的类别平均CD距离,并且均匀地补全了机翼的表面轮廓和涡轮发动机的精细结构。实验证明,本文作者提出的完整网络在4组网络中取得最优的点云修复补全效果。
experiment number network model mean CD 1 without GAT layer 0.006385 2 without folding 0.005110 3 without discriminator 0.004943 4 complete model 0.004932 Table 2. Comparison results of ablation studies
具体来看,实验1中仅去除了图注意力层,平均CD距离急剧上升到0.006385,飞机机翼的轮廓补全不够精细,仅仅补全出机翼的大致形状且没有正确识别出机翼的涡轮发动机部件细节结构,说明图注意力层有效提高了网络对物体局部特征信息的提取能力。实验2中仅去除折叠操作层,平均CD距离上升到0.005110,机翼轮廓的补全效果较好,能够识别出机翼的涡轮发动机部件,但对其补全结果不够精细,说明引入折叠操作能够提高网络补全精细结构的能力。实验3中去除了图注意力鉴别器模块,平均CD距离上升到0.004943,仅使用生成器的网络对机翼以及涡轮发动机轮廓的修复效果较好,但网络失去了误差反向传播的“对抗”过程,导致补全后的数据不够均匀,数据会堆积于某个区域,说明图注意力判别器能够提高生成器生成均匀数据的能力,使得补全数据更加真实。综合上述消融实验分析,充分验证了网络中图注意力层、折叠操作层和图注意力鉴别器模块的有效性且对所提方法有一定贡献。