高级检索

ISSN1001-3806CN51-1125/TN 网站地图

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

融合图注意力的多分辨率点云补全

潘李琳 邵剑飞

引用本文:
Citation:

融合图注意力的多分辨率点云补全

    作者简介: 潘李琳(1997-),男,硕士研究生,现主要从事3维点云数据处理的研究.
    通讯作者: 邵剑飞, 1156468319@qq.com
  • 基金项目:

    国家自然科学基金资助项目 61732005

  • 中图分类号: TN958.98;TP391.41

Multi-resolution point cloud completion fusing graph attention

    Corresponding author: SHAO Jianfei, 1156468319@qq.com
  • CLC number: TN958.98;TP391.41

  • 摘要: 为了解决3维点云补全中难以提取点云局部特征信息的问题,提出了融合图注意力的多分辨率点云补全网络结构。采用了生成对抗网络框架处理数据的方法,生成器通过图注意力层构建点云图结构,融合不同分辨率的特征信息后加上网格数据,结合折叠操作重构缺失结构并输出逐级补全的点云数据;判别器判别点云真伪,通过反馈以提高准确度并优化生成器,使得生成数据具有精细的几何结构,近似于真实点云;在形状数据集上, 将本文中的方法与其它4种方法进行比较,通过实验验证和理论分析,取得了最优的结果。结果表明,该方法能够有效地补全点云形状的缺失部分,得到完整且均匀的点云形状,相较于点分形网络性能提高约1.79%,对于实测数据的补全处理也达到了预期效果;所提出的点云补全网络结构,在提取点云全局形状特征的同时更好地提取了其局部几何特征信息,使得补全出的点云形状更加精细。该研究为智慧城市3维建模提供了参考。
  • 图 1  融合图注意力的多分辨率点云补全网络结构

    Figure 1.  Multi-resolution point cloud completion network structure with fused graph attention

    图 2  点云局部有向k最近邻图

    Figure 2.  Locally directed KNN diagram of point cloud

    图 3  图注意力层网络结构

    Figure 3.  Graph attention layer network structure

    图 4  折叠操作网络结构

    Figure 4.  Folding operation network structure

    图 5  本文网络与PF-Net在ShapeNet数据集上的补全效果

    Figure 5.  Completion effect of the proposed network and PF-Net on the ShapeNet dataset

    图 6  城市场景点云图

    Figure 6.  Point cloud map of urban scene

    图 7  实测点云数据补全效果

    Figure 7.  Completion effect of actual measured point cloud data

    图 8  消融实验可视化补全效果图

    Figure 8.  Visual completion effect of ablation experiment

    表 1  本文中的网络与其它网络在ShapeNet数据集上的实验结果对比

    Table 1.  Experimental results of our network compared with other networks on the ShapeNet dataset

    category LGAN-AE[22] PCN[10] 3D-Capsule[23] PF-Net[11] ours
    airplane 0.007903 0.008050 0.008604 0.002383 0.002724
    bag 0.029005 0.028683 0.028219 0.008471 0.008435
    cap 0.027510 0.026586 0.027223 0.010359 0.010147
    car 0.019384 0.020069 0.021898 0.005019 0.005026
    chair 0.014262 0.014813 0.015319 0.004221 0.004191
    earphone 0.043240 0.044876 0.046606 0.012170 0.012097
    guitar 0.003816 0.003951 0.003918 0.001048 0.001018
    knife 0.004404 0.004563 0.004507 0.001227 0.001342
    lamp 0.026173 0.025314 0.026458 0.009531 0.009035
    laptop 0.010432 0.011064 0.011945 0.002741 0.002775
    motorbike 0.015923 0.015444 0.016261 0.004570 0.004486
    mug 0.026252 0.026482 0.028037 0.006560 0.005745
    pistol 0.011173 0.009975 0.011776 0.002793 0.002620
    rocket 0.008317 0.007773 0.008784 0.001964 0.001817
    skateboard 0.012564 0.013844 0.014771 0.002738 0.002978
    table 0.017315 0.018019 0.018998 0.004572 0.004491
    mean 0.017352 0.017469 0.018333 0.005023 0.004933
    下载: 导出CSV

    表 2  消融实验对比结果

    Table 2.  Comparison results of ablation studies

    experiment number network model mean CD
    1 without GAT layer 0.006385
    2 without folding 0.005110
    3 without discriminator 0.004943
    4 complete model 0.004932
    下载: 导出CSV
  • [1] 缪永伟, 刘家宗, 陈佳慧, 等. 基于生成对抗网络的点云形状保结构补全[J]. 中国科学: 信息科学, 2020, 50(5): 675-691.

    MIAO Y W, LIU J Z, CHEN J H, et al. Structure-preserving shape completion of 3D point clouds with generative adversarial network[J]. SCIENTIA SINICA Informationis, 2020, 50(5): 675-691(in Chin-ese). 
    [2]

    GUO Y L, WANG H Y, HU Q Y, et al. Deep learning for 3D point clouds: A survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(12): 4338-4364. doi: 10.1109/TPAMI.2020.3005434
    [3]

    PAULY M, MITRA N J, WALLNER J, et al. Discovering structural regularity in 3D geometry[J]. ACM Transactions on Graphics, 2008, 27(3): 287-297.
    [4] 赵江洪, 孙铭悦, 王殷瑞, 等. 3维点云孔洞修复方法综述[J]. 测绘科学, 2021, 46(1): 114-123.

    ZHAO J H, SUN M Y, WANG Y R, et al. Review of three-dimensional point cloud completion methods[J]. Science of Surveying and Mapping, 2021, 46(1): 114-123 (in Chinese).
    [5]

    LI Y Y, DAI A, GUIBAS L, et al. Database-assisted object retrieval for real-time 3D reconstruction[J]. Computer Graphics Forum, 2015, 34(2): 435-446. doi: 10.1111/cgf.12573
    [6] 代许松, 花向红, 田朋举, 等. 一种基于轴向偏离比的点云配准方法[J]. 测绘科学, 2021, 46(12): 98-105.

    DAI X S, HUA X H, TIAN P J, et al. A point cloud registration method based on axial deviation ratio[J]. Science of Surveying and Mapping, 2021, 46(12): 98-105 (in Chinese). 
    [7] 刘翠连, 陶于祥, 罗小波, 等. 混合卷积神经网络的高光谱图像分类方法[J]. 激光技术, 2022, 46(3): 355-361.

    LIU C L, TAO Y X, LUO X B, et al. Hyperspectral image classification based on hybrid convolutional neural network[J]. Laser Technology, 2022, 46(3): 355-361(in Chinese). 
    [8]

    CHANG A X, FUNKHOUSER T, GUIBAS L, et al. ShapeNet: An information-rich 3D model repository[EB/OL]. (2015-12-09)[2022-06-20].https://arxiv.org/pdf/1512.03012.pdf.
    [9]

    QI C R, SU H, MO K, et al. Pointnet: Deep learning on point sets for 3D classification and segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2017: 77-85.
    [10]

    YUAN W T, KHOT T, HELD D, et al. PCN: Point completion network[C]//2018 International Conference on 3D Vision. Verona, Italy: IEEE, 2018: 728-737.
    [11]

    HUANG Z, YU Y, XU J, et al. PF-Net: Point fractal network for 3D point cloud completion[C]//Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE, 2020: 7659-7667.
    [12]

    LEDIG C, THEIS L, HUSZAR F, et al. Photo realistic single image super-resolution using a generative adversarial network[C]// IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 4681-4690.
    [13] 郑凯, 李建胜, 王俊强, 等. DCLS-GAN: 利用生成对抗网络的天绘一号卫星高原地区影像去云方法[J]. 测绘学报, 2021, 50(2): 248-259.

    ZHENG K, LI J Sh, WANG J Q, et al. DCLS-GAN: Cloud removal method for plateau area of TH-1 satellite image[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(2): 248-259 (in Chinese). 
    [14] 刘心溥, 马燕新, 许可, 等. 嵌入Transformer结构的多尺度点云补全[J]. 中国图象图形学报, 2022, 27(2): 538-549.

    LIU X P, MA Y X, XU K, et al. Multi-scale transformer based point cloud completion network[J]. Journal of Image and Graphics, 2022, 27(2): 538-549 (in Chinese). 
    [15]

    QI C R, YI L, SU H, et al. Pointnet++: Deep hierarchical feature learning on point sets in a metric space[C]// 31st Annual Conference on Neural Information Processing Systems. Cambridge, USA: Massachusetts Institute of Technology Press, 2017: 5099-5108.
    [16]

    CHEN C, FRAGONARA L Z, TSOURDOS A. GAPointNet: Graph attention based point neural network for exploiting local feature of point cloud[J]. Neurocomputing, 2021, 438(20): 122-132.
    [17]

    YANG Y, FENG C, SHEN Y, et al. FoldingNet: Point cloud auto-encoder via deep grid deformation[C]//Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 206-215.
    [18] 缪永伟, 刘家宗, 孙瑜亮, 等. 基于类别-实例分割的室内点云场景修复补全[J]. 计算机学报, 2021, 44(11): 2189-2202.

    MIAO Y W, LIU J Z, SUN Y L, et al. Point cloud completion of indoor scenes based on category-instance segmentation[J]. Chinese Journal of Computers, 2021, 44(11): 2189-2202(in Chinese). 
    [19]

    GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of wasserstein GANs[C]//31st International Conference on Neural Information Processing Systems. Washington, USA: IEEE, 2017: 5769-5779.
    [20]

    ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein generative adversarial networks[C]//Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: International Conference on Machine Learning, 2017: 214-223.
    [21]

    FAN H Q, SU H, GUIBAS L. A point set generation network for 3D object reconstruction from a single image[C]//Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 2463-2471.
    [22]

    ACHLIOPTAS P, DIAMANTI O, MITLIAGKAS I, et al. Learning representations and generative models for 3D point clouds[C]//Proceedings of the 35th International Conference on Machine Learning. Stockholm, Sweden: International Conference on Machine Learning, 2018: 40-49.
    [23]

    ZHAO Y H, BIRDAL T, DENG H W, et al. 3D point capsule networks[C]//Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2019: 1009-1018.
  • [1] 柳长安孙书明赵丽娟 . 基于激光点云实现杆塔提取的轻量级网络. 激光技术, 2021, 45(3): 367-372. doi: 10.7510/jgjs.issn.1001-3806.2021.03.018
    [2] 史洪云虢韬王迪王时春赵健刘欣龙新 . 基于激光点云的电力线悬挂点定位方法. 激光技术, 2020, 44(3): 364-370. doi: 10.7510/jgjs.issn.1001-3806.2020.03.017
    [3] 徐梁刚时磊陈凤翔王时春龙新王迪 . 基于激光点云的输电线路杆塔倾斜检测算法. 激光技术, 2022, 46(3): 390-396. doi: 10.7510/jgjs.issn.1001-3806.2022.03.015
    [4] 林承达谢良毅韩晶胡方正 . 基于激光点云的农田玉米种植株数数目识别. 激光技术, 2022, 46(2): 220-225. doi: 10.7510/jgjs.issn.1001-3806.2022.02.012
    [5] 曾旭陈伯建潘磊李诚龙江波 . 基于机载激光点云的电网绝缘子识别方法. 激光技术, 2023, 47(1): 80-86. doi: 10.7510/jgjs.issn.1001-3806.2023.01.012
    [6] 李靖钱建国王伟玺李晓明李游 . 基于机载激光点云的电力线自动提取方法. 激光技术, 2021, 45(3): 362-366. doi: 10.7510/jgjs.issn.1001-3806.2021.03.017
    [7] 吴华刘海燕丁高峰曹飞 . 复杂环境中电力线激光点云的自动提取. 激光技术, 2020, 44(4): 509-514. doi: 10.7510/jgjs.issn.1001-3806.2020.04.019
    [8] 柳赟孙淑艳 . 基于主成分分析与曲面拟合的激光点云滤波去噪. 激光技术, 2020, 44(4): 497-502. doi: 10.7510/jgjs.issn.1001-3806.2020.04.017
    [9] 时磊虢韬彭赤石书山杨立任曦胡伟 . 电力线激光点云的分割及安全检测研究. 激光技术, 2019, 43(3): 341-346. doi: 10.7510/jgjs.issn.1001-3806.2019.03.010
    [10] 吴俊河林松施向丰 . 层次化点云边界快速精确提取方法研究. 激光技术, 2021, 45(5): 571-575. doi: 10.7510/jgjs.issn.1001-3806.2021.05.006
    [11] 王云云唐菲菲王章朋肖敏唐天俊王铜川 . 植被茂密地区点云双重滤波方法研究. 激光技术, 2022, 46(2): 233-238. doi: 10.7510/jgjs.issn.1001-3806.2022.02.014
    [12] 王果王成王宏涛张成龙杨福芹 . 利用SLAM点云的玉米株数自动识别. 激光技术, 2024, 48(1): 140-144. doi: 10.7510/jgjs.issn.1001-3806.2024.01.022
    [13] 张昕怡陈茂霖刘祥江姬翠翠赵立都 . 顾及点密度与未知角分辨率的地面点云分类. 激光技术, 2023, 47(1): 59-66. doi: 10.7510/jgjs.issn.1001-3806.2023.01.009
    [14] 苍桂华岳建平 . 基于加权总体最小二乘法的点云平面拟合. 激光技术, 2014, 38(3): 307-310. doi: 10.7510/jgjs.issn.1001-3806.2014.03.005
    [15] 黄海博孙文磊黄勇陈影 . 自由曲面熔覆路径的点云切片算法研究. 激光技术, 2017, 41(5): 718-722. doi: 10.7510/jgjs.issn.1001-3806.2017.05.020
    [16] 赵红壮刘瑾杨海马潘方超陈伟 . 面向航空损伤叶片点云的分阶段配准研究. 激光技术, 2023, 47(2): 241-246. doi: 10.7510/jgjs.issn.1001-3806.2023.02.013
    [17] 徐梁刚虢韬吴绍华王坤辉赵健杨龙王迪 . 基于点云数据特征的电力线快速提取和重建. 激光技术, 2020, 44(2): 244-249. doi: 10.7510/jgjs.issn.1001-3806.2020.02.019
    [18] 郑帅锋王山东张陈意王伦炜 . 基于点云特征的城市道路标识线提取与分类. 激光技术, 2024, 48(1): 27-33. doi: 10.7510/jgjs.issn.1001-3806.2024.01.005
    [19] 朱依民田林亚毕继鑫林松 . 基于无人机机载LiDAR的电力线点云提取与重建. 激光技术, 2021, 45(5): 554-560. doi: 10.7510/jgjs.issn.1001-3806.2021.05.003
    [20] 李霞杨正维黄俊伟杨亚复高莎 . 机器学习参与山区村落影像点云分类的研究. 激光技术, 2024, 48(2): 288-294. doi: 10.7510/jgjs.issn.1001-3806.2024.02.022
  • 加载中
图(8) / 表(2)
计量
  • 文章访问数:  1277
  • HTML全文浏览量:  916
  • PDF下载量:  15
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-07-25
  • 录用日期:  2022-09-17
  • 刊出日期:  2023-09-25

融合图注意力的多分辨率点云补全

    通讯作者: 邵剑飞, 1156468319@qq.com
    作者简介: 潘李琳(1997-),男,硕士研究生,现主要从事3维点云数据处理的研究
  • 昆明理工大学 信息工程与自动化学院,昆明 650504
基金项目:  国家自然科学基金资助项目 61732005

摘要: 为了解决3维点云补全中难以提取点云局部特征信息的问题,提出了融合图注意力的多分辨率点云补全网络结构。采用了生成对抗网络框架处理数据的方法,生成器通过图注意力层构建点云图结构,融合不同分辨率的特征信息后加上网格数据,结合折叠操作重构缺失结构并输出逐级补全的点云数据;判别器判别点云真伪,通过反馈以提高准确度并优化生成器,使得生成数据具有精细的几何结构,近似于真实点云;在形状数据集上, 将本文中的方法与其它4种方法进行比较,通过实验验证和理论分析,取得了最优的结果。结果表明,该方法能够有效地补全点云形状的缺失部分,得到完整且均匀的点云形状,相较于点分形网络性能提高约1.79%,对于实测数据的补全处理也达到了预期效果;所提出的点云补全网络结构,在提取点云全局形状特征的同时更好地提取了其局部几何特征信息,使得补全出的点云形状更加精细。该研究为智慧城市3维建模提供了参考。

English Abstract

    • 随着深度相机和激光雷达等3维扫描设备的普及,离散3维点云数据的获取更为便捷,对非结构化点云数据的分析处理已经成为计算机视觉的重要研究方向[1]。离散点云数据由于其数据量小,并且能够精确表示复杂物体形状的优点,广泛应用于自动驾驶、城市建模、考古文物保护等领域。由于传感器分辨率的限制和扫描视线的遮挡,这些设备直接捕获的原始点云通常是稀疏和不完整的,所以必须在残缺点云形状中补全出完整的几何形状,以便进行下游的各种任务[2],如点云分类、语义分割、目标检测等。

      传统的点云补全有基于几何和基于数据库匹配的方法。基于几何的方法是通过提取残缺点云边界的几何特征,识别结构规律进行形状补全。PAULY等人[3]通过识别残缺点云的对称结构,利用对称性完成残缺点云的形状补全。这类方法要求输入的点云结构基本完整以及残缺度较小,不适用于较大残缺度和结构不规则的点云模型[4]。基于数据库匹配的方法是将残缺点云与形状数据库中点云进行检索匹配完成点云补全。LI等人[5]将输入点云与匹配到的点云进行对齐和缩放,将数据库中检索结果直接替代残缺点云。DAI等人[6]简化特征提取的复杂度,提升了检索匹配的精度与速度。这类方法依赖于形状数据库的先验知识,对含有较大噪声的点云模型鲁棒性低,同时对未知形状补全的泛化能力低。

      深度学习在处理图像方面取得了突破性进展[7],同时一些如形状数据集(shape network datasets,Shape-Net)[8]的大型3维点云模型数据集被构建,推动了基于深度学习的3维点云修复补全技术的发展。QI等人[9]提出用于点云处理的神经网络,使得非结构化的3维点云数据可以直接输入到神经网络中,同时解决了点云数据输入时的不规则性和无序性问题。YUAN等人[10]提出的点云补全网络(point completion net- work, PCN)整体上基于学习的架构,采用编码-解码器对残缺点云模型进行处理,该方法只考虑到点云的全局特征,没有能够有效提取到点云的局部特征,导致补全后的模型结构不够精细。HUANG等人[11]提出点分形网络(point fractal network, PF-Net),采用多分辨率的自编码解码器,直接输出缺失部分的点云,有效地提取到点云的局部特征。

      由于生成对抗网络(generative adversarial network, GAN)[12]在自主学习2维图像数据特征分布方面效果显著[13],为了使补全出的点云形状接近于真实形状,本文作者采用生成对抗网络框架对3维残缺点云数据进行补全。本文中的方法特点为:(1)基于GAN框架,直接以残缺的点云数据作为输入,网络仅输出缺失部分数据,保证原有结构的同时实现残缺点云的修复补全;(2)利用图注意力网络(graph attention network, GAT)有效提取残缺点云的局部特征,在补全残缺点云的同时保证了点云模型的细节;(3)采用改进的GAN损失函数优化网络模型的训练,有效地保证网络训练的稳定性。

    • 图 1所示,本文作者借助GAN框架提出一种多分辨率特征点云补全网络结构。网络中的生成器由多分辨率特征提取编码器和嵌入折叠的金字塔解码器组成,主要用于补全残缺点云形状的缺失部分。多分辨率特征提取编码器以3个不同分辨率的残缺点云作为输入,得到残缺点云对应的特征向量。嵌入折叠的金字塔解码器输入特征向量,分层输出3个分辨率的生成点云。判别器判别输入点云是真实点云还是生成点云,利用判别结果计算误差后反馈给生成器和自身,不断提高生成器的点云补全性能并最大化判别器的判别准确度。网络的损失函数分为多分辨率生成损失和对抗损失两部分,其中多分辨率生成损失由多分辨率生成点云和与其对应分辨率的真实点云之间计算Wasserstein距离并加权求和得到,对抗损失则由判别器计算以稳定生成对抗网络训练的梯度。生成器和判别器通过交替训练以不断优化神经网络参数,减少预测点云数据和真实点云数据之间的误差,最终使得生成器生成的完整点云近似真实点云,判别器无法判断出其真伪。

      图  1  融合图注意力的多分辨率点云补全网络结构

      Figure 1.  Multi-resolution point cloud completion network structure with fused graph attention

    • 生成器采用的编码-解码结构可以有效提取非结构化点云数据的特征信息,将特征信息编码成特征码字并重构出点云形状的缺失部分[14]。采用点云深层次特征学习网络[15]中的多分辨率分层编码框架,同时融合了图注意力机制以提取点云局部精细特征信息。点云补全网络中的解码器采用嵌入折叠操作的多通道补全结构,通过结合点云数据和2维网格数据分层输出补全结果。

      图 1所示,3维点云补全网络的生成器端分层输入N×3,3N/2,3N/4的矩阵,其中NN/2、N/4为每个通道中点的数目,矩阵的每一行由点云的3维坐标值(x, y, z)组成,生成器最终输出M×3矩阵为点云缺失部分数据,M为缺失点云数目。最终完整点云由生成点云和输入点云拼接组成,即(N+M)×3。

    • 多分辨率特征提取编码器输入3个不同分辨率的残缺点云P1P2P3,其点的个数分别为2048、1024、512,其中P1为原始残缺点云,残缺点云P2P3由对原始残缺点云进行迭代最远点采样(iterative farthest point sampling, IFPS)[15]得到。然后通过图注意力层得到对应分辨率的特征向量F,经并联后通过多层感知机(multi-layer perception, MLP)融合得到输入残缺点云数据的特征向量V

      通过嵌入注意力机制的图卷积网络来学习点云的局域特征,实现更好的邻域聚合[16]。由于每一个点与距离较远点的权重分配非常小,计算所有点之间的权重大小将导致高计算成本和梯度消失问题,图注意力卷积通过考虑邻域点对不同中心点的重要性来计算关系权重,反映邻域内的空间分布关系。如图 2所示,针对点云中的每个点构造有向k最近邻(k-nearest neighbor, KNN)图G=(S, E)来表示点云的局部结构,其中S={Si, i=1, 2, …, z}是点云的节点集,i为节点编号,z为节点数,$E \subseteq S \times S$是连接相邻点的边集;aij表示第j邻域点对于Si节点的权重值。

      图  2  点云局部有向k最近邻图

      Figure 2.  Locally directed KNN diagram of point cloud

      给定一组点云S={S1, S2, S3, …, Sz}∈R(3),用h={h1, h2, …, hz}∈R(Φ)来代表每个点的特征,其中R为实数集,Φ为特征的维度。对于每一个节点Si,其与邻域点的权重cij计算方式[16]如下:

      $ c_{i j}=h\left[h\left(S_i, \theta\right), \theta\right]+h\left[h\left(S_i-S_{i j}, \theta\right), \theta\right] $

      (1)

      式中,h(Si, θ)和h(SiSij, θ)是具有1维输出的单层神经网络,θ是一组可学习参数,通过融合自系数h(Si, θ)和局部系数h(SiSij, θ)获得注意系数,然后利用下式所示的非线性激活函数将其融合在一起:

      $ c_{i j}=\left\{\begin{array}{l} c_{i j}, \left(0 \leqslant c_{i j}\right) \\ A c_{i j}, \left(c_{i j}<0\right) \end{array}\right. $

      (2)

      式中,A是位于(0,1)区间的一个常数。再利用下式中的SoftMax操作对所有邻域点的系数进行归一化[16],使得所有权重的和为1:

      $ a_{i j}=\frac{\exp \left(c_{i j}\right)}{\sum\limits_{k \in z} \exp \left(c_{i j}\right)} $

      (3)

      图注意力层结构如图 3所示。以N×3的点云矩阵作为输入,并行学习自我注意和相邻注意特征以获得注意系数,归一化后应用线性组合操作最终生成注意特征。注意力特征和图特征并联后通过MLP将每个点编码成多个维度,获得多维特征向量f={fi, i=1, 2, 3, 4},其中f的维度分别为128,256,512,1024,最后将所有特征向量串联起来,形成组合潜在向量F,其维度为1920,F包含低层和高层的特征信息。

      图  3  图注意力层网络结构

      Figure 3.  Graph attention layer network structure

    • 本文中借鉴PF-Net网络中金字塔解码器的思想,采用多通道结构生成多分辨率点云。为了提高网络预测点云形状的局部结构,更好地补全复杂物体表面缺失部分,在金字塔解码器的基础上增加折叠操作[17]层,实现2维结构到3维结构的映射,提高点云细节部分的补全。图 4为折叠操作层网络结构图。2维网格能够通过由MLP实现的折叠操作生成任意的3维点云形状[18]。生成器中嵌入折叠的金字塔解码器接收编码器的输出作为输入,即特征向量V,输出为网络预测的点云缺失部分数据。

      图  4  折叠操作网络结构

      Figure 4.  Folding operation network structure

      解码器将编码器输出的特征向量V通过全连接层得到3个特征向量V1V2V3,其维度分别为1024,512,256。首先对V3利用全连接层重构出一个M3×3的稀疏点云g3,该稀疏点云表示了点云的整体形状。针对点云g3中的点通过结合特征向量V2以及加上2维网格数据的折叠操作生成M2×3矩阵,即点云g2。使用同样的方法,针对g2中的点通过结合特征向量V1以及2维网格数据生成M1×3矩阵,最终得到缺失点云g1。本文实验中M1=512,M2=128,M3=64。

    • 3维点云补全网络中的判别器用于判断点云是真实点云还是生成点云。判别器采用自编码的结构,通过图注意力层对单分辨率点云进行特征编码,然后经过最大池化操作后得到一个维度为1×512的特征向量,将特征向量输入不设置激活函数的MLP中得到一个标量,最终使用Sigmoid分类器进行判断输入的点云是真实点云还是生成器生成的点云。

    • 针对原始GAN训练不稳定的问题,本文作者借鉴改进的GAN网络[19]的训练方式,采用Wasserstein距离[20]描述生成点云与真实点云之间的距离,其中Wasserstein距离定义如下[20]

      $ \begin{gathered} W\left(p_{\mathrm{r}}, p_{\mathrm{g}}\right)=f_{\text {inf }}(E(\|x-y\|)), \\ \left(\gamma \in T\left(p_{\mathrm{r}}, p_{\mathrm{g}}\right), (x, y) \in \gamma\right) \end{gathered} $

      (4)

      式中,函数finf(x)表示取函数f(x)的下界; 函数E(x)表示数学期望; 函数T(pr, pg)表示真实点云pr和生成点云pg两个分布组合而成的联合分布γ的集合,从γ中采样出样本对(x, y),计算真实点云x和生成器生成点云y之间的距离‖xy‖,最后计算该联合分布下样本对之间距离的期望值下界即为prpg的Wasserstein距离。考虑到直接计算两个分布之间的Wasserstein距离的计算量较大,利用Kantorovich-Rubinstein对偶性将Wasserstein距离转换为其等价形式[1]

      $ \begin{array}{*{20}{l}} {W\left( {{p_{\text{r}}},{p_{\text{g}}}} \right) = \frac{1}{K}{f_{{\text{sup }}}}\left( {E\left( {D\left( {{x_1}} \right)} \right) - E\left( {D\left( {{x_2}} \right)} \right)} \right),} \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ {\left( {\left\| D \right\| \leqslant K,{x_1} \in {p_{\text{r}}},{x_2} \in {p_{\text{g}}}} \right)} \end{array} $

      (5)

      式中,函数fsup(x)表示取函数f(x)的上界,x表示随机点云样本数据,函数D(x)表示判别器网络,‖D‖≤K表示函数D(x)满足Lipschitz约束条件[20],实验中K取常数1。

      为了判别器满足Lipschitz约束条件,引入梯度惩罚的方式来进行自适应的权重修正,判别器网络的损失函数如下[19]

      $ \begin{gathered} L_{\mathrm{d}}=E\left(D\left(x_2\right)\right)-E\left(D\left(x_1\right)\right)+ \\ \lambda E\left(\left(\left\|\nabla_x D\left(x_3\right)\right\|_2-1\right)^2\right), \\ \left(\|D\| \leqslant K, x_1 \in p_{\mathrm{r}}, x_2 \in p_{\mathrm{g}}, x_3 \in p_{\mathrm{u}}\right) \end{gathered} $

      (6)

      式中,▽xD(x)为判别器的梯度,其二范数被约束在1附近; xpu表示从生成样本和真实样本的并集pu内采样的点云数据; λ为惩罚系数,实验中取常数λ=10。

      由于生成器输出3个分辨率的点云,生成损失也由3个部分组成。为了尽可能地“欺骗”判别器,最大化生成器生成点云样本的判别概率,本文中采用的生成器损失函数为:

      $ \begin{aligned} L_{\mathrm{g}}= & \beta\left[W\left(p_{\mathrm{r}, 1}, p_{\mathrm{g}, 1}\right)+\alpha W\left(p_{\mathrm{r}, 2}, p_{\mathrm{g}, 2}\right)+\right. \\ & \left.2 \alpha W\left(p_{\mathrm{r}, 3}, p_{\mathrm{g}, 3}\right)\right]+(1-\beta) L_{\mathrm{d}} \end{aligned} $

      (7)

      式中,β表示生成损失中的求和权重; W(pr,1, pg,1)、W(pr,2, pg,2)和W(pr,3, pg,3)分别计算了生成点云分布pg,1pg,2pg,3和对应真实点云分布之间的Wasserstein距离; α为超参数,表示多分辨率生成损失中的求和权重。由于随着训练迭代次数e的增加,网络越注重补全物体的局部精细几何结构,低分辨率点云所占权重逐渐增大,故本实验中α取值如下式所示:

      $ \alpha=\left\{\begin{array}{l} 0.01, (e<30) \\ 0.05, (30 \leqslant e<80) \\ 0.1, (e \geqslant 80) \end{array}\right. $

      (8)

      在生成损失反馈给网络的过程中,生成损失自身对于生成器的优化补全所占权重较大,判别器的损失反馈所占权重较小,故实验中取β=0.95。

    • 实验在Linux系统环境下进行,程序运行的硬件环境为CPU处理器Intel(R) Xeon(R) Gold 6330,主频2.00 GHz;GPU为NVIDIA RTX A5000,内存24 GB;软件环境为Python 3.8和PyTorch 1.8.1。本文中的方法在公开数据集ShapeNet上进行训练和测试,同时与相关的基于深度学习的点云补全方法在相同数据集上的补全效果进行对比。

    • 实验中采用ShapeNet数据集中16类不同的物体形状数据训练并评估网络的点云补全性能,如手提包、汽车、椅子、台灯等,总计17775个3维物体点云模型。网络输入的点云数据均以原点为几何中心,3维坐标数值均被归一化到[-1, 1]区间内。真实完整点云数据是通过在数据集中的点云模型上均匀采样2048个点得到的,残缺点云是通过在3维坐标轴预设的5个视点中随机选取一个视点作为中心,从真实完整点云中去除一定半径范围内的点来生成的。实验借助自适应矩估计(adaptive moment estimation, Adam)优化器训练3维点云补全网络,神经网络中的学习率设置为0.0002,批次大小设置为64,持续201个周期。本文实验中采用残缺程度设置为25%的点云数据进行训练和测试,并与其它点云补全方法比较。

    • 为了评估本文中网络补全残缺点云形状的有效性,采用倒角距离(chamfer distance,CD)[21]作为评估指标,来计算网络补全后的点云S1与真实点云S2之间的误差,S1S2的CD距离dCD定义如下[21]

      $ \begin{gathered} d_{\mathrm{CD}}\left(S_1, S_2\right)=\frac{1}{S_1} \sum\limits_{x \in S_1} \min _{y \in S_2}\|x-y\|_2^\text{ 2}+ \\ \frac{1}{S_2} \sum\limits_{y \in S_2} \min _{x \in S_1}\|y-x\|_2^\text{ 2} \end{gathered} $

      (9)

      式中,dCD是生成点云与真实点云的平均最近平方距离,两个点云模型的dCD值越接近于零,表示模型之间的相似度越高,其用于补全残缺点云的神经网络效果越好。

    • 表 1给出了本文中的方法与自编码生成对抗网络(learning generative adversarial autoencoder network,LGAN-AE)、PCN网络、3维胶囊网络(three-dimensional capsule network,3D-Capsule)、PF-Net网络4种点云补全方法在ShapeNet数据集上的实验对比结果。评估指标为生成点云与真实点云的dCD值,加粗字体为每行最优值。从表 1中可以看出,本文中的网络在16个类别的平均dCD值优于PF-Net和其它网络,比PF-Net网络性能提升约1.79%。具体来看,手提包、帽子、吉他、摩托车、马克杯等11类物体上的dCD值优于PF-Net网络以及其余网络,这是因为本文中的网络,其图注意力层网络结构比组合多层感知机(combined multi-layer perception,CMLP)结构[11]更适合提取点云的局部特征,从而可以更好地补全复杂物体表面的缺失部分数据。

      表 1  本文中的网络与其它网络在ShapeNet数据集上的实验结果对比

      Table 1.  Experimental results of our network compared with other networks on the ShapeNet dataset

      category LGAN-AE[22] PCN[10] 3D-Capsule[23] PF-Net[11] ours
      airplane 0.007903 0.008050 0.008604 0.002383 0.002724
      bag 0.029005 0.028683 0.028219 0.008471 0.008435
      cap 0.027510 0.026586 0.027223 0.010359 0.010147
      car 0.019384 0.020069 0.021898 0.005019 0.005026
      chair 0.014262 0.014813 0.015319 0.004221 0.004191
      earphone 0.043240 0.044876 0.046606 0.012170 0.012097
      guitar 0.003816 0.003951 0.003918 0.001048 0.001018
      knife 0.004404 0.004563 0.004507 0.001227 0.001342
      lamp 0.026173 0.025314 0.026458 0.009531 0.009035
      laptop 0.010432 0.011064 0.011945 0.002741 0.002775
      motorbike 0.015923 0.015444 0.016261 0.004570 0.004486
      mug 0.026252 0.026482 0.028037 0.006560 0.005745
      pistol 0.011173 0.009975 0.011776 0.002793 0.002620
      rocket 0.008317 0.007773 0.008784 0.001964 0.001817
      skateboard 0.012564 0.013844 0.014771 0.002738 0.002978
      table 0.017315 0.018019 0.018998 0.004572 0.004491
      mean 0.017352 0.017469 0.018333 0.005023 0.004933

      图 5是本文中网络与PF-Net网络在ShapeNet数据集上的补全效果。从图 5中补全椅子形状的对比图可以看出,PF-Net网络准确地补全了椅子的椅脚缺失部分,但在椅背部分补全数据不均匀,本文中网络在补全椅腿的基础上保证了椅背补全数据的均匀分布。相同的情况也出现在耳机类别上,输入的残缺点云缺失了耳机的头梁部分,PF-Net网络很好地识别出头梁的缺失,但补全的数据主要堆积于某个区域,没有体现耳机头梁的均匀结构,而本文中网络识别出耳机头梁的均匀结构并尝试对其进行补全。由图 5中吉他类的对比图可以看出,PF-Net网络未补全出吉他缺失部分的圆弧轮廓,而本文中网络虽然也在补全过程中输出噪声点,但很好地生成吉他的边缘形状。同样的例子也体现在桌子类别中,本文中网络更有效地对桌脚末端与横梁相接处进行补全。实验证明,本文作者提出的3维点云补全网络能够生成具有均匀结构的3维点云形状,并且针对形状精细部分的补全能力更强。

      图  5  本文网络与PF-Net在ShapeNet数据集上的补全效果

      Figure 5.  Completion effect of the proposed network and PF-Net on the ShapeNet dataset

      图 6所示,利用LiAir无人机机载激光雷达采集获得城市场景点云数据。对场景点云进行目标提取,得到单个汽车点云模型。将点云数据预处理后输入到点云补全网络中,图 7是本文中网络与PF-Net网络在实测数据上的补全结果。从图 7中可以看出,经网络补全后,PF-Net网络生成的点云数据集中且不均匀,未能体现出汽车底部轮廓。而本文中网络能够有效补全出汽车底部轮廓,生成的形状具有均匀的结构。对于实测数据的补全实验,进一步验证了提出3维点云补全网络的有效性。

      图  6  城市场景点云图

      Figure 6.  Point cloud map of urban scene

      图  7  实测点云数据补全效果

      Figure 7.  Completion effect of actual measured point cloud data

    • 为了验证网络中图注意力层、折叠操作层、图注意力鉴别器3个模块对实验结果的影响,本文中在完整ShapeNet数据集上进行了4组消融实验,网络结构设计为3个去除上述模块之一的对比网络和本文作者提出的完整网络。表 2中给出了消融实验对比结果。图 8是4组消融实验补全飞机机翼的可视化补全效果图。从实验结果可以看出,实验4中补全出的点云数据与真实点云数据的误差最小,取得了最优的类别平均CD距离,并且均匀地补全了机翼的表面轮廓和涡轮发动机的精细结构。实验证明,本文作者提出的完整网络在4组网络中取得最优的点云修复补全效果。

      表 2  消融实验对比结果

      Table 2.  Comparison results of ablation studies

      experiment number network model mean CD
      1 without GAT layer 0.006385
      2 without folding 0.005110
      3 without discriminator 0.004943
      4 complete model 0.004932

      图  8  消融实验可视化补全效果图

      Figure 8.  Visual completion effect of ablation experiment

      具体来看,实验1中仅去除了图注意力层,平均CD距离急剧上升到0.006385,飞机机翼的轮廓补全不够精细,仅仅补全出机翼的大致形状且没有正确识别出机翼的涡轮发动机部件细节结构,说明图注意力层有效提高了网络对物体局部特征信息的提取能力。实验2中仅去除折叠操作层,平均CD距离上升到0.005110,机翼轮廓的补全效果较好,能够识别出机翼的涡轮发动机部件,但对其补全结果不够精细,说明引入折叠操作能够提高网络补全精细结构的能力。实验3中去除了图注意力鉴别器模块,平均CD距离上升到0.004943,仅使用生成器的网络对机翼以及涡轮发动机轮廓的修复效果较好,但网络失去了误差反向传播的“对抗”过程,导致补全后的数据不够均匀,数据会堆积于某个区域,说明图注意力判别器能够提高生成器生成均匀数据的能力,使得补全数据更加真实。综合上述消融实验分析,充分验证了网络中图注意力层、折叠操作层和图注意力鉴别器模块的有效性且对所提方法有一定贡献。

    • 提出了一种新的点云补全网络框架,借助GAN网络框架,编码器和解码器都采用多分辨率并行处理结构,将图注意力网络融合到编码器中,提高网络提取残缺点云局部特征信息的能力。在金字塔解码器的基础上增加折叠操作,进一步提高了点云精细结构的补全效果。判别器与生成器交替训练,嵌入图注意力模块以提高网络生成均匀数据的能力。实验结果表明,本文作者提出的点云补全网络具有较好的补全性能,在保持原有点云形状的基础上,补全出的缺失点云数据更均匀,针对形状精细部分的补全能力更强,相较于PF-Net网络性能提高约1.79%,并且对实测点云数据进行补全处理,达到了预期效果。当然,本文中提出的网络还有很多问题需要解决,比如图注意力模块网络参数较大,会最终导致网络训练时间急剧增加,未来可以考虑采用模型剪枝算法降低网络的复杂性;模型在提取非均匀采样点云数据的局部特征信息时效果不佳,未来可以考虑采用改进的采样策略采样非均匀分布的点云数据等,这些模型的优化方法将是作者下一步研究的内容。

参考文献 (23)

目录

    /

    返回文章
    返回