高级检索

ISSN1001-3806CN51-1125/TN 网站地图

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于DDR GAN的低质量图像增强算法

陶昕辰 朱涛 黄玉玲 高恬曼 何博 吴迪

引用本文:
Citation:

基于DDR GAN的低质量图像增强算法

    作者简介: 陶昕辰(2001-),男,大学本科生,主要从事图像信号处理与深度学习方面的研究.
    通讯作者: 吴迪, wudi@suda.edu.cn
  • 基金项目:

    国家级大学生创新创业训练计划资助项目 202110285074S

  • 中图分类号: TP391

Low-quality image enhancement algorithm based on DDR GAN

    Corresponding author: WU Di, wudi@suda.edu.cn
  • CLC number: TP391

  • 摘要: 现有图像增强方法在处理模糊且分辨率较低的图像时,因图像的细节缺乏真实性并且存在伪影现象,会导致增强效果较差。为了解决这一问题,采用一种基于深度密集残差生成对抗网络(DDR GAN)的低分辨率模糊图像增强算法,实现了低质量图像的有效增强。首先构建端到端的生成对抗网络框架;然后设计深度密集残差隐特征编码架构,提升对输入图像的深层语义特征表示,增强图像生成效能;最后重构损失函数,添加感知损失以指导模型学习生成图像的真实性。结果表明,相比于目前最先进的增强型超分辨率GAN法(ESR GAN)和第2版去模糊GAN法(DeBlur GAN-V2),DDR GAN生成的图像在视觉效果上更佳,具有更高的清晰度和更丰富的图像细节;在客观评价指标方面,DDR GAN相较于ESR GAN和DeBlur GAN-V2,峰值信噪比分别提高1.7072 dB和1.1683 dB,结构相似度分别提高0.0783和0.0713。该算法对低分辨率模糊图像的复原增强是有帮助的。
  • 图 1  深度密集残差GAN网络框架

    Figure 1.  Framework of the deep dense residual generative adversarial network

    图 2  残差网络中的残差块单元

    Figure 2.  Residual block unit of the residual network

    图 3  RRDB网络结构

    Figure 3.  RRDB network structure

    图 4  密集块结构

    Figure 4.  Dense block structure

    图 5  生成器结构

    Figure 5.  Generator structure

    图 6  判别器结构

    Figure 6.  Discriminator structure

    图 7  训练损失变化曲线图

    Figure 7.  Training loss curve

    图 8  建筑物的对比结果

    a—模糊图像   b—ESR GAN方法   c—DeBlur GAN-V2方法   d—本文中算法   e—清晰图像

    Figure 8.  Comparison results of building

    a—blurred image   b—ESR GAN method   c—DeBlur GAN-V2 method   d—our algorithm   e—sharp image

    图 9  汽车的对比结果

    a—模糊图像   b—ESR GAN方法   c—DeBlur GAN-V2方法   d—本文中算法   e—清晰图像

    Figure 9.  Comparison results of car

    a—blurred image    b—ESR GAN method    c—DeBlur GAN-V2 method    d—our algorithm    e—sharp image

    图 10  广场的对比结果

    a—模糊图像   b—ESR GAN方法   c—DeBlur GAN-V2方法   d—本文中算法   e—清晰图像

    Figure 10.  Comparison results of square

    a—blurred image    b—ESR GAN method    c—DeBlur GAN-V2 method    d—our algorithm    e—sharp image

    表 1  算法对比结果

    Table 1.  Comparison of results for different algorithms

    evaluation criterion ESR GAN DeBlur GAN-V2 our algorithm
    PSNR/dB 20.3371 20.8760 22.0443
    SSIM 0.6570 0.6640 0.7353
    running time/s 0.326 0.293 0.596
    下载: 导出CSV
  • [1] 安胜彪, 娄慧儒, 陈书旺, 等. 基于深度学习的旋转目标检测方法研究进展[J]. 电子测量技术, 2021, 44(21): 168-178.

    AN Sh B, LOU H R, CHEN Sh W, et al. Research progress of rotating target detection methods based on deep learning[J]. Electronic Measurement Technology, 2021, 44(21): 168-178(in Chinese). 
    [2] 李宇豪, 吕晓琪, 谷宇, 等. 基于改进S3FD网络的人脸检测算法[J]. 激光技术, 2021, 45(6): 722-728.

    LI Y H, LV X Q, GU Y, et al. Face detection algorithm based on improved S3FD network[J]. Laser Technology, 2021, 45(6): 722-728(in Chinese). 
    [3] 常颖, 常大俊. 改进型卷积神经网络焊点缺陷识别算法研究[J]. 激光技术, 2020, 44(6): 779-783.

    CHANG Y, CHANG D J. Research on solder joint defect recognition algorithm based on improved convolutional neural network[J]. Laser Technology, 2020, 44(6): 779-783(in Chinese). 
    [4] 王坚, 张义兵, 陈双, 等. 基于机器视觉的瞄准镜缺陷检测系统设计[J]. 制造业自动化, 2022, 44(2): 36-41.

    WANG J, ZHANG Y B, CHEN Sh, et al. Design of the inspection system for the defects of the sight based on machine vision[J]. Manufacturing Automation, 2022, 44(2): 36-41(in Chinese). 
    [5] 赵文清, 孔子旭, 周震东, 等. 增强小目标特征的航空遥感目标检测[J]. 中国图象图形学报, 2021, 26(3): 644-653.

    ZHAO W Q, KONG Z X, ZHOU Zh D, et al. Target detection algorithm of aerial remote sensing based on feature enhancement technology[J]. Journal of Image and Graphics, 2021, 26(3): 644-653(in Chinese). 
    [6] 李宇环, 王洁, 鲁力, 等. 用于遥感图像的轻量化实时目标检测模型[J]. 激光与光电子学进展, 2021, 58(16): 1615007.

    LI Y H, WANG J, LU L, et al. Lightweight real-time target detection model for remote sensing images[J]. Laser & Optoelectronics Progress, 2021, 58(16): 1615007(in Chinese). 
    [7] 胡锦林, 齐永锋, 王佳颖. 基于时空图卷积网络的学生在线课堂行为识别[J]. 光电子·激光, 2022, 33(2): 149-156.

    HU J L, QI Y F, WANG J Y. Recognition of students'online classroom action based on spatiotemporal graph convolutional network[J]. Journal of Optoelectronics·Laser, 2022, 33(2): 149-156(in Chin-ese). 
    [8] 杨斌, 云霄, 董锴文, 等. 基于机器视觉的石化场景人员危险行为识别[J]. 激光与光电子学进展, 2021, 58(22): 2215001.

    YANG B, YUN X, DONG K W, et al. Human's dangerous action recognition in petrochemical scene using machine vision[J]. Laser & Optoelectronics Progress, 2021, 58(22): 2215001(in Chinese). 
    [9]

    HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.
    [10]

    GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[J]. Advances in Neural Information Processing Systems, 2014, 3(1): 2672-2680.
    [11]

    HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York, USA: IEEE, 2016: 770-778.
    [12]

    JOHNSON J, ALAHI A, LI F F. Perceptual losses for real-time style transfer and super-resolution[M]. Berlin, Germany: Springer International Publishing, 2016: 694-711.
    [13]

    NAH S, KIM T H, LEE K M. Deep multi-scale convolutional neural network for dynamic scene deblurring[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York, USA: IEEE, 2017: 257-265.
    [14]

    RAMAKRISHNAN S, PACHORI S, GANGOPADHYAY A, et al. Deep generative filter for motion deblurring[C]//Proceedings of the IEEE International Conference on Computer Vision. New York, USA: IEEE, 2017: 2993-3000.
    [15]

    KUPYN O, BUDZAN V, MYKHAILYCH M, et al. DeBlur GAN: Blind motion deblurring using conditional adversarial networks[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2018: 8183-8192.
    [16]

    OUYANG Y. Total variation constraint GAN for dynamic scene deblurring[J]. Image and Vision Computing, 2019, 88: 113-119.
    [17]

    NIMISHA T M, SINGH A K, RAJAGOPALAN A N. Blur-invariant deep learning for blind-deblurring[C]//Proceedings of the IEEE International Conference on Computer Vision. New York, USA: IEEE, 2017: 4762-4770.
    [18]

    TAO X, GAO H, WANG Y, et al. Scale-recurrent network for deep image deblurring[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2018: 8174-8182.
    [19]

    KUPYN O, MARTYNIUK T, WU J, et al. DeBlur GAN-V2: Deblurring (orders-of-magnitude) faster and better[C]//IEEE/CVF International Conference on Computer Vision (ICCV). New York, USA: IEEE, 2019: 8877-8886.
    [20]

    YONG Z, SHAO Y M, XI Z, et al. EDGAN: Motion deblurring algorithm based on enhanced generative adversarial networks[J]. The Journal of Supercomputing, 2020, 76(11): 1-16.
    [21] 郭佑东, 凌福日, 姚建铨. 基于梯度变换的太赫兹图像超分辨率重建[J]. 激光技术, 2020, 44(3): 271-277.

    GUO Y D, LING F R, YAO J Q. Super-resolution reconstruction for terahertz images based on gradient transform[J]. Laser Technology, 2020, 44(3): 271-277(in Chinese). 
    [22]

    QI Q, GUO J, JIN W. Attention network for non-uniform deblurring[J]. IEEE Access, 2020, 8: 100044-100057.
    [23]

    LI X L, LI G, DU Zh L. High fidelity single image blind deblur via GAN[J]. Wireless Networks, 2021, 2: 1-10.
    [24]

    HUANG G, LIU Z, LAURENS V, et al. Densely connected convolutional networks[C] //IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York, USA: IEEE, 2017: 2261-2269.
    [25]

    LEDIG C, THEIS L, HUSZAR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York, USA: IEEE, 2017: 105-114.
  • [1] 贺锋涛吴倩倩杨祎张建磊王炳辉张依 . 基于深度学习的激光散斑图像识别技术研究. 激光技术, 2024, 48(3): 443-448. doi: 10.7510/jgjs.issn.1001-3806.2024.03.022
    [2] 马飞王梓璇刘思雨 . 基于深度图像先验的高光谱图像去噪方法. 激光技术, 2024, 48(3): 379-386. doi: 10.7510/jgjs.issn.1001-3806.2024.03.013
    [3] 吴家洲刘君施佳文张胜 . 激光焊缝图像分割与颜色识别方法研究. 激光技术, 2023, 47(5): 723-728. doi: 10.7510/jgjs.issn.1001-3806.2023.05.022
    [4] 常颖常大俊 . 改进型卷积神经网络焊点缺陷识别算法研究. 激光技术, 2020, 44(6): 779-783. doi: 10.7510/jgjs.issn.1001-3806.2020.06.023
    [5] 李宇豪吕晓琪谷宇张明李菁 . 基于改进S3FD网络的人脸检测算法. 激光技术, 2021, 45(6): 722-728. doi: 10.7510/jgjs.issn.1001-3806.2021.06.008
    [6] 何艳坤白玉杰 . 基于残差偏置和查找表的高光谱图像无损压缩. 激光技术, 2014, 38(5): 643-646. doi: 10.7510/jgjs.issn.1001-3806.2014.05.014
    [7] 李文龙戈海龙任远成巍 . 图像处理技术在激光熔池温度检测的应用. 激光技术, 2018, 42(5): 599-604. doi: 10.7510/jgjs.issn.1001-3806.2018.05.004
    [8] 张海庄姚梅雷萍李鹏曾庆平 . 远场激光光斑图像处理方法研究. 激光技术, 2013, 37(4): 460-463. doi: 10.7510/jgjs.issn.1001-3806.2013.04.010
    [9] 李志国张思将周建忠 . 基于图像特征的红外对抗干扰效果评估方法研究. 激光技术, 2013, 37(3): 413-416. doi: 10.7510/jgjs.issn.1001-3806.2013.03.032
    [10] 崔治邓曙光肖卫初 . 利用HSSIM和残差比阈值的3维激光扫描图像去噪. 激光技术, 2015, 39(5): 669-673. doi: 10.7510/jgjs.issn.1001-3806.2015.05.018
    [11] 汤敏王惠南 . 激光扫描共聚焦显微镜图像的计算机处理. 激光技术, 2007, 31(5): 558-560.
    [12] 张羽鹏王开福 . LabVIEW和MATLAB在电子散斑干涉图像处理中的应用. 激光技术, 2009, 33(6): 582-585,589. doi: 10.3969/j.issn.1001-3806.2009.06.007
    [13] 冯煦张瑞瑛周萍李松 . 大功率半导体线激光图像处理方法研究. 激光技术, 2010, 34(5): 624-627. doi: 10.3969/j.issn.1001-3806.2010.O5.013
    [14] 顾国庆王开福燕新九 . 基于同态滤波的电子散斑干涉图像处理. 激光技术, 2010, 34(6): 750-752,797. doi: 10.3969/j.issn.1001-3806.2010.06.009
    [15] 苏平牛燕雄李大乾牛海莎李易难张超 . 基于面阵CCD的激光告警系统的图像采集与处理. 激光技术, 2013, 37(3): 394-399. doi: 10.7510/jgjs.issn.1001-3806.2013.03.028
    [16] 刘逸飞苏亚姚晓天崔省伟杨丽君周聪聪何松 . OCT无创血糖检测图像处理最优化方法研究. 激光技术, 2023, 47(2): 178-184. doi: 10.7510/jgjs.issn.1001-3806.2023.02.004
    [17] 孟宇帆张丽君何长涛肖婧阳宁静冯国英韩敬华 . 基于图像处理的激光清洗飞机蒙皮特性和机制研究. 激光技术, 2024, 48(3): 303-311. doi: 10.7510/jgjs.issn.1001-3806.2024.03.002
    [18] 张怡霄杜惊雷高福华姚军曾阳素郭永康 . 分数域啁啾滤波及其在数字图像处理中的应用. 激光技术, 2003, 27(1): 78-80.
    [19] 向志聪张程潇白玉磊赖文敬王钦若周延周 . 一种高分辨率3维图像的自适应降噪算法. 激光技术, 2015, 39(5): 697-701. doi: 10.7510/jgjs.issn.1001-3806.2015.05.024
    [20] 李强刘哲南炳炳顾淑音 . 改进的基于邻域嵌入的图像超分辨率重构. 激光技术, 2015, 39(1): 13-18. doi: 10.7510/jgjs.issn.1001-3806.2015.01.003
  • 加载中
图(10) / 表(1)
计量
  • 文章访问数:  1442
  • HTML全文浏览量:  837
  • PDF下载量:  14
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-04-20
  • 录用日期:  2023-01-05
  • 刊出日期:  2023-05-25

基于DDR GAN的低质量图像增强算法

    通讯作者: 吴迪, wudi@suda.edu.cn
    作者简介: 陶昕辰(2001-),男,大学本科生,主要从事图像信号处理与深度学习方面的研究
  • 苏州大学 光电科学与工程学院,苏州 215006
基金项目:  国家级大学生创新创业训练计划资助项目 202110285074S

摘要: 现有图像增强方法在处理模糊且分辨率较低的图像时,因图像的细节缺乏真实性并且存在伪影现象,会导致增强效果较差。为了解决这一问题,采用一种基于深度密集残差生成对抗网络(DDR GAN)的低分辨率模糊图像增强算法,实现了低质量图像的有效增强。首先构建端到端的生成对抗网络框架;然后设计深度密集残差隐特征编码架构,提升对输入图像的深层语义特征表示,增强图像生成效能;最后重构损失函数,添加感知损失以指导模型学习生成图像的真实性。结果表明,相比于目前最先进的增强型超分辨率GAN法(ESR GAN)和第2版去模糊GAN法(DeBlur GAN-V2),DDR GAN生成的图像在视觉效果上更佳,具有更高的清晰度和更丰富的图像细节;在客观评价指标方面,DDR GAN相较于ESR GAN和DeBlur GAN-V2,峰值信噪比分别提高1.7072 dB和1.1683 dB,结构相似度分别提高0.0783和0.0713。该算法对低分辨率模糊图像的复原增强是有帮助的。

English Abstract

    • 伴随着计算机技术领域的持续发展与进步,计算机视觉技术凭借着诸多优势,例如高效率、非接触、低成本等,受到全球专家学者们的着重关注,并且被运用至多个领域当中,诸如:目标检测[1-2]与缺陷探测[3-4]、遥感图像分析[5-6]与行为识别[7-8]领域。然而在实际的图像拍摄期间,难以规避因拍摄目标对象运动和距离过远而得到分辨率较低或模糊的图像的情况发生。倘若针对此类低质量图像施以直接式检测处理,那么检测效果必然会大打折扣,使检测正确率与效率大大降低。所以,应当结合实际情况找到一类能够对低分辨率模糊图像予以显著增强的方法。

      近年来,人工智能技术得到了飞速发展。2006年,HINTON等人[9]经深入研究首次提出深度学习这一基本概念。之后,深度学习技术在图像处理等领域取得了优秀的成绩。2014年,GOODFELLOW等人[10]应用博弈论的思想,创造性地提出了生成对抗网络(generative adversarial networks,GAN)概念,该概念具有极其优秀的图像生成效果。但随着网络层数的逐步加深,训练期间较易发生梯度爆炸或者梯度消失等问题,导致网络退化、误差大幅上升。2016年,HE等人[11]通过在网络中引入残差连接构建残差网络的方法有效解决了该问题。同年,JOHNSON等人[12]提出了一种图像超分辨重建算法,并在损失函数中添加了感知损失项以恢复图像细节。NAH等人[13]则设计了多尺度卷积神经网络结构来增强模糊图像。RAMAKRISHNAN等人[14]在对生成对抗网络和密集卷积神经网络进行深入研究后,将两者结合,更好地优化增强了运动模糊图像,但网络训练效率较低。2018年,KUPYN等人[15]提出去模糊GAN学习法(DeBlur GAN),利用全局残差连接提升了网络的训练速度与泛化性能。2019年,OUYANG等人[16]提出了热成像-不纠缠表示GAN方法(thermal vision disentangled representation GAN, TV-DR GAN),进一步提升了运动模糊图像的恢复质量和网络训练效率,但对于其它原因造成的图像模糊恢复效果仍然有限。针对上述问题,NIMISHA等人[17]将自编码器与生成对抗网络相结合,用于复原其它类型原因造成的图像模糊。以TAO为首的学者们[18]则提出了规模递归网络(scale recurrent network, SRN)去模糊法,其主要是通过对尺度循环神经网络的合理化应用以实现更加优异的去模糊效果。然而此类方法同样存在着一定劣势,即其单帧运行所需耗费的时间过长。2019年,KUPYN等人[19]在第1版DeBlur GAN的基础上提出了第2版DeBlur GAN-V2,通过引入特征金字塔网络(feature pyramid networks,FPN)架构使网络取得了更快更优的性能。2020年,一种新的增强对抗网络模型[20]被提出,可利用特征通道的权重来生成清晰图像。GUO等人[21]将有理分形插值与梯度变换相结合,实现了对太赫兹图像的超分辨率重建。QI等人[22]通过将边缘损失分量引进至损失函数当中的方法,使得恢复图像的边缘更加清晰。2021年,LI等人[23]提出了一种基于GAN的图像高保真盲去模糊方法,通过训练一个模糊核判别器来分析预测生成器提供不正确的模糊核时产生的高分辨率图像的错误,使发生器提供的模糊核更接近实际图像。但结合当下已有技术手段来针对低分辨率模糊图像实施复原处理的过程中,仍旧会出现图像缺乏真实性问题与出现伪影现象问题,这在一定程度上严重阻碍了图像质量的恢复进程,难以确保之后的检测工作得以顺利开展下去。

      为解决上述关键技术问题,本文作者提出了一种基于深度密集残差GAN法(deep dense residual GAN,DDR GAN)的低质量图像增强算法。首先,构建端到端的生成对抗网络框架;进一步地,设计深度密集残差隐特征编码架构,提升对输入图像的深层语义特征表示,并且对图像所具有的相关细节信息予以有效地恢复处理,进而增强图像生成效能;最后,重构损失函数,添加感知损失以指导模型学习生成图像的真实性。

    • 现有的图像增强算法在针对具有低分辨率特征的不清晰图像实施复原处理时,大多数图像通常会出现缺乏真实性问题与出现伪影问题,严重影响增强后图像的质量。为此,本文作者提出一种DDR GAN网络图像增强算法,以增强图像效能。

    • 本文中提出的算法整体结构框架受生成对抗网络启发,其中心思想是源自博弈论当中的纳什均衡这一概念,主要由两部分组成:DDR GAN网络生成器G和网络判别器D,如图 1所示。

      图  1  深度密集残差GAN网络框架

      Figure 1.  Framework of the deep dense residual generative adversarial network

      具有低分辨率特征的模糊图像M,其在历经DDR GAN网络生成器G施行增强手段后,即得到尽可能与清晰图像S相似度较高的生成图像G(M);此后,进一步把G(M)与清晰图像S一同输入至网络判别器D当中,网络判别器D会对G(M)做出评价,输出一个0~1之间的数值,这个值越趋近于1,说明生成图像G(M)越趋近于真实的清晰图像S,这个值又会反向指导G生成与S更加接近的G(M)。生成器G的目标就是让其生成的图像G(M)和与之对应的清晰图像S无限接近;而判别器D的核心目标,即精确判定出所输进的图像究竟归属于清晰图像S亦或是图像G(M)。G与D之间相互对抗、共同优化,最终达到纳什均衡,即当网络判别器D的判别能力已较为优秀后,生成器生成的图像G(M)仍无法被准确识别,这时认为网络达到了最优状态。

    • 当按照传统的网络连接方式顺序连接卷积层时,信息存在着一定的损耗与丢失,随着网络结构深度的增加,网络会出现退化问题,导致训练误差大幅度上升。残差网络(residual network,ResNet)通过一条通道将输入输出直接连接起来,减少了信息的损耗。残差网络的本质,即是数个包含前馈卷积网络与跳跃连接的残差块单元(residual block, RB)连接而成。假定C(x)代表着需要求解的潜在映射,x象征着残差块的实际输入,那么即可合理运用输出和输入之间所堆叠在一起的非线性多层网络以进行拟合处理,进而获取到相应的残差映射函数,具体表现为H(x)=C(x)-x。设恒等映射C(x)=x为网络最优解,则使得H(x)拟合0远易于使C(x)拟合x。通常情况下,尽管最优解相比于恒等映射来说更为复杂,然而此等残差结构的存在能够使最优解范围被划定出来,进而能够提出一个具备着合理性的基本假定条件,对实际训练过程施以简化处置。残差网络中的残差块单元结构,如图 2所示。

      图  2  残差网络中的残差块单元

      Figure 2.  Residual block unit of the residual network

      图中,conv(convolution)代表卷积层, ReLU(rectified linear unit)代表激活层。相较于传统意义上的前馈卷积网络来讲,残差网络则更加容易被施以优化处理,且搭建难度低,只需在原网络中添加一个跳跃连接,同时,由于不需要担心过深的深度导致的网络退化问题,只需通过增加深度的方法就可以提高网络性能。

      DDR GAN网络生成器G主要是将密集残差网络(residual in residual dense block,RRDB)[24]作为主要网络单元,其基本结构如图 3所示。

      图  3  RRDB网络结构

      Figure 3.  RRDB network structure

      图中,dense block为密集块,数个密集块依照残差连接共同组成一个密集残差网络。此外,各密集块的输出和输入间均构成了残差映射,而整个网络在实际运作的过程中同样构成了残差映射。应用此等运作方式,RRDB即能够顺利获得网络的全局特征。RRDB当中各密集块的详细结构,如图 4所示。

      图  4  密集块结构

      Figure 4.  Dense block structure

      图中,LReLU(leaky rectified linear unit)为稀疏型ReLU层,也是激活层。各卷积层均可以获得其前端全部卷积层所输出的相关信息内容,即在一定程度上有助于特征信息得以顺利复用,进而减小梯度消失带来的影响。此外,各卷积层后端均未增添批量归一化层,可确保网络结构的简化,推进深度网络的构建。

    • DDR GAN网络生成器能够针对所输进的全部模糊图像进行增强。其核心目标,即促使所产生的图像无限相似于真实的清晰图像,使判别器没有办法对图像的实际来源进行及时准确的分辨。生成器结构如图 5所示。

      图  5  生成器结构

      Figure 5.  Generator structure

      头部由3个卷积-激活模块构成,包含了卷积层、实例归一化层(instance normalization, IN)与激活层ReLU,用于提取图像特征并扩张图像通道数,然后串联6个残差块构成的残差网络, 以进一步对图像的残差特征进行提取;随后,针对图像实施转置卷积(convTranspose)处理,并串联3个通道的卷积层, 以初步增强图像清晰度。通过卷积层以针对图像特征予以再度提取处理,输入到9个RRDB组成的密集残差网络当中,利用其密集连接机制最大限度地获取每一层卷积信息,完善图像的细节信息,再合理应用像素重排模块(pixel shuffler)以成功实现图像分辨率的提升;最后,接一层规格为3×3的卷积层以实现图像的向外输出。

    • 判别器网络的核心目标在于能够精确判定出所输进的图像究竟归属于清晰图像还是由生成器所产生的图像,并最终对图像进行评价,输出图像为真实清晰图像的概率。网络整体遵循全卷积神经网络样式设计,结构如图 6所示。

      图  6  判别器结构

      Figure 6.  Discriminator structure

      图中,conv为卷积层,LReLU为激活层,BN(batch normalization)为批量归一化层。网络首先利用数个卷积模块以针对图像实施降采样处理,提取图像特征信息; 然后通过维度1024的全连接层(Dense(1024));最后经维度为1的全连接层(Dense(1))以及sigmoid函数,将相应的判定结果输出。

    • 本文中提出的DDR GAN网络,其整体目标是针对所输进的模糊图像施以增强处理,判别器网络和生成器网络在训练期间构成对抗局面,其中判别器的最终目标是准确判断输入图片来源于真实图像还是生成图像,其损失函数如下式所示:

      $L_{\mathrm{d}}=-E_{x_i}\left[\lg D\left(\boldsymbol{x}_i\right)\right]-E_{x_j}\left[\lg \left(1-D\left(\boldsymbol{x}_j\right)\right)\right] $

      (1)

      式中,xi表示图像来自于真实清晰图像集prxj表示图像来自于生成器生成图像集pfD表示判别器输出的概率值,E表示分布函数的期望值。

      DDR GAN网络生成器的终极目标是成功输出和清晰图像相接近的伪清晰图像。对抗损失函数如下式所示:

      $ L_{\mathrm{a}}=\sum\limits_{o=1}^n-\lg D\left(G_o\left(\boldsymbol{p}_{\mathrm{m}}\right)\right) $

      (2)

      式中, Go(pm)即象征着经生成器网络所向外输出的生成图像;而D(Go(pm))则象征着判别器把相应的生成图像判定成清晰图像的实际概率。

      当对抗损失为唯一优化目标时,生成图像当中较易产生部分伪影[25],影响图像质量。而DDR GAN网络则是通过添加感知损失的基本方法处置好此问题,进而增强图像生成真实性,其定义如下式所示:

      $ \begin{gathered} L_{\mathrm{p}}=\frac{1}{W_{i, j} H_{i, j}} \sum\limits_{x=1}^{W_{i, j}} \sum\limits_{y=1}^{H_{i, j}}\left\{\left[\boldsymbol{\Phi}_{i, j}\left(\boldsymbol{p}_{\mathrm{r}}\right)\right]_{x, y}-\right. \\ {\left[\boldsymbol{\Phi}_{i, j}\left[G\left(\boldsymbol{p}_{\mathrm{m}}\right)\right]_{x, y}\right\}^2} \end{gathered} $

      (3)

      式中, Φi, j即象征图片在视觉几何组19(visual geometry group, VGG)第i个最大池化层之前、第j个卷积层激活完毕以后的特征映射;而Wi, jHi, j则代表着该特征图的宽和高; x, y分别是特征图像之上的像素点横坐标与纵坐标。

      最终生成器的损失总计即为感知损失和对抗损失两者的和,如下式所示:

      $ L_{\mathrm{g}}=L_{\mathrm{a}}+\gamma L_{\mathrm{p}} $

      (4)

      通过实验测试可知:当公式内的系数γ=100时,总损失函数针对网络训练所起到的优化成效即为最优。

      本节中从整体网络结构、生成器网络、判别器网络、损失函数4个方面,详细描述了所提出的基于DDR GAN网络的图像增强算法。于网络结构当中适度引进RRDB以及RB,进而合理处置好梯度消失这一难题,在一定程度上提高了网络运作性能,确保通过增强处理以后的图像质量能够达至最优;与此同时,将感知损失项添加至损失函数当中,以进一步确保生成图像更为真实。

    • 本文中所构建的DDR GAN网络软件采用PyTorch 1.9搭建,实验中所用GPU为NVIDIA GeForce RTX 2060,运行内存16 G。为验证本文作者所提方法的有效性,引入大规模图像数据集GoPro,该数据集由一系列真实自然场景的清晰/模糊视频图像组成,场景丰富,并提供了2103对模糊和1111对清晰的图像用于模型的训练与测试。为公平对比本文中方法与最新的研究算法的性能,采用GoPro数据集所提供的默认训练样本和测试样本。

      本文中网络训练采用Adam优化器,初始学习率为2×10-4,并使用学习率衰减,每5个训练期学习率乘以0.5,网络训练的总期数设置为100,batch-size设置为64。交替更新生成器和判别器网络实施训练处理,即更新比率设置为1。

    • 采用峰值信噪比(peak signal-to-noise ratio, PSNR)和结构相似性(structural similarity, SSIM)来评价输出图片的质量。

      PSNR是一个能够和两图像像素均方误差存在显著关联的基础指标。换句话说,即象征着两图片基于像素层中所展现出来的实际相似度。倘若该数值愈大,即意味两图片像素愈发相似,其定义为:

      $ \begin{gathered} E_{\mathrm{MSE}}=\frac{1}{A B} \sum\limits_{m=1}^A \sum\limits_{n=1}^B\left[\boldsymbol{p}_{\mathrm{r}}(m, n)-G\left(\boldsymbol{p}_{\mathrm{m}}\right)(m, n)\right]^2 \end{gathered} $

      (5)

      $ R_{\mathrm{PSNR}}=10 \lg \left[\frac{\left(2^n-1\right)^2}{E_{\mathrm{MSE}}}\right] $

      (6)

      式中,下标MSE表示生成图像和清晰图像之间的均方差(mean square error);A是图像高度,B是图像宽度。此外,mn分别表示像素的横纵坐标,pr表示具有真实性特征的清晰图像集,G(pm)为生成图像,2n-1则表示可能存在的最大像素数值。

      SSSIM代表两图像基于对比度方面、结构方面以及亮度方面的相似度, 此数值愈接近数值1,则意味着图像间的相似度越高。其定义为:

      $ \left\{\begin{array}{l} S_{\mathrm{SSIM}}=\frac{\left(2 \mu_{\boldsymbol{p}_{\mathrm{r}}} \mu_{\boldsymbol{p}_{\mathrm{f}}}+C_1\right)\left(2 \sigma_{\boldsymbol{p}_{\mathrm{r}} \boldsymbol{p}_{\mathrm{f}}}+C_2\right)}{\left(\mu_{\boldsymbol{p}_{\mathrm{r}}}^2+\mu_{\boldsymbol{p}_{\mathrm{f}}}{ }^2+C_1\right)\left(\sigma_{\boldsymbol{p}_{\mathrm{r}}}^2+\sigma_{\boldsymbol{p}_{\mathrm{f}}}{ }^2+C_2\right)} \\ C_1=\left(k_1 R\right)^2 \\ C_2=\left(k_2 R\right)^2 \end{array}\right. $

      (7)

      式中, μprμpf表示真实清晰图像和生成图像之间的平均数值;σprσpf则表示两图像之间的标准差;σpr pf表示两图像间的协方差; C1C2为稳定性常数; R表示像素值的实际动态范畴; k1=0.01,k2=0.03。

    • DDR GAN网络损失函数变化曲线如图 7所示。随着迭代次数增加,判别器与生成器的损失函数呈现出慢慢收敛趋势,曲线在后期有小幅度的波动,说明网络已达到了纳什均衡,判别器已拥有一定的判别能力,但仍无法判断输入图像为生成图像还是真实清晰图像。

      图  7  训练损失变化曲线图

      Figure 7.  Training loss curve

    • 为进一步展现本文中算法所具有的优越性特征及有效性特征。将本文中算法和增强型超分辨率生成对抗网络(enhanced super-resolution generative adversarial network,ESR GAN)及DeBlur GAN-V2的实际效能相比较,以上所提到的对比算法,均是当下增强低质量模糊图像的有效算法。基于相同实验环境下,在GoPro数据集中选择出具有经典意义的低分辨率模糊图像以实施增强手段处置。测试图片如图 8~图 10所示。

      图  8  建筑物的对比结果

      Figure 8.  Comparison results of building

      图  9  汽车的对比结果

      Figure 9.  Comparison results of car

      图  10  广场的对比结果

      Figure 10.  Comparison results of square

      图 8b图 9b图 10b可以看出,ESR GAN针对图像所起到的增强效果存在一定局限,所获取到图像当中的物体外形依旧存在明显的失真。而由DeBlur GAN-V2所获取到的图 8c图 9c图 10c可知,尽管对图像的实际运动模糊予以去除,但细节信息依旧存在着缺失,图像边缘未能够得以有效恢复。本文中算法表现最优,其生成的图 8d图 9d图 10d,在大众肉眼看来则更为清楚,相应细节信息的丰富度更为显著,同时获取到更明显的边缘。

    • 使用SSIM及PSNR这两项基础指标,进一步衡量生成图像和真实清晰图像两者间的相似度,对网络图像增强的实际效果施以定量性评测处理,在GoPro数据集中采用五折交叉验证实验中得到的结果, 如表 1所示。

      表 1  算法对比结果

      Table 1.  Comparison of results for different algorithms

      evaluation criterion ESR GAN DeBlur GAN-V2 our algorithm
      PSNR/dB 20.3371 20.8760 22.0443
      SSIM 0.6570 0.6640 0.7353
      running time/s 0.326 0.293 0.596

      从表中可以看出:将本文中所提算法和DeBlur GAN-V2以及ESR GAN予以比较,PSNR分别提高1.7072 dB和1.1683 dB,SSIM分别提高0.0783和0.0713。同时,对各算法的平均单帧运行时间进行测算,ESR GAN为0.326 s,DeBlur GAN-V2为0.293 s,而本文中算法为0.596 s,相较于前两种算法时间有所增加,但仍属于亚秒级。

      本节中通过一系列的图像增强实验,进而针对基于DDR GAN的网络的低分辨率模糊图像增强算法的效果予以验证处理。经实验结果可知:本文中所提出的算法能够对具有低分辨率特征的模糊图像施以显著增强,可为目标检测、跟踪等后续任务提供更为清晰的增强图像,提升任务效能。

    • 提出了一种基于DDR GAN网络的低质量图像增强算法,以生成对抗网络为基准框架, 设计深度密集残差模块以提升隐特征表达性能,抑制梯度消失,增强图像生成效能;利用感知损失项进一步提高生成图像的真实特性。基于大规模合成图像数据集GoPro的对比实验结果表明:在视觉效果方面,相较于ESR GAN和DeBlur GAN-V2两种现有最先进算法,本文中算法生成的图像具有更高的清晰度;在客观评价标准方面,与ESR GAN和DeBlur GAN-V2相比,本文中算法的PSNR分别提高1.7072 dB和1.1683 dB,SSIM分别提高0.0783和0.0713,充分验证了本文作者所提算法能够对具有低分辨率特征的模糊图像予以显著增强,进而生成高分辨率清晰图像。

      除复原效果外,实时性也是评价图像增强算法的一项重要指标,对各算法的平均单帧运行时间进行测算,ESR GAN为0.326 s,DeBlur GAN-V2为0.293 s,而本文中算法为0.596 s,相较于前两种算法时间有所增加,但仍属于亚秒级。未来将考虑进一步优化网络结构,减少网络参数数量,减少单帧运算时间;与此同时,虽然本文中算法有较好的图像增强复原效果,但仅停留在对于静态图像的增强,未来将考虑将网络应用于连续视频场景下,通过在网络结构中引入对视频多帧信息的提取来实现对低分辨率模糊视频的增强。

参考文献 (25)

目录

    /

    返回文章
    返回