使用多核CPU-GPU异构系统快速生成计算全息图

马先栋; 桂进斌; 陈艾帅; 刘俊彤

doi:10.7510/jgjs.issn.1001-3806.2024.02.010

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名

邮箱

手机号码

标题

留言内容

验证码

使用多核CPU-GPU异构系统快速生成计算全息图

昆明理工大学理学院, 昆明 650500, 中国

通讯作者: 桂进斌, jinbingui@163.com ;

基金项目:

国家自然科学基金资助项目 62065010

国家自然科学基金资助项目 61565011

国家自然科学基金资助项目 62165007

中图分类号: O438.1

Fast generation of CGH using multi-core CPU-GPU heterogeneous system

College of Science, Kunming University of Science and Technology, Kunming 650500, China

Corresponding author: GUI Jinbin, jinbingui@163.com ;

CLC number: O438.1

摘要: 为了充分利用计算机的计算性能提高基于点源模型的计算全息图(CGH)的生成速度, 设计了基于多核中央处理单元(CPU)和图形处理单元(GPU)的计算全息图快速生成系统, 并对该系统进行了优化。首先采用统一架构平台设计并实现了基于点源模型的计算全息图生成系统, 提出了计算的优化策略; 然后根据优化的计算公式来减少计算量; 最后对任务调试等进行优化, 构建CPU的并行计算系统, 其中一个核心负责启动函数和传输数据, 其余核心承担一部分计算任务, 进一步提高计算速度。结果表明, 设计的系统能让CPU和GPU的性能均得到充分利用, 在同等配置的计算硬件条件下, 生成计算全息图的加速比较GPU系统计算全息图的加速比提高了4~4.75倍, 可以有效提高计算全息图的生成速度。该研究对快速生成3维场景全息图是有帮助的。

Abstract: In order to make full use of the computing performance of the computer to improve the speed of computer-generated hologram(CGH) based on the point source model, a fast CGH generation system based on a multi-core central processing unit (CPU) and graphics processing unit (GPU) was designed and optimized in this paper. First of all, the system used the unified architecture platform to design and implement a CGH generation system based on the point source model and proposes the optimization strategy of computing. Then, an optimized calculation formula was proposed to reduce the amount of calculation. Finally, the task debugging was optimized to build a CPU parallel computing system. One of the cores was responsible for startup and function, and data transmission, while the other cores undertook some computing tasks to further improve the computing speed. The results show that, the designed system makes full use of the performance of both CPU and GPU. Under the same configuration of computing hardware, the speedup ratio of CGH generation is 4~4.75 times higher than that of CGH generation in a single GPU system. Heterogeneous systems can effectively improve the generation speed of computer-generated holograms. The research is helpful for generating a 3-D scene hologram quickly.

Key words:

number of points

2354

4708

9416

11770

21174

42348

time spent by CPU-GPU system/ms

347

622

1138

1415

2521

4962

time spent by GPU system/ms

1417

2753

5366

6608

11840

23539

speedup ratio

4.08

4.43

4.72

4.67

4.70

4.74

number of points

101168

202336

404672

1018748

2037496

time spent by CPU-GPU system/ms

11763

23912

47558

120979

242568

time spent by GPU system/ms

56545

113783

227851

575493

1151167

speedup ratio

4.81

4.76

4.79

4.76

4.75

使用多核CPU-GPU异构系统快速生成计算全息图

通讯作者: 桂进斌, jinbingui@163.com;

昆明理工大学理学院, 昆明 650500, 中国

收稿日期: 2023-02-09

录用日期: 2023-04-20

网络出版日期: 2024-03-25

基金项目: 国家自然科学基金资助项目 62065010国家自然科学基金资助项目 61565011国家自然科学基金资助项目 62165007

关键词:

全文HTML

0. 引言

全息显示技术能够把物体的波前完整地重建出来，提供真实的视觉感受，因而成为国内外真3维显示技术的研究热点^[1-4]。计算全息是其中的一个重要部分，它是现代光学和计算机技术相结合的产物^[5-6]，它不需要搭建实际光路，通过计算机仿真计算就可以生成虚拟物体的全息图，具有很高的灵活性和重复性。目前生成计算全息图的方法主要分为两种: 一种是面元法^[7-9]，它的核心是将空间中的3维物体分割为许多不同形状的面元，把物光波视为这些面发出光波的叠加；另一种是点源法^[10-13]，它将空间中的3维物体采样离散为许多的点，物光波视为这些点发出光波的叠加。点源法具有原理简单、操作灵活的优势，而且通过点源法生成的计算全息图有着较好的重建质量，所以点源法有着巨大的潜力。但是，为了得到高质量的重建像，需要对3维物体采集大量的点数据，并进行大量运算，普通计算机很难达到生成计算全息图的实时计算的要求。

为了提高点源法的计算速度，LUCENT等人提出了查找表法(look-up table, LUT)^[14]。LUT方法预先计算每个可能位置点源的干涉条纹图样并储存起来，实时计算时只需读取图样并进行叠加，极大地缩短了线上的运算时间，但是预先计算的数据表需要庞大的内存空间；基于点源模型计算全息图的另一种方法是波前记录平面法^[12]，其核心在于在物体附近定义一个平面，该平面与全息面平行且等大，计算每个点源在该平面上贡献的复振幅，而不需要计算在全息面的复振幅叠加。该算法通过降低计算机全息图(computer-generated hologram, CGH)的计算复杂度来大幅提高了计算速度，但是其缺点是不能记录大于全息图尺寸的物体。

随着计算机技术的快速发展，提高计算速度的方法不再局限于算法的改进，将高性能硬件与算法结合成为了广大学者更优的选择。日本学者使用可编程逻辑器件构建了专门用于全息计算的硬件系统^[15]，使全息图的计算速度有了巨大的提升，但是由于计算全息专用硬件系统的成本过高，所以没有被广泛地应用，相比之下，图像处理单元(graphic processing unit, GPU)低成本、高性能^[16-20]，因此成为了许多研究人员的首选。

AHRENBERG等人采用OpenGL对GPU编程，有效地提高了计算全息图的生成速度^[21]。TAKADA等人使用多GPU系统计算生成全息图，使得计算速度得到极大的提升^[22]。但是目前利用GPU生成计算全息图都是使中央处理器(central processing unit, CPU)和GPU以串行方式工作，CPU与GPU总是只会有一个在工作状态，另一个处于等待状态，硬件得不到充分利用，导致计算速度减慢。为了高效地利用CPU和GPU异构系统计算全息图的计算性能，本课题组先期已经做了初步的报道^[23]，但在这篇文献中只是简单地实现了CPU和GPU异构系统并行计算全息图，并未对该系统进行优化处理，存在着不足。本文中为了进一步优化CPU和GPU异构系统并行计算全息图的性能，提出了数据处理与任务调度重叠并行的计算方法, 然后基于CPU和GPU异构系统的重叠并行的计算方法，进行全息图计算公式简化、任务分配、共享内存优化等, 设计并实现了CPU-GPU异构系统用于快速生成计算全息图。

5. 结论

在点源模型计算全息图的原理上，设计了基于多核CPU和GPU的异构并行系统，并对该系统使用了全息图计算公式简化、任务分配、共享内存等优化方法，提高了CPU-GPU异构系统的计算性能，实验验证了系统的可行性。在本文中的硬件条件下，实验结果表明, 计算全息图的加速比较GPU系统的加速比至少提高4倍左右，说明设计的系统能有效地解决点源模型计算全息图缓慢的问题。

在今后的实验中，本文作者准备采用更高性能的GPU和CPU，从而达到全息图的实时计算。但实际上，在GPU性能有大幅提升的情况下，CPU的性能也应同步提升，否则在GPU性能远远超过CPU性能时，使用异构系统反而会让运算速度较GPU系统的运算速度更慢。这是因为高性能的GPU能快速地将高并发的大量任务在短时间内完成，而数据的传输任务只能靠CPU串行执行，当CPU性能过差时，就会导致在传输数据上花费过多时间，并且能分配给CPU执行的任务量也较少。因此，提升CPU性能是很有必要的，它不仅能帮GPU承担更多的任务量，而且能及时将处理完成的数据传走，并喂进新的数据，让GPU处于满负荷的工作状态, 使该异构系统的计算速度得到很大的提升。

参考文献 (23)

[1]	SAHIN E, STOYKOVA E, MKINEN J, et al. computer-generated holograms for 3D imaging: A survey[J]. ACM Computing Surveys, 2020, 53(2): 1-35.
[2]	ATHANASIA S, DAVID B, PETER S. Color computer-generated holography for point clouds utilizing the Phong illumination model[J]. Optics Express, 2018, 26(8): 10282-10298. doi: 10.1364/OE.26.010282
[3]	曾胜财, 甘亮勤. 编码法制彩色动态全息[J]. 激光技术, 2021, 45(2): 229-232. ZENG Sh C, GAN L Q. Making color dynamic holograms by the coding method[J]. Laser Technology, 2021, 45(2): 229-232(in Ch-inese).
[4]	刘柳, 姚燕, 蔡晋辉, 等. 基于数字全息的甲烷-氧气预混火焰温度场研究[J]. 激光技术, 2022, 46(3): 408-414. LIU L, YAO Y, CAI J H, et al. Study on methane-oxygen premixed flame temperature field based on digital holography[J]. Laser Technology, 2022, 46(3): 408-414(in Chinese).
[5]	REN N, KOHEI S, YOSHIKI M. Real-time gradation-expressible amplitude-modulationtype electroholography based on binary-weighted computer-generated hologram[J]. Chinese Optics Letters, 2021, 19(11): 110501. doi: 10.3788/COL202119.110501
[6]	金晓宇, 桂进斌, 刘超, 等. 基于点源模型计算全息图快速生成算法的研究进展[J]. 激光与光电子学进展, 2018, 55(10): 100005. JIN X Y, GUI J B, LIU Ch, et al. Research progress of fast algorithm for cgh generation based on point source model[J]. Laser & Opto-electronics Progress, 2018, 55(10): 100005(in Chinese).
[7]	ZHAO Y, SHI C X, KWON K C, et al. Optics communications fast calculation method of computer-generated hologram using a depth camera with point cloud gridding[J]. Optics Communications, 2018, 411: 166-169. doi: 10.1016/j.optcom.2017.11.040
[8]	MATSUSHIMA K, NAKAHARA S. New techniques for wave-field rendering of polygon-based high-definition CGHs[J]. Proceedings of the SPIE, 2011, 7957: 79571A. doi: 10.1117/12.876362
[9]	PAN Y J, WANG Y T, LIU J, et al. Fast polygon-based method for calculating computer-generated holograms in three-dimensional display[J]. Applied Optics, 2013, A52(1): 290-299.
[10]	KIM S C, KIM E S. Effective generation of digital holograms of three-dimensional objects using a novel look-up table method[J]. Applied Optics, 2008, D47(19): 55-62.
[11]	JIA J, WANG Y, LIU J, et al. Reducing the memory usage for e-ffective computer-generated hologram calculation using compressed look-up table in full-color holographic display[J]. Applied Optics, 2013, 52(7): 1404-1412. doi: 10.1364/AO.52.001404
[12]	SHIMOBABA T, MASUDA N, ITO T. Simple and fast calculation algorithm for computer-generated hologram with wavefront recording plane[J]. Optics Letters, 2009, 34(20): 3133-3135. doi: 10.1364/OL.34.003133
[13]	吴凯. 基于点源调控的视窗全息动态3维显示方法研究[D]. 苏州: 苏州大学, 2020. WU K. Research on dynamic 3D display method of window holography based on point source control[D]. Soochow: Soochow University, 2020(in Chinese).
[14]	LUCENT E, MARK E. Interactive computation of holograms using a look-up table[J]. Journal of Electronic Imaging, 1993, 2(1): 28-34. doi: 10.1117/12.133376
[15]	OKADA N, HIRAI D, ICHIHASHI Y, et al. Special-purpose computer HORN-7 with FPGA technology for phase modulation type electro-holography[C]//International Display Workshops. New York, USA: IEEE, 2012: 1284-1287.
[16]	TOMOYOSHI S, TOMOYOSHI I, NOBUYUKI M, et al. Fast calculation of computer-generated-hologram on AMD HD5000 series GPU and OpenCL[J]. Optics Express, 2010, 18(10): 9955-9960. doi: 10.1364/OE.18.009955
[17]	TAKADA N, SHIMOBABA T, NAKAYAMA H, et al. Fast high-resolution computer-generated hologram computation using multiple graphics processing unit cluster system[J]. Applied Optics, 2012, 51(30): 7303-7307. doi: 10.1364/AO.51.007303
[18]	蒋晓瑜, 丛彬, 裴闯, 等. 一种基于新型查表方法的统一计算设备架构并行计算全息算法[J]. 光学学报, 2015, 35(2): 0209001. JIANG X Y, CONG B, PEI Ch, et al. A parallel algorithm based on a new table lookup method for unified computing device architecture[J]. Acta Optica Sinica, 2015, 35(2): 0209001(in Chinese).
[19]	PAN Y, XU X, SOLANKI S, et al. Fast CGH computation using S-LUT on GPU[J]. Optics Express, 2009, 17(21): 18543-18555. doi: 10.1364/OE.17.018543
[20]	许可, 王星儿, 范旭浩, 等. 超表面全息术: 从概念到实现[J]. 光电工程, 2022, 49(10): 220183. XU K, WANG X E, FAN X H, et al. Meta-holography: From concept to realization[J]. Opto-Electron Engineering, 2022, 49(10): 220183(in Chinese).
[21]	AHRENBERG L, BENZIE P, MAGNOR M, et al. Computer gene-rated holography using parallel commodity graphics hardware[J]. Optics Express, 2006, 14(17): 7636-7641. doi: 10.1364/OE.14.007636
[22]	TAKADA N, SHIMOBABA T, NAKAYAMA H, et al. Fast high-resolution computer-generated hologram computation using multiple graphics processing unit cluster system[J]. Applied Optics, 2012, 51(30): 7303-7307. doi: 10.1364/AO.51.007303
[23]	JIN X Y, GUI J B, JIANG Zh X, et al. Fast calculation of computer generated hologram using multi-core CPUs and GPU system[J]. Proceedings of the SPIE, 2018, 1117: 10818.

[1]	简献忠 , 周海 , 乔静远 , 李莹 , 王佳 . 基于全变差重构算法的数字全息研究. 激光技术, 2014, 38(2): 236-239. doi: 10.7510/jgjs.issn.1001-3806.2014.02.019
[2]	盛兆玄 , 王红霞 , 何俊发 , 王君 , 赵玮 . 不对称分数傅里叶变换计算全息. 激光技术, 2005, 29(3): 295-296,303.
[3]	王红霞 , 盛兆玄 , 毛彩荣 . 双随机相位不对称分数傅里叶变换计算全息. 激光技术, 2005, 29(6): 620-622.
[4]	胡振华 , 伏云昌 , 张永安 , 杜源 . 组件对象模型技术在数字全息中的应用. 激光技术, 2011, 35(5): 586-588. doi: 10.3969/j.issn.1001-3806.2011.05.003
[5]	简献忠 , 张晗 , 范建鹏 , 周志刚 . 基于FPGA技术的计算全息研究. 激光技术, 2012, 36(1): 26-28,32. doi: 10.3969/j.issn.1001-3806.2012.01.008
[6]	盛兆玄 , 孙新利 . 计算全息技术在光学相关识别中的应用. 激光技术, 2008, 32(1): 61-63.
[7]	钱国林 , 李朝明 , 陈新荣 , 邹文龙 , 吴建宏 . 全息拼接光栅的误差研究. 激光技术, 2013, 37(6): 747-751. doi: 10.7510/jgjs.issn.1001-3806.2013.06.009
[8]	李勇 , 毛磊 , 章海军 , 马利红 , 王辉 . 基于并行计算的实时数字全息显微镜. 激光技术, 2015, 39(2): 152-156. doi: 10.7510/jgjs.issn.1001-3806.2015.02.002
[9]	裴闯 , 蒋晓瑜 , 王加 , 宗艳桃 . 基于迭代傅里叶变换的3维全息图计算新方法. 激光技术, 2013, 37(3): 347-352. doi: 10.7510/jgjs.issn.1001-3806.2013.03.018
[10]	张建强 , 张亚萍 , 吴上 , 陈伟 , 王鹏 . 计算全息快速获得不同形式再现像的研究. 激光技术, 2013, 37(1): 40-43. doi: 10.7510/jgjs.issn.1001-3806.2013.01.010
[11]	周效东 , 汤伟中 , 周文 . 全光纤全息技术的研究与实现. 激光技术, 1995, 19(2): 115-118.
[12]	戴欣冉 , 钱晓凡 , 徐天杰 . 同轴菲涅耳全息中提取相位的算法. 激光技术, 2014, 38(2): 172-176. doi: 10.7510/jgjs.issn.1001-3806.2014.02.006
[13]	王晓惠 , 刘超 , 陆英仕 , 楼宇丽 . 基于彩色数字全息的透镜焦距检测. 激光技术, 2015, 39(4): 562-565. doi: 10.7510/jgjs.issn.1001-3806.2015.04.030
[14]	魏亚运 , 周昕 , 王梦婷 , 呼有军 . 基于光学扫描全息测量相位物体的相位分布. 激光技术, 2016, 40(6): 820-824. doi: 10.7510/jgjs.issn.1001-3806.2016.06.010
[15]	郑小丹 , 刘东 , 陶世荃 , 王大勇 . 正交读出方式体全息光栅通信波长衍射特性. 激光技术, 2009, 33(2): 113-116.
[16]	陈翠茹 , 王华英 , 赵宝群 , 王学 , 朱巧芬 , 王杰宇 , 王文健 , 雷家良 . 基于UMnet的数字全息相位解包裹. 激光技术, 2023, 47(1): 73-79. doi: 10.7510/jgjs.issn.1001-3806.2023.01.011
[17]	程阳 . 1维全息光子晶体的偏振特性. 激光技术, 2010, 34(2): 279-281. doi: 10.3969/j.issn.1001-3806.2010.02.037
[18]	王霄 , 季进清 , 张惠中 , 刘会霞 . 基于全息技术的激光透射塑料焊接研究. 激光技术, 2008, 32(5): 510-512.
[19]	向东 , 桂进斌 , 刘超 , 郑立婷 , 楼宇丽 , 宋庆和 . 数字全息波前准确重建的实验研究. 激光技术, 2017, 41(3): 406-410. doi: 10.7510/jgjs.issn.1001-3806.2017.03.020
[20]	王华英 , 王广俊 , 谢建军 , 赵洁 , 王大勇 . 数字全息显微中的准直光再现. 激光技术, 2008, 32(2): 131-133,136.

留言板