基于NeRF的文物建筑数字化重建

2023-03-20 02:58程斌杨勇徐崇斌李国帅任镤高致

航天返回与遥感 2023年1期

程斌杨勇徐崇斌,* 李国帅任镤高致

基于NeRF的文物建筑数字化重建

程斌1杨勇2徐崇斌2,*李国帅2任镤3高致2

（1 中国空间技术研究院杭州中心，杭州 310012）（2 北京空间机电研究所，北京 100094）（3 北京印刷学院，北京 102600）

文物古迹建筑在历史的发展中不断丢失其本身的特征，在时间的推移中不断改变或消失。因此，如何精确的测量保存当前文物的历史风貌是一个亟需解决的问题。数字化建模可以最大程度地保存文物在当前时期的外观特征，因此将数字化建模应用到文物重建中具有重要意义。文物重建任务中用到的大多依旧是传统的基于视觉的重建方法，这种方法一般需要多个视点图像，并且负担极高的时间成本，对于大量文物古迹的重建与更新是不够高效的。针对这一问题，文章通过无人机拍摄遥感影像完成数据采集，引入神经辐射场（Neural Radiance Fields，NeRF）方法进行文物古迹的数字化重建，构建体素，完成目标渲染。该方法可以在10min左右实现较好的重建效果，并且避免传统网格重建结果中孔洞的出现，给文物古迹建筑的重建提供了新的思路。

遥感影像文物保护三维重建神经辐射场

0 引言

文物古迹是每一个历史时期文化的重要见证，是研究历史、追本溯源的重要信息来源。随着时间推移，许多文物逐渐风蚀，丢失其本身的历史风貌。这一点在古迹建筑中更为常见。但作为地标建筑，其本身便自带不可移动性，给建筑文物的保护带来了难题，文物保护的推进已经刻不容缓。

三维重建技术的发展给文物保护带来了新的解决方向。通过对文物的数字化重建，可以最大程度地保存文物本身的结构信息和纹理信息。近年来，三维重建方法[1]发展十分迅速。1963年，Roberts等人[2]提出将图像转换为三维表示后，基于视觉的方法就在重建领域中逐步占据主流。自此，结构光、立体匹配、三角测距等多种方法层出不穷，共同促进三维重建领域快速发展。这些方法大多通过测量或者特征匹配的方式获取物体的深度信息，再通过点云配准融合与表面网格生成的方式获取目标三维模型，并且已经很好地落地在实际生产应用中。

随着人工智能技术的快速发展，深度学习快速席卷各大工业领域。基于深度学习的三维重建算法发展迅速，并以其高效、快速的优势逐步获得研究人员青睐。但是由于结构上的复杂性，基于表面（点云、网格）的重建很难适用于深度学习的训练，而基于体素的重建在神经网络重建中更加常见。这种方法通过将图像像素投影为三维空间中的体素，在三维重建中展现了独特的优势。而后，神经辐射场[3]（Neural Radiance Fields，NeRF）的提出为体素重建的进展作出了巨大贡献，基本成为了未来一段时间内三维重建发展的主流路线。它大大增强了渲染图像的真实效果，并且基于图像的损失计算方法使神经渲染的结果更加趋近于观测图像。通过图像与相机参数生成体素，并不断训练调整体素重建效果，最终能够渲染得到趋近真实的结果。受限于机器算力与算法本身的局限性，NeRF的训练通常同样消耗大量的时间。针对这一问题，2021年Thomas等人[4]将哈希编码融入到NeRF中，大大缩短了神经渲染的训练时间。目前，文物古建筑重建领域大部分采用的依旧是传统方法，而对NeRF的相关方法几乎不曾涉及。

另外，在遥感技术领域，针对大范围的古迹建筑场景数字化问题，通常采用无人机巡航摄影的方法采集多视角观测图像，并对图像进行特征提取与融合从而估计场景点云，完成场景重建。此类方法一般需要大批量不同视角的图像，在相机姿态估计后进行点云的融合与配准，这一步骤将会消耗大量时间成本。因此，进行高效、快速地对建筑、自然场景等进行三维重建的研究依然具有十分重要的理论意义与实际意义。

本文对具有历史意义的古迹建筑，采用无人机拍摄获取遥感影像，并且将NeRF引入到文物古建筑场景的重建任务中。相较于传统的无人机巡航摄影测量的重建方法，NeRF在重建质量、重建速度和资源消耗方面表现的更加优异。

1 三维重建技术

1.1 传统的三维重建技术

传统的三维重建方法具体可区分为主动视觉和被动视觉两种。这两种技术大多可划分为深度数据获取、数据预处理、点云生成、点云融合配准以及表面网格生成等步骤。基于主动视觉的方法一般通过测量仪器直接获得目标物体的深度信息，主要有激光扫描[5-7]、结构光[8-11]、TOF[12-14]（Time of Flight）和阴影法[15-16]等。

但是由于主动视觉的三维重建技术大多容易收到周围光照环境的影响，并且复杂或者昂贵的采集装置使得它们的使用场景十分受限。而基于被动视觉的三维重建技术以其价格低、实用性强、采集数据便捷等优点吸引了许多研究者的关注。这种技术一般仅需要一台或多台相机采集图像数据，通过提取不同图像间的特征对应点获得物体的深度信息，重构点云。但缺点是目前为止，重建精度依旧不如基于主动视觉的技术。因此，近年来，大量的研究人员涌入这一方向，促进该方向的研究进展。

传统的基于被动视觉的三维重建技术从相机数目上区分可分为单目视觉、双目视觉和多目视觉三种。单目视觉指在三维重建过程中，仅用一台相机采集单幅或多幅图像，通过采集的图像重建目标的三维模型。对于这种单个相机从多个视角拍摄的图像，通常使用运动恢复结构法[17-18]（Structure from Motion，SfM）恢复目标场景的三维信息。双目视觉[19-20]的方法是利用两个相同的相机在不同视角对同一个目标场景进行拍摄，根据特征匹配计算同一成像点在不同视角下的视差，根据视差获得物体的深度信息，重构三维点云。多目视觉[21]即在双目视觉的基础上增加一台或多台相机进行拍摄。

1.2 基于NeRF的三维重建技术

除了传统的三维重建技术之外，神经网络也逐渐成为三维重建领域的重要手段。卷积神经网络一经提出，就以其独特的感受野优势在图像处理领域大放异彩。研究者们开始将基于图像的三维重建转移到深度学习的方法上，并且在实验中取得了极佳的效果。基于学习的三维重建算法大多基于二维图像，考虑到点云与网络在结构上的不均匀性导致其转移到神经网络中尤为困难，而利用体素网络对三维物体进行参数化表示则可以很轻易地将深度学习中的二维卷积扩展到三维，因此基于体素的重建方法在深度学习中更为适用。NeRF则是体素重建的典型代表。

2020年，Mildenhall等人[3]提出了神经辐射场的概念，通过沿摄像机射线对5D坐标（位置和观察方向）进行采样，并将位置输入MLP网络来估计颜色和体素密度，利用体素渲染合成图像。由于网络和渲染函数是全程可微的，因此可以通过最小化渲染图像和真实图像的残差进行优化。由于该工作的网络训练一般需要消耗大量的时间成本，一些针对加快NeRF渲染速度的工作也被提出。Liu等人[22]在优化MLP的同时，通过动态更新八叉树结构。在体素渲染计算中，当沿线的透射率为0时，允许跳过射线上的空隙和提前终止射线积分计算，以此减小体素渲染的时间消耗。Wizadwongsa等人[23]将MLP和多平面图像参数化结合，直接在三维MPI坐标网格上进行监督，网格可以很容易地被缓存，从而加快实时渲染速度。Lindell等人[24]通过监督网络的梯度表现得像一个标准的神经辐射场的MLP，来训练一个网络可以沿着射线“自动整合”得到输出颜色值。这使得渲染步骤可以将沿射线的积分分解成比标准正交估计少2或4个样本，加快NeRF的渲染速度。Sitzmann等人[25]通过直接编码从光线到输出颜色的映射来优化MLP。这样在渲染时每条光线只需要对MLP进行一次评估，而最初的体素渲染则需要数百次，有效地加快了网络的训练时间。

传统的三维重建技术关注的是几何表达而不是真实感渲染，这意味着即使重建的几何精度很高也不一定能得到真实的渲染效果。而NeRF更加注重真实感渲染，能够以新视角合成的方式交互性、实时性的在任意视角对物体进行渲染，从而模拟三维效果。

2 NeRF三维重建算法

2020年，NeRF[3]一经发表就迅速获得三维重建领域的广泛关注，并在两年的发展中逐渐成为三维重建的关键技术，基本奠定了三维重建技术在未来一段时间内的发展路线。与一般的深度学习方法不同，NeRF不是在训练网络之后用既定的网络参数测试结果，而是在训练过程中逐渐优化体素，完成体素的隐式表达，从而获得新视角下的渲染结果。NeRF的工作流程主要分为两步：体素重建和体素渲染。

NeRF工作的MLP网络结构图如图1所示。

图1 NeRF重建网络结构图

式中表示从第一个采样点到采样点的所有采样点的索引。

另外，为了减少射线上采样点过多造成计算量过大的影响，NeRF采用了由“粗”到“精”的分层采样方法。由于一条射线上仅有少部分区域对最终渲染的像素颜色有贡献，而大部分区域周围都是没有颜色存在的。因此，NeRF先对射线均匀采样个采样点作为“粗”采样，根据每个采样点的透射率求得射线上颜色分布，从而进行射线上的“精”采样，这样可以有效地分配计算资源。

根据体素渲染的结果和原图像进行损失计算，不断优化体素重建结果。

3 文物数字化重建

在遥感影像文物数字化重建任务中，影像数据对重建结果至关重要。传统的建筑摄影测量技术一般通过无人机[27]或者光学摄影测量卫星[28]进行数据采集。而无人机拍摄的影像具有更多细节，因此，用于对细节要求程度很高的文物重建更具优势。

本文选取的无人机摄影测量数据，拍摄塔尔寺。塔尔寺坐落于青海省西宁市，建于1379年。塔尔寺是中国藏传佛教格鲁派六大寺院之一，作为青海省标志性的古迹建筑与全国重点文物保护单位，塔尔寺的数字化重建具有十分重大的理论价值与文化价值。

本文分别使用传统的三维重建技术与NeRF进行塔尔寺的数字化重建。传统重建方法中采用的倾斜摄影软件ContextCapture Center Master (CCMaster)是一款专业的建筑重建软件，在业内一直获得广泛认可。而为了更快地获得重建结果，采用的NeRF是Thomas等人[4]提出的instance-ngp[4]，能有效地减少NeRF的训练时间，并提供交互式的可视化重建结果。

3.1 实验准备

目前在遥感技术领域中，卫星遥感影像的分辨率大多还是以m作为单位，对于古迹建筑的数字化重建往往达不到重建需求。而无人机遥感技术由于成本低、分辨率高、灵活性强等优点，逐渐成为卫星遥感的有力补充。本文利用无人机搭载高分辨率CCD阵列相机从空中对塔尔寺内不同地表建筑进行巡航拍摄，从不同视角采集了塔尔寺的遥感影像数据，包括八宝如意塔、大金瓦殿和吉祥行宫场景。

本研究的所有实验都在相同的环境配置下完成，采用的是Rtx3090显卡，内存大小为64G。CCMaster直接导入遥感影像进行网格重建，但是由于受到内存的限制，该软件需要对整个场景分块重建后进行人工拼接，在本文的实验中，统一将原场景分成四块，既能满足内存需求，人工拼接也不需要消耗太多的时间；而NeRF方法中，由于图像数据不能直接被NeRF所使用，需要进行数据预处理，即估计相机的内外参数，此步骤采用colmap[29]-30]软件完成。

3.2 实验结果比较

为了更好地比较传统重建技术和NeRF体素重建的效果，本文分别从模型的重建效果、重建时间和重建所需遥感影像图数量进行了对比分析。

3.2.1 重建效果对比

本文对塔尔寺筛选了250张遥感影像作为重建数据，通过两种重建方法对其进行数字化重建，并分别在影像的拍摄角度与非拍摄角度进行对比。其中，八宝如意塔及周围场景的对比结果如图2所示。图2左边两列是重建三维模型的某一视角的观测结果，GroundTruth是原始图像。通过图2中传统重建方法与NeRF体素重建方法的对比来看，NeRF的重建效果比传统方法的效果更好。在各区域颜色、形状更接近于遥感影像的效果。在细节部分，CCMaster错误地将木材地纹理映射在了八宝如意塔上，塔顶的白色区域也错误地映射了纹理。并且从周围情况看，CCMaster出现很多孔洞（如红色标注所示），而NeRF不会出现这种情况，并且可以更好地渲染出树木等细节情况。虽然NeRF重建塔周围的直立木架有一定难度，但是CCMaster重建的木架显得更加凌乱。

图2 CCMaster传统重建方法与NeRF重建效果对比

3.2.2 重建时间对比

长期以来，时间消耗一直是三维重建技术领域的重点问题之一。传统的重建方法流程中，深度信息估计往往需要消耗大量的时间，这也导致整个重建的时间成本急剧增多。而instance-ngp则大大缩短了重建时间。

由于NeRF的重建结果取决于网络训练的时间，因此本文将instance-ngp对八宝如意塔场景在不同训练时间下的重建结果进行对比，对比结果如图3所示，并且将NeRF训练过程中的重建损失收敛情况绘制在图4中。

图3 NeRF不同训练迭代次数的重建结果

图4 八宝如意塔场景的NeRF重建的训练损失收敛情况

该场景的重建共训练50 000个迭代次数，消耗时间8.23min。图3中分别显示了instance-ngp训练的迭代次数从1000到50 000的重建效果。从图中可以看出，从1 000到5 000次期间重建效果优化更为明显，而10 000到50 000次的迭代优化后人眼几乎看不出差别。并且从图4中可以看出，在训练到20 000个迭代次数左右时，网络已经接近收敛到最终情况，此时的NeRF重建结果也接近于最终的重建结果。在本文的实验中，没有计算具体收敛的时间，而是以50 000个迭代次数消耗的时间作为最终的重建时间，因为在具体的重建任务中并不能确定模型的收敛时间，往往都是设定固定的迭代次数完成重建。即使是这样，NeRF重建的消耗时间也远小于传统重建技术。

在确定NeRF体素重建消耗的时间之后，本文对比了三个场景在CCMaster和instance-ngp (NeRF)中的重建时间，包括八宝如意塔场景、大金瓦寺场景和吉祥行宫场景，见表1。

表1 不同场景的文物数字化重建消耗时间

从表1中可以看出，instance-ngp重建所消耗的时间远远少于CCMaster的重建时间。另外，从instance- ngp对不同古迹建筑的重建时间上可以看出，NeRF的时间消耗始终在一定的范围之内，这得益于深度学习强大的拟合能力。

3.2.3 不同图像数量的重建结果对比

遥感文物三维重建的质量受到影像数量的影响。在一般情况下，不同视点的影像数据越多就能够提取到更多的图像匹配特征点，能在更大程度上减少遮挡带来的影响，因此可以重建出更稠密的点云，三维重建的质量自然更好。但是很多时候往往得不到足够高质量与数量的影响数据，如何用更少的数据对文物古迹进行数字化重建也是文物三维重建的重点问题之一。

本文分别使用50张图像、150张图像和250张图像对大金瓦寺进行重建对比，如图5所示，图中为影像数量。

如图5所示，当输入的遥感影像数量较少时，两种方法的重建效果都一般，NeRF具体表现为模糊，而CCMaster则是孔洞太多（如红色标注所示），网格形状误差较大。随着遥感影像数量的增多，NeRF方法中，大金瓦寺楼顶的细节也越来越好，重建效果逐步改善；而CCMaster的结果中，孔洞的数目相对减少，但是大金瓦寺楼顶的网格反而有更大的误差，这可能是不同的影像数据估计的相机参数之间的误差导致的。通过最后的NeRF和CCMaster的结果比较也可以看出，NeRF重建结果中大金瓦寺的瓦片细节以及周边的树等都展现了更好的效果，这也说明NeRF的重建结果更加优秀。

图5 传统重建方法与NeRF重建方法在不同的遥感影像数量下的重建结果对比

另外，本文对比了两种方法在不同遥感影像数量的重建所消耗时间，见表2。从表中可以看出，CCMaster重建消耗的时间随着数量的增加成倍数上升，而NeRF重建方法消耗的时间虽然也会增加，但增加幅度远小于CCMaster。这说明当影像数量越多时，NeRF的重建效率越高。

表2 不同影像数量的文物数字化重建消耗时间

3.3 NeRF重建结果展示

图6中展示了NeRF重建结果样本，分别是塔尔寺内三个场景的三个视角重建展示，证明了NeRF对各种地标建筑的普适性。

图6 更多的NeRF重建结果

如图6所示，第一、二行中在显示目标建筑的周围环境时，重建结果较好；但是在三行裁剪掉周围建筑环境后，地面上裁剪的边缘区域会有些凌乱，这是因为无人机空中拍摄的遥感影像中，目标建筑会被周围建筑物遮挡，从而影响其底部的重建效果。

另外，本文将NeRF重建渲染结果与真实图像进行MSE误差计算，见表3。

表3 不同场景的NeRF重建渲染误差(MSE)

如表3所示，拍摄图像受到光照、天气等因素的影响，不同场景的重建误差也会不同。由于NeRF依托于无人机拍摄的遥感影像图的损失计算，因此受到图像质量的影响较大，特别是对于曝光度、光照、阴影等影响因素极为敏感。因此，保证良好的拍摄设备与良好的拍摄环境是保证NeRF重建质量的前提。

4 结束语

长期以来，文物保护的工作都在有条不紊的展开，但不可移动的古迹地标建筑一直是文物保护工作者的难题。随着科技进步，三维重建技术的发展给此类文物保护工作带来了新的解决方案，通过对古迹建筑的数字化重建，可以极好的将现阶段的文物转化为可永久保存的虚拟数字化资产。本文将NeRF应用在文物建筑的数字化重建中。通过与传统的多视图立体匹配重建技术进行对比，NeRF的重建效果更加优秀。

目前，针对NeRF的研究还在火热进行中，但是体素重建在一定程度上限制其应用范围，关于NeRF网格模型重建的相关工作效果依旧还有很大的进步空间。

[1] 郑太雄, 黄帅, 李永福, 等. 基于视觉的三维重建关键技术研究综述[J]. 自动化学报, 2020, 46(4): 631-652.

ZHENG Taixiong, HUANG Shuai, LI Yongfu, et al. Key Techniques for Vision Based 3D Reconstruction: a Review[J]. Acta Automatica Sinica, 2020, 46(4): 631-652. (in Chinese)

[2] ROBERTS L G. Machine Perception of Three-dimensional Solids[D]. Cambridge: Massachusetts Institute of Technology, 1963.

[3] MILDENHALL B, SRINIVASAN P P, TANCIK M, et al. Nerf: Representing Scenes as Neural Radiance Fields for View Synthesis[EB/OL].[2022-11-25]. https://arxiv.org/pdf/2003.08934.pdf.

[4] THOMAS M, ALEX E, CHRISTOPH S, et al. Instant Neural Graphics Primitives with a Multiresolution Hash Encoding[J]. Transactions on Graphics, 2022, 41(4): 1-15.

[5] 杨耀权, 施仁, 于希宁, 等. 激光扫描三角法大型曲面测量中影响参数分析[J]. 西安交通大学学报, 1999, 33(7): 15-18.

YANG Yaoquan, SHI Ren, YU Xining, et al. Laser Scanning Triangulation for Large Profile Measurement[J]. Journal of Xi'an Jiaotong University, 1999, 33(7): 15-18. (in Chinese)

[6] BOEHLER W, VICENT M B, MARBS A. Investigating Laser Scanner Accuracy[J]. The International Archives of Photogrammetry, Remote Sensing and Spatial Information Sciences, 2003, 34(5): 696-701.

[7] RESHETYUK Y. Investigation and Calibration of Pulsed Time-of-flight Terrestrial Laser Scanners[D]. Stockholm: Royal Institute of Technology, 2006: 14-17.

[8] SCHARSTEIN D, SZELISKI R. High-accuracy Stereo Depth Maps Using Structured Light[C]//2003 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, June 18-20, 2003, Madison, WI, USA. IEEE, 2003.

[9] CHEN F, BROWN G M, SONG M. Overview of 3-D Shape Measurement Using Optical Methods[J]. Optical Engineering, 2000, 39(1): 10-22.

[10] POLLEFEYS M, VAN GOOL L. Stratifified Self-calibration with the Modulus Constraint[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999, 21(8): 707-724.

[11] SONG Z, CHUNG R. Determining both Surface Position and Orientation in Structured-light-based Sensing[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(10): 1770-1780.

[12] MAY S, DROESCHEL D, HOLZ D, et al. 3D Pose Estimation and Mapping with Time-of-flight Cameras[EB/OL]. [2022-11-25]. https://www.ais.uni-bonn.de/～holz/papers/may_2008_iros_abstract.pdf.

[13] HEGDE G P M, YE C. Extraction of Planar Features from Swissranger SR-3000 Range Images by a Clustering Method Using Normalized Cuts[C]//2009 IEEE/RSJ International Conference on Intelligent Robots and Systems, October 10-15, 2009, St. Louis, MO, USA. IEEE, 2009: 4034-4039.

[14] STIPES J A, COLE J G P, HUMPHREYS J. 4D Scan Registration with the SR-3000 LIDAR[C]//2008 IEEE International Conference on Robotics and Automation, May19-23, 2008, Pasadena, CA, USA. IEEE, 2008: 2988-2993.

[15] SAVARESE S, ANDREETTO M, RUSHMEIER H, et al. 3D Reconstruction by Shadow Carving: Theory and Practical Evaluation[J]. International Journal of Computer Vision, 2007, 71(3): 305-336.

[16] WANG Y X, CHENG H D, SHAN J. Detecting Shadows of Moving Vehicles Based on HMM[C]// 19th International Conference on Pattern Recognition, December 8-11, 2008, Tampa, FL, USA. IEEE, 2008: 1-4.

[17] WU Changchang. Towards Linear-time Incremental Structure from Motion[C]// International Conference on 3D Vision - 3DV 2013, June 29-July 1, 2013, Seattle, WA, USA. IEEE, 2013: 127-134.

[18] CUI Hainan, SHEN Shuhan, GAO Wei, et al. Efficient Large-scale Structure from Motion by Fusing Auxiliary Imaging Information[J]. IEEE Transactions on Image Processing, 2015, 24(11): 3561-3573.

[19] LI Dawei, XU Lihong, TANG Xuesong, et al. 3D Imaging of Greenhouse Plants with An Inexpensive Binocular Stereo Vision System[J]. Remote Sensing, 2017, 9(5): 508.

[20] HELVESTON E M, BOUDREAULT G. Binocular Vision and Ocular Motility: Theory and Management of Strabismus[J]. American Journal of Ophthalmology, 1986, 101(1): 135.

[21] BAILLARD C, ZISSERMAN A. A Plane-sweep Strategy for the 3D Reconstruction of Buildings from Multiple Images[EB/OL]. [2022-11-25]. https://www.isprs.org/proceedings/XXXIII/congress/part4/23_XXXIII-part4s.pdf.

[22] LIU Linfjie, GU Jiatao, LIN K Z, et al. Neural Sparse Voxel Fields[EB/OL]. [2022-11-25]. https://arxiv.org/pdf/2007.11571.pdf.

[23] WIZADWONGSA S, PHONGTHAWEE P, YENPHRAPHAI J, et al. Nex: Real-time View Synthesis with Neural Basis Expansion[EB/OL]. [2022-11-25].https://arxiv.org/pdf/2103.05606.pdf.

[24] LINDELL D B, MARTEL J N, WETZSTEIN G. Autoint: Automatic Integration for Fast Neural Volume Rendering[EB/OL]. [2022-11-25]. https://arxiv.org/pdf/2012.01714.pdf.

[25] SITZMANN V, RRZCHIKOV S, FREEMAN W T, et al. Light Field Networks: Neural Scene Representations with Single-evaluation Rendering[EB/OL]. [2022-11-25].https://arxiv.org/pdf/2106.02634.pdf.

[26] KAJIYA J T, HERZEN B P. Ray Tracing Volume Densities[J]. ACM SIGGRAPH Computer Graphics, 1984, 18(3): 165-174.

[27] 李兵, 岳京宪, 李和军. 无人机摄影测量技术的探索与应用研究[J]. 北京测绘, 2008(1): 1-3.

LI Bing, YUE Jingxian, LI Hejun. Exploration and Application of UAV Photogrammetry Technology[J]. Beijing Surveying and Mapping, 2008(1): 1-3. (in Chinese)

[28] 王建荣, 王任享, 胡莘. 光学摄影测量卫星发展[J]. 航天返回与遥感, 2020, 41(2): 12-16.

WANG Jianrong, WANG Renxiang, HU Xin. Development of Optical Satellite Photogrammetry[J]. Spacecraft Recovery & Remote Sensing, 2020, 41(2): 12-16. (in Chinese)

[29] SCHÖNBERGER J L, FRAHM J M. Structure-from-Motio Revisited[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016,Las Vegas, NV, USA. IEEE, 2016.

[30] SCHÖNBERGER J L, ZHENG Enliang, FRAHM J M, et al. Pixelwise View Selection for Unstructured Multi-view Stereo[EB/OL]. [2022-11-25]. https://link.springer.com/chapter/10.1007/978-3-319-46487-9_31.

The Digital Reconstruction of Heritage Buildings Based on NeRF

CHENG Bin1YANG Yong2XU Chongbin2,*LI Guoshuai2REN Pu3GAO Zhi2

（1 China Academy of Space Technology Hangzhou Institute, Hangzhou 310012, China) （2 Beijing Institute of Space Mechanics & Electricity, Beijing 100094, China）（3 Beijing Institute of Graphic Communication, Beijing 102600, China）

Heritage buildings have been losing their own characteristics in the course of history, changing or disappearing in the course of time. Therefore, how to accurately measure the preservation of the historical appearance of current heritage is an urgent problem to be solved. Digital modeling can be an excellent way to preserve the appearance of artifacts in the current period, and therefore this research is of great importance in the conservation of cultural assets. Most of the reconstruction tasks used in heritage reconstruction are still traditional visual-based reconstruction methods, which generally require multiple viewpoint images and are extremely time-consuming, and are not efficient enough for the reconstruction and updating of a large number of heritage sites. To address this problem, this paper completes data acquisition by remote sensing images taken by UAV, and introduces NeRF (Neural Radiance Fields) method for digital reconstruction of cultural relics and monuments, and constructs voxels to complete target rendering. This method can achieve a better reconstruction effect of the relics in ten minutes, and avoid the appearance of holes in the traditional mesh reconstruction results, which provides a new idea for the reconstruction of relics and monuments buildings.

remote sensing image; heritage conservation; 3D reconstruction; Neural Radiance Fields (NeRF)

TP399

1009-8518(2023)01-0040-10

10.3969/j.issn.1009-8518.2023.01.005

2022-10-23

北京市自然科学基金（4214064：数据驱动的古建筑三维场景建模方法）；北京印刷学院校级项目（Eb202308：博物馆数字展示内容智能生成方法研究）

程斌, 杨勇, 徐崇斌, 等. 基于NeRF的文物建筑数字化重建[J]. 航天返回与遥感, 2023, 44(1): 40-49.

CHENG Bin, YANG Yong, XU Chongbin, et al. The Digital Reconstruction of Heritage Buildings Based on NeRF[J]. Spacecraft Recovery & Remote Sensing, 2023, 44(1): 40-49. (in Chinese)

程斌，男，1997年生，2022年获北京师范大学信号与信息处理专业硕士学位。主要研究方向为计算机图形学。E-mail：chengbin@casthz.cn。

徐崇斌，男，1984年生，2014年获北京师范大学系统分析与集成专业博士学位，高级工程师。主要研究方向为计算机图形学、遥感信息处理与应用技术、虚拟现实工程学和三维人机交互技术。E-mail：sear2005@163.com。

（编辑：陈艳霞）