4 of 28

一、团队介绍

邓晓东

西安交通大学

控制科学与工程

博士一年级

算法FPGA加速与硬件语言编译器

何千越

清华大学

人工智能

硕士一年级

散射介质渲染

龙振威

清华大学

人工智能

硕士一年级

超表面计算成像

5 of 28

二、赛题解析

8个户外大场景
超高像素
无边界的背景
输入视角稀疏
动态场景 - 行人车辆
复杂光照条件

兼顾解决方案的适应规模、效率和鲁棒性

1/23

6 of 28

二、赛题解析

Paper	Award
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis	ECCV 2020 Best Paper Honorable Mention
Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields	ICCV 2021 Best Paper Honorable Mention
Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields	CVPR 2022 Best Student Paper Honorable Mention
Instant Neural Graphics Primitives with a Multiresolution Hash Encoding	SIGGRAPH 2022 Technical Papers Awards: Best Paper

神经辐射场（NeRF）相关研究快速增长，发展迅速，成果丰硕

2/23

7 of 28

输入视角稀疏

模型易过拟合，场景几何错误

内外参数欠准

场景细节模糊，测试位姿失配

测试分布偏移

域外测试分布，隐式表征受限

光照条件复杂

纹理学习困难，存在低频偏置

五大挑战

由粗到精训练

轻量级骨干网络，1/8与1/4下采样分级训练

大场景高分辨

模型收敛缓慢，资源消耗过大

深度监督&多正则化

稠密深度/天空分割监督，多正则化项

内外参数优化

HLOC内外参估计，在线内外参优化

外观嵌入插值

基于6D空间距离的加权外观嵌入插值

遮挡惩罚&图像修复

正则化未观测区域，重投影修复图像

解决方案

三、技术方案

3/23

8 of 28

三、技术方案

4/23

9 of 28

数据预处理

左图：HLOC重新计算位姿后未ICP配准

右图：使用ICP配准

原始内外参数欠准

使用COLMAP配合Hierarchical Localization (HLOC) ^[1]重新计算内外参
大部分场景仅需替换内参 -> 效果提升明显
个别场景替换内外参，并使用 SVD 求解位姿变换进行配准

三、技术方案

内外参数优化：有效应对内外参数欠准确的挑战

DayaTemple场景存在较大的位姿误差

5/23

10 of 28

数据预处理

使用原始内外参数训练结果

原始内外参数欠准

三、技术方案

使用优化后内外参数训练结果

使用COLMAP配合Hierarchical Localization (HLOC) ^[1]重新计算内外参
HLOC 位姿计算不准情况：引入位姿先验
个别场景替换内外参，并使用 SVD 求解位姿变换进行配准

内外参数优化：有效应对内外参数欠准确的挑战

6/23

11 of 28

三、技术方案

模型训练

MVS深度图求解 + NeRF：稠密深度监督与天空分割

NeRF 模型：几何（泛化能力） + 纹理（颜色、细节）

对几何进行监督可以有效提高收敛速度与模型泛化能力

IGEV (CVPR 2023)^[2]

7/23

12 of 28

三、技术方案

模型训练

IGEV(CVPR2023) 所求深度需要滤波/后处理

多分辨率天空mask估计 + 深度一致性滤波

1/8分辨率

1/4分辨率

融合后：无空洞、边缘质量好

深度图处理前

深度图处理后

天空分割 (CVPR 2020 Sky Segmentation)^[4]

8/23

13 of 28

三、技术方案

模型训练

由粗到精训练，有效节约计算资源
多正则化项，合理惩罚

Distortion Loss

体密度集中化

惩罚非0/1的体密度

场景应为不透明物体或空气

惩罚近距离floaters

Entropy Loss

Occlusion Loss

仅在测试视角下使用

在无深度监督时可使用

9/23

14 of 28

三、技术方案

测试视角优化

使用 HLOC 求解的位姿仍然需要与原位姿配准

原位姿有误差：配准将导致渲染位姿存在偏差

数据后处理

微小的内外参偏差导致的图像高频误差巨大

使用原始内外参训练的结果

图像与真值重合度最好

（但模型质量差）

使用优化内外参训练的结果

模型质量高

但渲染存在位置偏差

（重合度低）

固定场景网络（禁止梯度反传）

只优化

相机位姿

相机内参/畸变参数

使用robust loss（Huber）

配准

10/23

15 of 28

三、技术方案

数据后处理

曝光优化 - 外观嵌入插值

光照条件复杂 -> 训练视角拍摄时有曝光变化

训练造成的影响：低频亮度与局部纹理训练难 --- 训练时使用外观嵌入（appearance embedding）

渲染时：外观嵌入如何使用？全局平均将会使得输出的图像曝光水平丢失视角依赖性

6D 空间（3D 平移 + 3D 旋转）距离：根据距离进行 KNN 加权

优化前：阴影部分过亮

优化后：正确的阴影

11/23

16 of 28

三、技术方案

数据后处理

重投影方法，有效评估渲染结果的准确性

基于 Taichi 语言：GPU快速计算

正向投影方式，使用z-buffer进行遮挡剔除，记录重投影结果的统计信息：计数和极差

原始渲染结果

重投影结果

计数图

极差图

12/23

17 of 28

三、技术方案

数据后处理

Inpainting方法，合理补全缺失信息

预训练Inpainting方法进行图像补全

融合：极差较大的区域使用NeRF渲染结果，计数较低的区域进行图像补全

原始渲染结果

重投影结果

后处理结果

Inpainting 模型：Modelscope - LaMa image inpainting^[14]

13/23

18 of 28

四、实验结果

可应用性

完整的管线仅需使用单卡即可：3060 for Laptop（6GB显存），训练显存约为5GB
训练时间短：除训练外的其他数据准备 10min 内可完成

流程看似复杂，但实际的计算量并不大

模型本身

追求好的视觉效果：约15min（epoch≈30k）即可（RTX 2070S/3060）
追求尽可能高的PSNR：约1.25h (低学习率 finetune, epoch≈150k）

轻量化的网络

基于 Hash encoding，训练、测试速度均较快
显存占用友好，网络参数量适中

相比于如 instant NGP 类的方法：大部分代码基于 python，可扩展性极强

14/23

19 of 28

四、实验结果

研发曲线

完成基本的场景训练

测试位姿优化

优化深度图

测试位姿遮挡正则化

在线

内外参优化

DayaTemple

正确位姿

曝光优化

外观嵌入插值

17.51

7th place

17.79

5th place

17.88

4th place

BunnyKiller 队线上赛PSNR变化曲线

11.99

no where

15/23

20 of 28

MemorialHall

ScienceSquare

Museum

DayaTemple (10min)

21 of 28

四、实验结果

场景细节展示

22 of 28

四、实验结果

深度渲染

图像渲染

MemorialHall

23 of 28

深度渲染

图像渲染

ScienceSquare

24 of 28

五、总结感想

总结

算法落地能力：

单卡训练，需求显存小
训练速度快
Python编写易扩展

泛化能力：

对输入内外参不准等鲁棒
训练过程稳定
输出结果有置信度控制

计算复杂度：

多项技术使得整体速度快

应用性

创新性

模型：

MVS与NeRF结合
从输入-模型-输出端都有

创新

应用：

对内外参扰动不敏感，可在参数不准的场景下使用
可在稀疏视角下使用：深度监督
使用多项技术增强落地能力

模型效果

建模精度高
渲染清晰准确
不同场景泛化效果良好

21/23

25 of 28

五、总结感想

比赛建议

位姿问题与指标

PSNR 是局部性的反映指标
进行训练位姿优化，一定要与原位姿配准

使用配准计算的刚体变换变换渲染位姿
变换渲染位姿到优化后的坐标系下

背景

建议

训练位姿保留两个高质量位姿
渲染位姿提供相对于这两个位姿的相对位姿

两个位姿可以确定场景坐标系的所有信息（包括尺度）
选手可以选择不优化两个高质量位姿
或是以两个高质量位姿为锚定点进行配准
选手无需考虑优化后位姿无法与原始不准位姿对不齐的问题

采用更有全局描述力的指标

曝光

测试集的曝光要保证有可预测性

选手无法无先验地推测测试集的曝光

如果无法保证

可以提供在低频区域的稀疏像素，帮助选手将输出图进行亮度归一化

20/23

26 of 28

五、总结感想

感谢全球人工智能技术创新大赛为我们提供了宝贵的学习与交流的机会！

向各位评委老师和大赛组委会的辛苦付出表示衷心感谢！

27 of 28

参考文献

[1] Sarlin P E, Cadena C, Siegwart R, et al. From coarse to fine: Robust hierarchical localization at large scale[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 12716-12725.

[2] Xu G, Wang X, Ding X, et al. Iterative Geometry Encoding Volume for Stereo Matching[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 21919-21928.

[3] Schonberger J L, Frahm J M. Structure-from-motion revisited[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 4104-4113.

[4] Liba O, Cai L, Tsai Y T, et al. Sky optimization: Semantically aware image processing of skies in low-light photography[C] //Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020: 526-527.

[5] Tancik M, Weber E, Ng E, et al. Nerfstudio: A modular framework for neural radiance field development[J]. arXiv preprint arXiv:2302.04264, 2023.

[6] Kim M, Seo S, Han B. Infonerf: Ray entropy minimization for few-shot neural volume rendering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 12912-12921.

[7] Barron J T, Mildenhall B, Verbin D, et al. Mip-nerf 360: Unbounded anti-aliased neural radiance fields[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 5470-5479.

[8] Müller T, Evans A, Schied C, et al. Instant neural graphics primitives with a multiresolution hash encoding[J]. ACM Transactions on Graphics (ToG), 2022, 41(4): 1-15.

[9] Deng K, Liu A, Zhu J Y, et al. Depth-supervised nerf: Fewer views and faster training for free[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 12882-12891.

[10] Barron J T, Mildenhall B, Verbin D, et al. Mip-nerf 360: Unbounded anti-aliased neural radiance fields[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 5470-5479.

[11] Kim M, Seo S, Han B. Infonerf: Ray entropy minimization for few-shot neural volume rendering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 12912-12921.

[12] Yang J, Pavone M, Wang Y. FreeNeRF: Improving Few-shot Neural Rendering with Free Frequency Regularization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 8254-8263.

[13] Kim M, Seo S, Han B. Infonerf: Ray entropy minimization for few-shot neural volume rendering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 12912-12921

[14] Suvorov R, Logacheva E, Mashikhin A, et al. Resolution-robust large mask inpainting with fourier convolutions[C]//Proceedings of the IEEE/CVF winter conference on applications of computer vision. 2022: 2149-2159.

1 of 28

2 of 28

3 of 28

4 of 28

5 of 28

6 of 28

7 of 28

8 of 28

9 of 28

10 of 28

11 of 28

12 of 28

13 of 28

14 of 28

15 of 28

16 of 28

17 of 28

18 of 28

19 of 28

20 of 28

21 of 28

22 of 28

23 of 28

24 of 28

25 of 28

26 of 28

27 of 28

28 of 28