1 of 28

2 of 28

赛道二:GigaRendering-基于十亿像素稀疏图像的新视角渲染

队伍名称:BunnyKiller

3 of 28

目 录

一、团队介绍

二、赛题解析

三、技术方案

四、实验结果

五、总结感想

4 of 28

一、团队介绍

邓晓东

西安交通大学

控制科学与工程

博士一年级

算法FPGA加速与硬件语言编译器

何千越

清华大学

人工智能

硕士一年级

散射介质渲染

龙振威

清华大学

人工智能

硕士一年级

超表面计算成像

5 of 28

二、赛题解析

  • 8个户外大场景
  • 超高像素
  • 无边界的背景
  • 输入视角稀疏
  • 动态场景 - 行人车辆
  • 复杂光照条件

兼顾解决方案的适应规模、效率和鲁棒性

1/23

6 of 28

二、赛题解析

Paper

Award

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

ECCV 2020 Best Paper Honorable Mention

Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields

ICCV 2021 Best Paper Honorable Mention

Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields

CVPR 2022 Best Student Paper Honorable Mention

Instant Neural Graphics Primitives with a Multiresolution Hash Encoding

SIGGRAPH 2022 Technical Papers Awards: Best Paper

神经辐射场(NeRF)相关研究快速增长,发展迅速,成果丰硕

2/23

7 of 28

输入视角稀疏

模型易过拟合,场景几何错误

内外参数欠准

场景细节模糊,测试位姿失配

测试分布偏移

域外测试分布,隐式表征受限

光照条件复杂

纹理学习困难,存在低频偏置

五 大 挑 战

由粗到精训练

轻量级骨干网络,1/8与1/4下采样分级训练

大场景高分辨

模型收敛缓慢,资源消耗过大

深度监督&多正则化

稠密深度/天空分割监督,多正则化项

内外参数优化

HLOC内外参估计,在线内外参优化

外观嵌入插值

基于6D空间距离的加权外观嵌入插值

遮挡惩罚&图像修复

正则化未观测区域,重投影修复图像

解 决 方 案

三、技术方案

3/23

8 of 28

三、技术方案

4/23

9 of 28

数据预处理

左图:HLOC重新计算位姿后未ICP配准

右图:使用ICP配准

  • 原始内外参数欠准
  • 使用COLMAP配合Hierarchical Localization (HLOC) [1] 重新计算内外参
  • 大部分场景仅需替换内参 -> 效果提升明显
  • 个别场景替换内外参,并使用 SVD 求解位姿变换进行配准

三、技术方案

内外参数优化:有效应对内外参数欠准确的挑战

DayaTemple场景存在较大的位姿误差

5/23

10 of 28

数据预处理

使用原始内外参数训练结果

  • 原始内外参数欠准

三、技术方案

使用优化后内外参数训练结果

  • 使用COLMAP配合Hierarchical Localization (HLOC) [1] 重新计算内外参
  • HLOC 位姿计算不准情况:引入位姿先验
  • 个别场景替换内外参,并使用 SVD 求解位姿变换进行配准

内外参数优化:有效应对内外参数欠准确的挑战

6/23

11 of 28

三、技术方案

模型训练

  • MVS深度图求解 + NeRF:稠密深度监督与天空分割

NeRF 模型:几何(泛化能力) + 纹理(颜色、细节)

对几何进行监督可以有效提高收敛速度与模型泛化能力

IGEV (CVPR 2023)[2]

7/23

12 of 28

三、技术方案

模型训练

  • IGEV(CVPR2023) 所求深度需要滤波/后处理

多分辨率天空mask估计 + 深度一致性滤波

1/8分辨率

1/4分辨率

融合后:无空洞、边缘质量好

深度图处理前

深度图处理后

天空分割 (CVPR 2020 Sky Segmentation)[4]

8/23

13 of 28

三、技术方案

模型训练

  • 由粗到精训练,有效节约计算资源
  • 多正则化项,合理惩罚

Distortion Loss

 

体密度集中化

惩罚非0/1的体密度

场景应为不透明物体或空气

惩罚近距离floaters

Entropy Loss

Occlusion Loss

仅在测试视角下使用

在无深度监督时可使用

9/23

14 of 28

三、技术方案

  • 测试视角优化

使用 HLOC 求解的位姿仍然需要与原位姿配准

原位姿有误差:配准将导致渲染位姿存在偏差

数据后处理

微小的内外参偏差导致的图像高频误差巨大

使用原始内外参训练的结果

图像与真值重合度最好

(但模型质量差

使用优化内外参训练的结果

模型质量高

但渲染存在位置偏差

重合度低

固定场景网络(禁止梯度反传)

只优化

相机位姿

相机内参/畸变参数

使用robust loss(Huber)

配准

10/23

15 of 28

三、技术方案

数据后处理

  • 曝光优化 - 外观嵌入插值

光照条件复杂 -> 训练视角拍摄时有曝光变化

训练造成的影响:低频亮度与局部纹理训练难 --- 训练时使用外观嵌入(appearance embedding)

渲染时:外观嵌入如何使用?全局平均将会使得输出的图像曝光水平丢失视角依赖性

6D 空间(3D 平移 + 3D 旋转)距离:根据距离进行 KNN 加权

优化前:阴影部分过亮

优化后:正确的阴影

11/23

16 of 28

三、技术方案

数据后处理

  • 重投影方法,有效评估渲染结果的准确性

基于 Taichi 语言:GPU快速计算

正向投影方式,使用z-buffer进行遮挡剔除,记录重投影结果的统计信息:计数和极差

原始渲染结果

重投影结果

计数图

极差图

12/23

17 of 28

三、技术方案

数据后处理

  • Inpainting方法,合理补全缺失信息

预训练Inpainting方法进行图像补全

融合:极差较大的区域使用NeRF渲染结果,计数较低的区域进行图像补全

原始渲染结果

重投影结果

后处理结果

Inpainting 模型:Modelscope - LaMa image inpainting[14]

13/23

18 of 28

四、实验结果

  • 可应用性
  • 完整的管线仅需使用单卡即可:3060 for Laptop(6GB显存),训练显存约为5GB
  • 训练时间短:除训练外的其他数据准备 10min 内可完成
        • 流程看似复杂,但实际的计算量并不大
  • 模型本身
        • 追求好的视觉效果:约15min(epoch≈30k)即可(RTX 2070S/3060)
        • 追求尽可能高的PSNR:约1.25h (低学习率 finetune, epoch≈150k)
  • 轻量化的网络
        • 基于 Hash encoding,训练、测试速度均较快
        • 显存占用友好,网络参数量适中
  • 相比于如 instant NGP 类的方法:大部分代码基于 python,可扩展性极强

14/23

19 of 28

四、实验结果

  • 研发曲线

完成基本的场景训练

测试位姿优化

优化深度图

测试位姿遮挡正则化

在线

内外参优化

DayaTemple

正确位姿

曝光优化

外观嵌入插值

17.51

7th place

17.79

5th place

17.88

4th place

BunnyKiller 队线上赛PSNR变化曲线

11.99

no where

15/23

20 of 28

MemorialHall

ScienceSquare

Museum

DayaTemple (10min)

21 of 28

四、实验结果

场景细节展示

22 of 28

四、实验结果

深度渲染

图像渲染

MemorialHall

23 of 28

深度渲染

图像渲染

ScienceSquare

24 of 28

五、总结感想

  • 总结
  • 算法落地能力:
      • 单卡训练,需求显存小
      • 训练速度快
      • Python编写易扩展

  • 泛化能力:
      • 对输入内外参不准等鲁棒
      • 训练过程稳定
      • 输出结果有置信度控制

  • 计算复杂度:
      • 多项技术使得整体速度快

应用性

创新性

  • 模型:
      • MVS与NeRF结合
      • 输入-模型-输出端都有

创新

  • 应用:
    • 对内外参扰动不敏感,可在参数不准的场景下使用
    • 可在稀疏视角下使用:深度监督
    • 使用多项技术增强落地能力

模型效果

  • 建模精度高
  • 渲染清晰准确
  • 不同场景泛化效果良好

21/23

25 of 28

五、总结感想

  • 比赛建议

位姿问题与指标

  • PSNR 是局部性的反映指标
  • 进行训练位姿优化,一定要与原位姿配准
      • 使用配准计算的刚体变换变换渲染位姿
      • 变换渲染位姿到优化后的坐标系下

背景

建议

  • 训练位姿保留两个高质量位姿
  • 渲染位姿提供相对于这两个位姿的相对位姿
      • 两个位姿可以确定场景坐标系的所有信息(包括尺度)
      • 选手可以选择不优化两个高质量位姿
      • 或是以两个高质量位姿为锚定点进行配准
      • 选手无需考虑优化后位姿无法与原始不准位姿对不齐的问题
  • 采用更有全局描述力的指标

曝光

  • 测试集的曝光要保证有可预测性
      • 选手无法无先验地推测测试集的曝光
  • 如果无法保证
      • 可以提供在低频区域的稀疏像素,帮助选手将输出图进行亮度归一化

20/23

26 of 28

五、总结感想

感谢 全球人工智能技术创新大赛 为我们提供了宝贵的学习与交流的机会!

向各位评委老师和大赛组委会的辛苦付出表示衷心感谢!

27 of 28

参考文献

[1] Sarlin P E, Cadena C, Siegwart R, et al. From coarse to fine: Robust hierarchical localization at large scale[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 12716-12725.

[2] Xu G, Wang X, Ding X, et al. Iterative Geometry Encoding Volume for Stereo Matching[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 21919-21928.

[3] Schonberger J L, Frahm J M. Structure-from-motion revisited[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 4104-4113.

[4] Liba O, Cai L, Tsai Y T, et al. Sky optimization: Semantically aware image processing of skies in low-light photography[C] //Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020: 526-527.

[5] Tancik M, Weber E, Ng E, et al. Nerfstudio: A modular framework for neural radiance field development[J]. arXiv preprint arXiv:2302.04264, 2023.

[6] Kim M, Seo S, Han B. Infonerf: Ray entropy minimization for few-shot neural volume rendering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 12912-12921.

[7] Barron J T, Mildenhall B, Verbin D, et al. Mip-nerf 360: Unbounded anti-aliased neural radiance fields[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 5470-5479.

[8] Müller T, Evans A, Schied C, et al. Instant neural graphics primitives with a multiresolution hash encoding[J]. ACM Transactions on Graphics (ToG), 2022, 41(4): 1-15.

[9] Deng K, Liu A, Zhu J Y, et al. Depth-supervised nerf: Fewer views and faster training for free[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 12882-12891.

[10] Barron J T, Mildenhall B, Verbin D, et al. Mip-nerf 360: Unbounded anti-aliased neural radiance fields[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 5470-5479.

[11] Kim M, Seo S, Han B. Infonerf: Ray entropy minimization for few-shot neural volume rendering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 12912-12921.

[12] Yang J, Pavone M, Wang Y. FreeNeRF: Improving Few-shot Neural Rendering with Free Frequency Regularization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 8254-8263.

[13] Kim M, Seo S, Han B. Infonerf: Ray entropy minimization for few-shot neural volume rendering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 12912-12921

[14] Suvorov R, Logacheva E, Mashikhin A, et al. Resolution-robust large mask inpainting with fourier convolutions[C]//Proceedings of the IEEE/CVF winter conference on applications of computer vision. 2022: 2149-2159.

28 of 28

感谢观看

请各位评委、专家批评指正!