赛道二:GigaRendering-基于十亿像素稀疏图像的新视角渲染
队伍名称:BunnyKiller
目 录
一、团队介绍
二、赛题解析
三、技术方案
四、实验结果
五、总结感想
一、团队介绍
邓晓东
西安交通大学
控制科学与工程
博士一年级
算法FPGA加速与硬件语言编译器
何千越
清华大学
人工智能
硕士一年级
散射介质渲染
龙振威
清华大学
人工智能
硕士一年级
超表面计算成像
二、赛题解析
兼顾解决方案的适应规模、效率和鲁棒性
1/23
二、赛题解析
Paper | Award |
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis | ECCV 2020 Best Paper Honorable Mention |
Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields | ICCV 2021 Best Paper Honorable Mention |
Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields | CVPR 2022 Best Student Paper Honorable Mention |
Instant Neural Graphics Primitives with a Multiresolution Hash Encoding | SIGGRAPH 2022 Technical Papers Awards: Best Paper |
| |
神经辐射场(NeRF)相关研究快速增长,发展迅速,成果丰硕
2/23
输入视角稀疏
模型易过拟合,场景几何错误
内外参数欠准
场景细节模糊,测试位姿失配
测试分布偏移
域外测试分布,隐式表征受限
光照条件复杂
纹理学习困难,存在低频偏置
五 大 挑 战
由粗到精训练
轻量级骨干网络,1/8与1/4下采样分级训练
大场景高分辨
模型收敛缓慢,资源消耗过大
深度监督&多正则化
稠密深度/天空分割监督,多正则化项
内外参数优化
HLOC内外参估计,在线内外参优化
外观嵌入插值
基于6D空间距离的加权外观嵌入插值
遮挡惩罚&图像修复
正则化未观测区域,重投影修复图像
解 决 方 案
三、技术方案
3/23
三、技术方案
4/23
数据预处理
左图:HLOC重新计算位姿后未ICP配准
右图:使用ICP配准
三、技术方案
内外参数优化:有效应对内外参数欠准确的挑战
DayaTemple场景存在较大的位姿误差
5/23
数据预处理
使用原始内外参数训练结果
三、技术方案
使用优化后内外参数训练结果
内外参数优化:有效应对内外参数欠准确的挑战
6/23
三、技术方案
模型训练
NeRF 模型:几何(泛化能力) + 纹理(颜色、细节)
对几何进行监督可以有效提高收敛速度与模型泛化能力
IGEV (CVPR 2023)[2]
7/23
三、技术方案
模型训练
多分辨率天空mask估计 + 深度一致性滤波
1/8分辨率
1/4分辨率
融合后:无空洞、边缘质量好
深度图处理前
深度图处理后
天空分割 (CVPR 2020 Sky Segmentation)[4]
8/23
三、技术方案
模型训练
Distortion Loss
体密度集中化
惩罚非0/1的体密度
场景应为不透明物体或空气
惩罚近距离floaters
Entropy Loss
Occlusion Loss
仅在测试视角下使用
在无深度监督时可使用
9/23
三、技术方案
使用 HLOC 求解的位姿仍然需要与原位姿配准
原位姿有误差:配准将导致渲染位姿存在偏差
数据后处理
微小的内外参偏差导致的图像高频误差巨大
使用原始内外参训练的结果
图像与真值重合度最好
(但模型质量差)
使用优化内外参训练的结果
模型质量高
但渲染存在位置偏差
(重合度低)
固定场景网络(禁止梯度反传)
只优化
相机位姿
相机内参/畸变参数
使用robust loss(Huber)
配准
10/23
三、技术方案
数据后处理
光照条件复杂 -> 训练视角拍摄时有曝光变化
训练造成的影响:低频亮度与局部纹理训练难 --- 训练时使用外观嵌入(appearance embedding)
渲染时:外观嵌入如何使用?全局平均将会使得输出的图像曝光水平丢失视角依赖性
6D 空间(3D 平移 + 3D 旋转)距离:根据距离进行 KNN 加权
优化前:阴影部分过亮
优化后:正确的阴影
11/23
三、技术方案
数据后处理
基于 Taichi 语言:GPU快速计算
正向投影方式,使用z-buffer进行遮挡剔除,记录重投影结果的统计信息:计数和极差
原始渲染结果
重投影结果
计数图
极差图
12/23
三、技术方案
数据后处理
预训练Inpainting方法进行图像补全
融合:极差较大的区域使用NeRF渲染结果,计数较低的区域进行图像补全
原始渲染结果
重投影结果
后处理结果
Inpainting 模型:Modelscope - LaMa image inpainting[14]
13/23
四、实验结果
14/23
四、实验结果
完成基本的场景训练
测试位姿优化
优化深度图
测试位姿遮挡正则化
在线
内外参优化
DayaTemple
正确位姿
曝光优化
外观嵌入插值
17.51
7th place
17.79
5th place
17.88
4th place
BunnyKiller 队线上赛PSNR变化曲线
11.99
no where
15/23
MemorialHall
ScienceSquare
Museum
DayaTemple (10min)
四、实验结果
场景细节展示
四、实验结果
深度渲染
图像渲染
MemorialHall
深度渲染
图像渲染
ScienceSquare
五、总结感想
应用性
创新性
创新
模型效果
21/23
五、总结感想
位姿问题与指标
背景
建议
曝光
20/23
五、总结感想
感谢 全球人工智能技术创新大赛 为我们提供了宝贵的学习与交流的机会!
向各位评委老师和大赛组委会的辛苦付出表示衷心感谢!
参考文献
[1] Sarlin P E, Cadena C, Siegwart R, et al. From coarse to fine: Robust hierarchical localization at large scale[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 12716-12725.
[2] Xu G, Wang X, Ding X, et al. Iterative Geometry Encoding Volume for Stereo Matching[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 21919-21928.
[3] Schonberger J L, Frahm J M. Structure-from-motion revisited[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 4104-4113.
[4] Liba O, Cai L, Tsai Y T, et al. Sky optimization: Semantically aware image processing of skies in low-light photography[C] //Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020: 526-527.
[5] Tancik M, Weber E, Ng E, et al. Nerfstudio: A modular framework for neural radiance field development[J]. arXiv preprint arXiv:2302.04264, 2023.
[6] Kim M, Seo S, Han B. Infonerf: Ray entropy minimization for few-shot neural volume rendering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 12912-12921.
[7] Barron J T, Mildenhall B, Verbin D, et al. Mip-nerf 360: Unbounded anti-aliased neural radiance fields[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 5470-5479.
[8] Müller T, Evans A, Schied C, et al. Instant neural graphics primitives with a multiresolution hash encoding[J]. ACM Transactions on Graphics (ToG), 2022, 41(4): 1-15.
[9] Deng K, Liu A, Zhu J Y, et al. Depth-supervised nerf: Fewer views and faster training for free[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 12882-12891.
[10] Barron J T, Mildenhall B, Verbin D, et al. Mip-nerf 360: Unbounded anti-aliased neural radiance fields[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 5470-5479.
[11] Kim M, Seo S, Han B. Infonerf: Ray entropy minimization for few-shot neural volume rendering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 12912-12921.
[12] Yang J, Pavone M, Wang Y. FreeNeRF: Improving Few-shot Neural Rendering with Free Frequency Regularization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 8254-8263.
[13] Kim M, Seo S, Han B. Infonerf: Ray entropy minimization for few-shot neural volume rendering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 12912-12921
[14] Suvorov R, Logacheva E, Mashikhin A, et al. Resolution-robust large mask inpainting with fourier convolutions[C]//Proceedings of the IEEE/CVF winter conference on applications of computer vision. 2022: 2149-2159.
感谢观看
请各位评委、专家批评指正!