1 of 22

基於D-NeRF時間序列影像之3D建模研究

邱濬國 | 2026/05/20

2 of 22

研究動機
研究目的
研究方法與過程
研究結果與討論
未來展望
致謝

3 of 22

研究動機

�——3D建模與衍伸問題

4 of 22

3D建模之應用價值

3D建模與列印已有接近商業化的趨勢
建築、遊戲等領域對3D模型的需求大幅增長
建模門檻讓很多人卻步

5 of 22

3D建模之現有方法

建模軟體 (如：Blender)
儀器掃描
AI生成

6 of 22

研究切入方向

利用 DNeRF 神經輻射網路
加入自注意力機制
在照片中建立時序相關性

7 of 22

研究目的

�——3D建模與衍伸問題

8 of 22

製作一套以 DNeRF 為主的完整系統，處理從輸入照片、相機角度推算、神經網路訓練到實際轉產出多層感知器，以用於3D建模。
探討這套系統的效率、準確度以及實用性。

9 of 22

研究方法與過程

�—— DNeRF 與 Transformer

10 of 22

NeRF - Neural Radiance Fields

輸入一組照片，運算一個連續的 5D 函數
回傳此光線所打到的物體之材質與顏色
為一個神經網路
DNeRF 建立於此基礎

11 of 22

DNeRF - Neural Radiance Fields for Dynamic Scenes

引入第二個的形變神經網路，以時間作為額外輸入維度
將光線扭曲至標準神經網路下的型態
映射回的標準動作為神經網路自行統整

12 of 22

Transformer & Self Attention Mechanic

讓每個token可以關注同一序列中的其他的
轉成向量並捕捉的關聯性，計算各自重要度
平行處理所有輸料，速度更快且能更好捕捉整體關聯

13 of 22

改良版模型 - DNeRF 加入 Transformer

將自注意力機制引入形變神經網路之創建
加強模型關注不同照片中的訊息
讓其學習連續相片中的時序關係

14 of 22

整體流程

15 of 22

研究結果與討論

�—— 改良後比較

16 of 22

訓練過程比較

在訓練的過程之中，可以看到損失和是 PSNR (峰值訊噪比，最大訊號與噪音的比值) 整體數值遞增的更加平滑以外，最後結果也更良好。雖然是用一個注意力機制去取代原本的多層感知器，但並未使訓練速度降低。

17 of 22

成果對比 - rbg

原版改良版

18 of 22

成果對比 - 視差圖

原版改良版

19 of 22

成果討論

改良版在細節表現與畫質上明顯優於原版；原版不僅進步有限，也出現過你和情形。在特定視角（如右前方與左前方），兩者皆有困難，但改良版仍能逐步改善，而原版表現不穩定。從視差圖觀察，原版在高迭代後已難以辨識景深與物體結構。而皆有缺陷則是因 Colmap 無法預估相機位置。

20 of 22

未來展望

21 of 22

未來展望

改良COLMAP或製作得以取代其相機位置估計功能之工具
將整體流程製成網頁之專案
將神經網路轉成能列印之檔案

22 of 22

致謝

建國中學王鼎中老師
數資班的老師、同學
感謝所有為了成發努力的人