1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        CVPR 2024滿分論文解讀:基于可變形三維高斯的高質(zhì)量單目動態(tài)重建新方法

        共 4434字,需瀏覽 9分鐘

         ·

        2024-04-12 04:11

           
        來源:機(jī)器之心
        本文約2200字,建議閱讀7分鐘
        這是首個使用變形場將 3D 高斯拓展到單目動態(tài)場景的工作。

        單目動態(tài)場景(Monocular Dynamic Scene)是指使用單眼攝像頭觀察并分析的動態(tài)環(huán)境,其中場景中的物體可以自由移動。單目動態(tài)場景重建對于理解環(huán)境中的動態(tài)變化、預(yù)測物體運(yùn)動軌跡以及動態(tài)數(shù)字資產(chǎn)生成等任務(wù)至關(guān)重要。

        隨著以神經(jīng)輻射場(Neural Radiance Field, NeRF)為代表的神經(jīng)渲染的興起,越來越多的工作開始使用隱式表征(implicit representation)進(jìn)行動態(tài)場景的三維重建。

        盡管基于 NeRF 的一些代表工作,如 D-NeRF,Nerfies,K-planes 等已經(jīng)取得了令人滿意的渲染質(zhì)量,他們?nèi)匀痪嚯x真正的照片級真實(shí)渲染(photo-realistic rendering)存在一定的距離。

        來自浙江大學(xué)、字節(jié)跳動的研究團(tuán)隊(duì)認(rèn)為,上述問題的根本原因在于基于光線投射(ray casting)的 NeRF pipeline 通過逆向映射(backward-flow)將觀測空間(observation space)映射到規(guī)范空間(canonical space)無法實(shí)現(xiàn)準(zhǔn)確且干凈的映射。逆向映射并不利于可學(xué)習(xí)結(jié)構(gòu)的收斂,使得目前的方法在 D-NeRF 數(shù)據(jù)集上只能取得 30 + 級別的 PSNR 渲染指標(biāo)。

        為了解決這一問題,該研究團(tuán)隊(duì)提出了一種基于光柵化(rasterization)的單目動態(tài)場景建模 pipeline,首次將變形場(Deformation Field)與 3D 高斯(3D Gaussian Splatting)結(jié)合,實(shí)現(xiàn)了高質(zhì)量的重建與新視角渲染。

        研究論文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被計算機(jī)視覺頂級國際學(xué)術(shù)會議 CVPR 2024 接收。值得一提的是,這是首個使用變形場將 3D 高斯拓展到單目動態(tài)場景的工作。

        項(xiàng)目主頁:

        https://ingra14m.github.io/Deformable-Gaussians/

        論文地址:

        https://arxiv.org/abs/2309.13101

        代碼地址:

        https://github.com/ingra14m/Deformable-3D-Gaussians


        實(shí)驗(yàn)結(jié)果表明,變形場可以準(zhǔn)確地將規(guī)范空間下的 3D 高斯前向映射(forward-flow)到觀測空間,不僅在 D-NeRF 數(shù)據(jù)集上實(shí)現(xiàn)了 10 + 的 PSNR 提高,而且在相機(jī)位姿不準(zhǔn)確的真實(shí)場景也取得了渲染細(xì)節(jié)上的增加:

        ▲ 圖1. HyperNeRF 真實(shí)場景的實(shí)驗(yàn)結(jié)果


        一、相關(guān)工作

        動態(tài)場景重建一直以來是三維重建的熱點(diǎn)問題。隨著以 NeRF 為代表的神經(jīng)渲染實(shí)現(xiàn)了高質(zhì)量的渲染,動態(tài)重建領(lǐng)域涌現(xiàn)出了一系列以隱式表征作為基礎(chǔ)的工作。

        D-NeRF 和 Nerfies 在 NeRF 光線投射 pipeline 的基礎(chǔ)上引入了變形場,實(shí)現(xiàn)了穩(wěn)健的動態(tài)場景重建。TiNeuVox,K-Planes 和 Hexplanes 在此基礎(chǔ)上引入了網(wǎng)格結(jié)構(gòu),大大加速了模型的訓(xùn)練過程,渲染速度有一定的提高。然而這些方法都基于逆向映射,無法真正實(shí)現(xiàn)高質(zhì)量的規(guī)范空間和變形場的解耦。

        3D 高斯?jié)姙R是一種基于光柵化的點(diǎn)云渲染 pipeline。其 CUDA 定制的可微高斯光柵化 pipeline 和創(chuàng)新的致密化使得 3D 高斯不僅實(shí)現(xiàn)了 SOTA 的渲染質(zhì)量,還實(shí)現(xiàn)了實(shí)時渲染。Dynamic 3D 高斯首先將靜態(tài)的 3D 高斯拓展到了動態(tài)領(lǐng)域。然而,其只能處理多目場景非常嚴(yán)重地制約了其應(yīng)用于更通用的情況,如手機(jī)拍攝等單目場景。

        二、研究思想

        Deformable-GS 的核心在于將靜態(tài)的 3D 高斯拓展到單目動態(tài)場景。每一個 3D 高斯攜帶位置,旋轉(zhuǎn),縮放,不透明度和 SH 系數(shù)用于圖像層級的渲染。

        根據(jù) 3D 高斯 alpha-blend 的公式,不難發(fā)現(xiàn),隨時間變化的位置,以及控制高斯形狀的旋轉(zhuǎn)和縮放是決定動態(tài) 3D 高斯的決定性參數(shù)。然而,不同于傳統(tǒng)的基于點(diǎn)云的渲染方法,3D 高斯在初始化之后,位置,透明度等參數(shù)會隨著優(yōu)化不斷更新。這給動態(tài)高斯的學(xué)習(xí)增加了難度。

        該研究創(chuàng)新性地提出了變形場與 3D 高斯聯(lián)合優(yōu)化的動態(tài)場景渲染框架。具體來說,該研究將 COLMAP 或隨機(jī)點(diǎn)云初始化的 3D 高斯視作規(guī)范空間,隨后通過變形場,以規(guī)范空間中 3D 高斯的坐標(biāo)信息作為輸入,預(yù)測每一個 3D 高斯隨時間變化的位置和形狀參數(shù)。

        利用變形場,該研究可以將規(guī)范空間的 3D 高斯變換到觀測空間用于光柵化渲染。這一策略并不會影響 3D 高斯的可微光柵化 pipeline,經(jīng)過其計算得到的梯度可以用于更新規(guī)范空間 3D 高斯的參數(shù)。

        此外,引入變形場有利于動作幅度較大部分的高斯致密化。這是因?yàn)閯幼鞣容^大的區(qū)域變形場的梯度也會相對較高,從而指導(dǎo)相應(yīng)區(qū)域在致密化的過程中得到更精細(xì)的調(diào)控。即使規(guī)范空間 3D 高斯的數(shù)量和位置參數(shù)在初期也在不斷更新,但實(shí)驗(yàn)結(jié)果表明,這種聯(lián)合優(yōu)化的策略可以最終得到穩(wěn)健的收斂結(jié)果。大約經(jīng)過 20000 輪迭代,規(guī)范空間的 3D 高斯的位置參數(shù)幾乎不再變化。

        研究團(tuán)隊(duì)發(fā)現(xiàn)真實(shí)場景的相機(jī)位姿往往不夠準(zhǔn)確,而動態(tài)場景更加劇了這一問題。這對于基于神經(jīng)輻射場的結(jié)構(gòu)來說并不會產(chǎn)生較大的影響,因?yàn)樯窠?jīng)輻射場基于多層感知機(jī)(Multilayer Perceptron,MLP),是一個非常平滑的結(jié)構(gòu)。但是 3D 高斯是基于點(diǎn)云的顯式結(jié)構(gòu),略微不準(zhǔn)確的相機(jī)位姿很難通過高斯?jié)姙R得到較為穩(wěn)健地矯正。

        為了緩解這個問題,該研究創(chuàng)新地引入了退火平滑訓(xùn)練(Annealing Smooth Training,AST)。該訓(xùn)練機(jī)制旨在初期平滑 3D 高斯的學(xué)習(xí),在后期增加渲染的細(xì)節(jié)。這一機(jī)制的引入不僅提高了渲染的質(zhì)量,而且大幅度提高了時間插值任務(wù)的穩(wěn)定性與平滑性。

        圖 2 展示了該研究的 pipeline,詳情請參見論文原文。

        ▲ 圖2. 該研究的 pipeline


        三、結(jié)果展示

        該研究首先在動態(tài)重建領(lǐng)域被廣泛使用的 D-NeRF 數(shù)據(jù)集上進(jìn)行了合成數(shù)據(jù)集的實(shí)驗(yàn)。從圖 3 的可視化結(jié)果中不難看出,Deformable-GS 相比于之前的方法有著非常巨大的渲染質(zhì)量提升。

        ▲ 圖3. 該研究在D-NeRF數(shù)據(jù)集上的定性實(shí)驗(yàn)對比結(jié)果


        該研究提出的方法不僅在視覺效果上取得了大幅度的提升,在渲染的定量指標(biāo)上也有著相應(yīng)的改進(jìn)。

        值得注意的是,研究團(tuán)隊(duì)發(fā)現(xiàn) D-NeRF 數(shù)據(jù)集的 Lego 場景存在錯誤,即訓(xùn)練集和測試集的場景具有微小的差別。這體現(xiàn)在 Lego 模型鏟子的翻轉(zhuǎn)角度不一致。這也是為什么之前方法在 Lego 場景的指標(biāo)無法提高的根本原因。為了實(shí)現(xiàn)有意義的比較,該研究使用了 Lego 的驗(yàn)證集作為指標(biāo)測量的基準(zhǔn)。

        ▲ 圖4. 在合成數(shù)據(jù)集上的定量比較


        如圖 4 所示,該研究在全分辨率(800x800)下對比了 SOTA 方法,其中包括了 CVPR 2020 的 D-NeRF,Sig Asia 2022 的 TiNeuVox 和 CVPR2023 的 Tensor4D,K-planes。該研究提出的方法在各個渲染指標(biāo)(PSNR、SSIM、LPIPS),各個場景下都取得了大幅度的提高。

        該研究提出的方法不僅能夠適用于合成場景,在相機(jī)位姿不夠準(zhǔn)確的真實(shí)場景也取得了 SOTA 結(jié)果。如圖 5 所示,該研究在 NeRF-DS 數(shù)據(jù)集上與 SOTA 方法進(jìn)行了對比。實(shí)驗(yàn)結(jié)果表明,即使沒有對高光反射表面進(jìn)行特殊處理,該研究提出的方法依舊能夠超過專為高光反射場景設(shè)計的 NeRF-DS,取得了最佳的渲染效果。

        ▲ 圖5. 真實(shí)場景方法對比


        雖然 MLP 的引入增加了渲染開銷,但是得益于 3D 高斯極其高效的 CUDA 實(shí)現(xiàn)與我們緊湊的 MLP 結(jié)構(gòu),我們依舊能夠做到實(shí)時渲染。在 3090 上 D-NeRF 數(shù)據(jù)集的平均 FPS 可以達(dá)到 85(400x400),68(800x800)。

        此外,該研究還首次應(yīng)用了帶有前向與反向深度傳播的可微高斯光柵化管線。如圖 6 所示,該深度也證明了 Deformable-GS 也可以得到魯棒的幾何表示。深度的反向傳播可以推動日后很多需要使用深度監(jiān)督的任務(wù),例如逆向渲染(Inverse Rendering),SLAM 與自動駕駛等。

        ▲ 圖6. 深度可視化?


        作者簡介


        論文第一作者:

        楊子逸,浙江大學(xué)碩士二年級,主要研究方向?yàn)槿S高斯、神經(jīng)輻射場、實(shí)時渲染等。 

        論文其他作者:

        高新宇,浙江大學(xué)碩士三年級,主要研究方向?yàn)樯窠?jīng)輻射場,隱式場景組合。張宇晴:浙江大學(xué)碩士二年級,主要研究方向?yàn)?3D 生成,逆向渲染。 

        論文通訊作者為浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院金小剛教授。

         

        Email: [email protected] 

        個人主頁:http://www.cad.zju.edu.cn/home/jin/


        編輯:黃繼彥

        瀏覽 38
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            亚洲无限观看 | 欧美黄色一级生活片 | A片免费网址| 2019中文字幕在线 | 日本熟妇丰满毛茸茸无码 | 一级a一级a爰片免费免软件下载 | 国产一区二区三区在线 | 成人免费乱码大片在线播放 | 无码av网站 | 婷婷五月丁香五月 |