1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        用于自動駕駛的混合稀疏-稠密單目SLAM系統(tǒng)

        共 4549字,需瀏覽 10分鐘

         ·

        2022-07-10 02:14

        0. 引言

        隨著自動駕駛系統(tǒng)的推廣,越來越多的應(yīng)用要求SLAM具備高動態(tài)定位以及稠密建圖能力。在論文"A Hybrid Sparse-Dense Monocular SLAM System for Autonomous Driving"中,作者提出了一種混合稀疏特征和稠密建圖的SLAM系統(tǒng),并利用UnRectDepthNet來進行單目相機的深度估計。重要的是,算法已經(jīng)開源。

        1. 論文信息

        標題:A Hybrid Sparse-Dense Monocular SLAM System for Autonomous Driving

        作者:Louis Gallagher, Varun Ravi Kumar, Senthil Yogamani, John B. McDonald

        來源:2021 Computer Vision and Pattern Recognition (CVPR)

        原文鏈接:https://arxiv.org/abs/2108.07736

        代碼鏈接:https://github.com/robotvisionmu/DenseMonoSLAM

        2. 摘要

        在本文中,我們介紹了一個使用安裝在移動車輛上的單目相機,逐步重建室外環(huán)境幾何圖形的稠密3D模型的系統(tǒng)。稠密模型提供了豐富的環(huán)境表示,有助于更高層次的場景理解、感知和規(guī)劃。

        我們的系統(tǒng)采用稠密深度預(yù)測和混合建圖架構(gòu),在一個集成框架內(nèi)結(jié)合了最先進的基于稀疏特征和稠密融合的視覺SLAM算法。

        我們的新貢獻包括混合稀疏-稠密相機跟蹤和回環(huán)的設(shè)計,以及稠密深度預(yù)測中的尺度估計改進。我們使用來自稀疏方法的運動估計來克服戶外車輛場景中典型的大且可變的幀間位移。然后,我們的系統(tǒng)使用整體圖像對齊將活躍圖像與稠密模型配準。這使得能夠?qū)崟r幀和稠密深度預(yù)測融合到模型中。稀疏和稠密模型之間的全局一致性和對齊是通過直接在稠密模型的變形內(nèi)應(yīng)用來自稀疏方法的姿態(tài)約束來實現(xiàn)的。我們提供了軌跡估計和表面重建精度的定性和定量結(jié)果,展示了在KITTI數(shù)據(jù)集上的競爭性能。所提出方法的定性結(jié)果可在https://youtu.be/Pn2uaVqjskY查看。

        3. 算法分析

        如圖1所示是作者提出的混合SLAM框架原理,其采用一種混合的方法來進行稠密的單目跟蹤和建圖。首先使用基于特征點法的ORB-SLAM3,為每一幀提供相機姿態(tài)的初始估計。然后,系統(tǒng)遵循稠密交替架構(gòu),擴展了ElasticFusion。

        其中地圖首先保持固定,同時使用上一步中的初始姿態(tài)估計值,對相機進行跟蹤。一旦估計了相機姿態(tài),將當前幀融合到地圖中。作者使用SOTA自監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)UnRectDepthNet來稠密地預(yù)測深度估計。此外,各種子系統(tǒng)在不同的處理器上運行:稠密交替和深度預(yù)測網(wǎng)絡(luò)使用GPU運行,而ORB-SLAM3在CPU上運行。作者提出的混合架構(gòu)總結(jié)如下:

        (1) 深度預(yù)測網(wǎng)絡(luò)用于估計每一幀的度量深度圖。同時,使用ORB-SLAM3的基于特征的跟蹤算法進行相機運動的初始估計,該跟蹤算法適合于車輛的快速運動。

        (2) 通過將初始姿態(tài)估計與相機視野中的當前活躍模型對準,進一步細化初始姿態(tài)估計。

        (3) 實時RGB圖像和相應(yīng)的預(yù)測度量深度圖被融合到場景的全局稠密模型中。按照原始EF算法,surfel模型被分成活躍和非活躍部分。

        (4) 當ORB-SLAM識別出一個閉環(huán)時,使用EF變形圖中的結(jié)果環(huán)閉合約束來校正稠密表面的幾何形狀。這使得先前訪問的地圖的非活躍部分重新與當前活躍部分對齊。重要的是,這也使ORB-SLAM和EF的不同地圖和相機軌跡保持一致。

        圖1 混合SLAM框架概述

        作者的主要貢獻總結(jié)如下:

        (1) 開發(fā)了一個單目SLAM算法,可以應(yīng)用于室外環(huán)境中的移動車輛。據(jù)作者所述,這是第一個在自動駕駛場景中定量評估的完全稠密SLAM系統(tǒng)。

        (2) 在混合架構(gòu)中使用了稠密的深度預(yù)測網(wǎng)絡(luò),以松耦合的方式結(jié)合了最先進的基于稀疏特征跟蹤和稠密融合的視覺SLAM算法。同時改進了以前的稠密深度預(yù)測方法,在SLAM應(yīng)用中增加新的正則化損失和更好的尺度估計。

        (3) 使用來自稀疏方法的運動估計來克服戶外車輛場景中典型的大且可變的幀間位移,然后使用將實況圖像與稠密模型配準對齊。稀疏和稠密模型之間的全局一致性和對齊是通過直接在稠密模型的變形內(nèi)應(yīng)用來自稀疏方法的姿態(tài)約束來實現(xiàn)的。

        (4) 在KITTI基準數(shù)據(jù)集上評估了該方法,提供了軌跡和表面重建精度的定性和定量結(jié)果。

        3.1 尺度感知深度估計

        基于UnRectDepthNet網(wǎng)絡(luò),作者為自監(jiān)督深度估計建立了相同的SFM框架。并采用針孔相機投影模型進行視圖合成,最終目標由光度項*L~p~和邊緣平滑正則項L~s~組成。采用了跨序列深度一致性損失L~dc~*和尺度恢復(fù)方法。

        此外,通過結(jié)合自動編碼器來獲得場景的魯棒全局特征,設(shè)置區(qū)別性損失*L~dis~以及收斂性損失L~cvt~。L~dis~L~cvt~*的主要目標是防止優(yōu)化目標被困在諸如天空和道路等低紋理區(qū)域的幾個局部最小值。最終總目標深度為:

        此外,尺度模糊是單目深度估計中一個具有挑戰(zhàn)性的問題。因此,需要一個絕對值作為錨點,即通過從另一個專用傳感器進行的測量來提供,以獲得實際的深度估計。

        在正文中,作者使用Velodyne點云和校準信息的結(jié)合來改進尺度的估計。并使用Velodyne激光雷達作為真值,通過將計算與圖像平面上的正確像素關(guān)聯(lián)來估計比例因子,進而最小化損失。此外,作者假設(shè)訓(xùn)練和測試數(shù)據(jù)集之間的深度一致性,它可以對具有高姿態(tài)可變性的數(shù)據(jù)集提供幫助。

        3.2 基于特征的ORB-SLAM3-RGBD跟蹤

        ORB-SLAM3建立了場景的稀疏地圖,并使用共視圖來表示。共視圖中的每個節(jié)點對應(yīng)一個關(guān)鍵幀,其由一個位姿和一組3D點組成。當兩個關(guān)鍵幀之間存在共視關(guān)系時,它們之間的一條邊會添加到共視圖中。ORB-SLAM3有3個主線程。跟蹤線程從相機接收RGB-D幀,提取ORB特征,并利用前一幀通過僅定位BA計算初始姿態(tài)估計。

        通過將當前幀與可見關(guān)鍵幀的局部圖對齊,進一步細化估計。檢測到新的關(guān)鍵幀并將其發(fā)送到建圖線程。此處,新關(guān)鍵幀附近的局部地圖通過全局BA進行了優(yōu)化?;丨h(huán)檢測使用DBoW進行,如果新關(guān)鍵幀和匹配關(guān)鍵幀之間的幾何對齊成功,則形成回環(huán),并將兩個關(guān)鍵幀之間的邊添加到圖形中。關(guān)鍵幀附近的局部地圖被嚴格地變換到適當?shù)奈恢?。關(guān)鍵幀圖的其余部分使用姿勢圖優(yōu)化進行校正。執(zhí)行最終的全局BA以恢復(fù)所有關(guān)鍵幀姿態(tài)和結(jié)構(gòu)的MAP估計。

        3.3 混合相機跟蹤

        在混合系統(tǒng)中,首先將RGB圖和預(yù)測得到的深度圖傳遞給ORB-SLAM,以計算相機位姿的初始估計。之后需要平衡位姿的準確性,以及與稠密模型保持對齊,進而準確地融合關(guān)鍵幀。為了使相機重新與模型對齊,作者對位姿進行了幀到模型的細化。

        在位姿周圍的活躍地圖被渲染成一個位于該位姿處的虛擬相機。然后,在嵌入3級圖像金字塔的非線性最小二乘中,估計對準實時幀到虛擬幀的6自由度齊次變換矩陣。用位姿合成變換可以為當前幀產(chǎn)生一個精確的位姿估計。

        3.4 混合回環(huán)

        如圖3所示,混合回環(huán)有兩個目標:(1) 調(diào)整稠密表面的幾何形狀以與現(xiàn)實世界保持一致;(2) 保持稠密地圖與ORB-SLAM的稀疏建圖和相機姿態(tài)估計一致。它還平衡了對這種一致性的需要和修正稠密幾何的計算強度。

        圖2 回環(huán)示例

        (i) 一輛汽車開始探索(綠色箭頭);(ii) 在一段時間之后,由汽車先前繪制的區(qū)域與其當前位置之間的回環(huán);

        (iii) 在應(yīng)用回環(huán)之前,漂移明顯;(iv) 模型的活躍部分(綠色)偏離了模型的非活躍部分(灰色);(v) 地圖的活躍部分與非活躍部分對齊;(vi) 觸發(fā)回環(huán),重新激活用于建圖和跟蹤的部分;(vii) 最終的全局模型

        4. 實驗

        作者主要在KITTI上進行測試,主要評估了軌跡估計和表面重建的精度。系統(tǒng)運行的硬件條件為i7?7700K CPU、16GB內(nèi)存和NVIDIA GTX 1080Ti GPU。

        4.1 KITTI-跟蹤

        作者展示了KITTI數(shù)據(jù)集中序列01、02、06、08、09和10的結(jié)果,其余序列用于深度預(yù)測網(wǎng)絡(luò)的訓(xùn)練。對于每個測試序列,使用長度從100米到800米的序列的相對平移誤差。表1顯示了實驗方案和ORB-SLAM2以及D3VO的對比結(jié)果。

        實驗表明,使用稠密深度預(yù)測和ORB-SLAM(O)的RGBD模式,可以使用單目相機進行精確的度量尺度的相機跟蹤。當引入混合跟蹤(H),它允許當前的幀被融合到模型中。引入混合回環(huán)(H+L)有助于使稀疏和稠密的模型恢復(fù)對齊,并減少模型和軌跡中的全局誤差。此外,由于結(jié)構(gòu)很少的場景會導(dǎo)致深度預(yù)測和相機跟蹤的退化,因此序列01是一個重要挑戰(zhàn),圖3顯示了這個序列的定性結(jié)果。

        表1 KITTI數(shù)據(jù)集上的相對平移誤差

        圖3 KITTI數(shù)據(jù)集01序列的定性結(jié)果

        4.2 KITTI-表面重建

        作者從KITTI數(shù)據(jù)集中評估了表面重建精度。由于KITTI不包括表面真值,作者將其與每個序列的Velodyne點云構(gòu)建的模型進行比較。表2中顯示了估計模型中的點與Velodyne點云中的最近點之間的表面到表面的平均距離。在計算分數(shù)之前,這兩個模型都是嚴格對齊的。

        表2 KITTI數(shù)據(jù)集上的表面精度

        4.3 系統(tǒng)資源使用

        在圖4中,作者展示了KITTI數(shù)據(jù)集中序列09的幀處理時間的細分。建圖時間(藍色)根據(jù)surfel數(shù)量(紫色)增加。該系統(tǒng)運行在8?9 Hz之間,序列末端的峰值是由于一個全局回環(huán)產(chǎn)生的。表3顯示了在KITTI特征分割測試集上的運行性能的分布。

        圖4 系統(tǒng)所花費的時間的細分

        表3 KITTI特征分割的測試序列上的分布

        4.4 KITTI-深度估計

        如表4所示,作者使用了KITTI特征分割上的深度估計設(shè)置。結(jié)果顯示,作者提出的方案優(yōu)于之前所有的單目自監(jiān)督方法。根據(jù)最佳實踐,作者將深度限制在80米,并使用改進的深度圖真值進行評估。如圖5所示是在KITTI數(shù)據(jù)集上的軌跡和稠密重建結(jié)果。

        表4 對改進的KITTI特征分割的深度估計的評估

        圖5 KITTI數(shù)據(jù)集上的軌跡和稠密重建結(jié)果

        (a) 作者提出系統(tǒng)產(chǎn)生的最終模型 (b)與軌跡真值的對比 (c)車輛十字路口時重建的近距離圖

        5. 結(jié)論

        在2021 CVPR論文"A Hybrid Sparse-Dense Monocular SLAM System for Autonomous Driving"中,作者提出了一種將稠密深度預(yù)測、稀疏特征跟蹤和稠密疊加融合技術(shù)相結(jié)合的混合SLAM系統(tǒng)。該系統(tǒng)允許在自動駕駛場景中使用單目相機對室外場景進行實時稠密的度量重建。稀疏跟蹤提供了相機姿態(tài)估計,能夠在車輛速度下魯棒地運行。所得到的姿態(tài)用于稠密融合跟蹤步驟中,以初始化整個圖像對齊細化過程。

        通過視覺位置識別和稀疏系統(tǒng)的姿態(tài)約束來保持模型的全局一致性,并將其傳遞到稠密融合算法,與基于變形圖的地圖校正步驟集成。該系統(tǒng)是第一個基于稠密單目融合的視覺SLAM系統(tǒng)。此外,作者提到,雖然該文章的重點是自動駕駛,但通過對深度預(yù)測網(wǎng)絡(luò)的再訓(xùn)練,該系統(tǒng)可以很容易地適應(yīng)其他場景。

        瀏覽 77
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點贊
        評論
        收藏
        分享

        手機掃一掃分享

        分享
        舉報
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            日骚逼逼| 人人看人人摸人人透 | 国产精品露奶操逼 | 亚洲午夜福利在线观看 | 色999综合 | 青青草视频免费观看 | 日欧成人AV | av噜噜噜在线播放 | ass裸妇漂亮人体pics | 第一色综合 |