1. <strong id="7actg"></strong>
    2. <table id="7actg"></table>

    3. <address id="7actg"></address>
      <address id="7actg"></address>
      1. <object id="7actg"><tt id="7actg"></tt></object>

        (附論文&代碼)CVPR 2020 | 基于深度引導(dǎo)卷積的單目3D目標(biāo)檢測(cè)

        共 3160字,需瀏覽 7分鐘

         ·

        2021-07-07 00:34

        點(diǎn)擊左上方藍(lán)字關(guān)注我們



        全網(wǎng)搜集目標(biāo)檢測(cè)相關(guān),人工篩選最優(yōu)價(jià)值內(nèi)容

        編者薦語
        單目3D目標(biāo)檢測(cè)最大的挑戰(zhàn)在于無法得到精確的深度信息,傳統(tǒng)的二維卷積算法不適合這項(xiàng)任務(wù),因?yàn)樗荒懿东@局部目標(biāo)及其尺度信息,而這對(duì)三維目標(biāo)檢測(cè)至關(guān)重要。


        論文:https://arxiv.org/pdf/1912.04799v1

        代碼:https://github.com/dingmyu/D4LCN


        參考論文:D4LCN:Learning Depth-Guided Convolutions for Monocular 3D Object Detection(CVPR2020)

        論文、代碼地址:在公眾號(hào)「計(jì)算機(jī)視覺工坊」,后臺(tái)回復(fù)「D4LCN」,即可直接下載。

        參考paddle復(fù)現(xiàn):3D目標(biāo)檢測(cè)(單目)D4LCN論文復(fù)現(xiàn)(https://aistudio.baidu.com/aistudio/projectoverview/public)

        Abstract

        為了更好地表示三維結(jié)構(gòu),現(xiàn)有技術(shù)通常將二維圖像估計(jì)的深度圖轉(zhuǎn)換為偽激光雷達(dá)表示,然后應(yīng)用現(xiàn)有3D點(diǎn)云的物體檢測(cè)算法.因此他們的結(jié)果在很大程度上取決于估計(jì)深度圖的精度,從而導(dǎo)致性能不佳.在本文中,作者通過提出一種新的稱為深度引導(dǎo)的局部卷積網(wǎng)絡(luò)(LCN),更改了二維全卷積  (D4LCN),其中的filter及其感受野可以從基于圖像的深度圖中自動(dòng)學(xué)習(xí),使不同圖像的不同像素具有不同的filter.克服了傳統(tǒng)二維卷積的局限性,縮小了圖像表示與三維點(diǎn)云表示的差距.D4LCN對(duì)于最先進(jìn)的KITTI的相對(duì)改進(jìn)是9.1%,單目3D檢測(cè)的SOTA方法.

        Introduction

        3D目標(biāo)檢測(cè)有許多應(yīng)用,如自動(dòng)駕駛和機(jī)器人技術(shù).LiDAR設(shè)備可以獲得三維點(diǎn)云,從而獲得精確的深度信息.但是,LiDAR高成本和稀疏輸出的特點(diǎn)讓人們希望尋找到更便宜的替代品,這些替代品的其中之一維單目相機(jī).雖然單目相機(jī)引起了人們的廣泛關(guān)注,但在很大程度上不能夠解決3D目標(biāo)檢測(cè)問題.實(shí)現(xiàn)上述目標(biāo)的方法通常是分為基于2圖像的方法和基于偽激光雷達(dá)點(diǎn)的方法兩種.基于圖像的方法通常利用幾何體約束,包括對(duì)象形狀、地平面和關(guān)鍵點(diǎn).這些約束條件在損失函數(shù)中用不同的項(xiàng)表示,以提高檢測(cè)結(jié)果.基于偽激光雷達(dá)的圖像深度變換方法是通過模擬激光雷達(dá)信號(hào)的點(diǎn)云表示.如圖1所示,這兩種方法各有缺點(diǎn),都導(dǎo)致了性能不理想.
        圖1.(a)和(b)分別顯示了監(jiān)督深度估計(jì)器DORN和無監(jiān)督單深度生成的偽激光雷達(dá)點(diǎn).綠色框表示groundtruth(GT)3D框.如(b)所示,由于深度不準(zhǔn)確而產(chǎn)生的偽激光雷達(dá)點(diǎn)與GTbox有較大的偏移量(c)和(d)顯示了我們的方法和偽激光雷達(dá)使用粗深度圖的探測(cè)結(jié)果.效果在很大程度上取決于估計(jì)深度圖的精度,而我們的方法在缺少精確深度圖的情況下可以獲得準(zhǔn)確的檢測(cè)結(jié)果
        • 基于圖像的方法通常無法獲取有意義的局部對(duì)象尺度和結(jié)構(gòu)信息,這主要是由于以下兩個(gè)因素,遠(yuǎn)近距離的單眼視覺會(huì)引起物體尺度的顯著變化.傳統(tǒng)的二維卷積核很難同時(shí)處理不同尺度的對(duì)象(見圖2).二維卷積的局部鄰域定義在攝像機(jī)平面上,其中深度維數(shù)丟失.在這個(gè)非度量空間(e像素之間的距離沒有一個(gè)明確的物理意義),過濾器無法區(qū)分對(duì)象和背景.在這種情況下,汽車區(qū)域和背景區(qū)域?qū)⒈煌葘?duì)待.
        • 雖然基于偽激光雷達(dá)點(diǎn)的方法已經(jīng)取得了一些進(jìn)展,但它們?nèi)匀淮嬖趦蓚€(gè)關(guān)鍵問題,這些方法的性能在很大程度上依賴于估計(jì)深度圖的精度(見圖1).從單目圖像中提取的深度圖通常是粗糙的(使用它們估計(jì)的點(diǎn)云具有錯(cuò)誤的坐標(biāo)),導(dǎo)致不準(zhǔn)確的三維預(yù)測(cè).換句話說,深度圖的精度限制了三維目標(biāo)檢測(cè)的性能.偽激光雷達(dá)方法不能有效地利用從RGB圖像中提取的高層語義信息,導(dǎo)致大量的虛警,這是因?yàn)辄c(diǎn)云提供了空間信息,卻丟失了語義信息.
        • 為了解決上述問題,我們提出了一種新的卷積網(wǎng)絡(luò)D4LCN,其中卷積核由深度映射生成,并局部應(yīng)用于單個(gè)圖像樣本的每個(gè)像素和通道,而不是學(xué)習(xí)全局內(nèi)核來應(yīng)用于所有圖像.如圖2所示,D4LCN以深度圖為指導(dǎo),從RGB圖像中學(xué)習(xí)局部動(dòng)態(tài)深度擴(kuò)展核,以填補(bǔ)二維和三維表示之間的空白,其中每個(gè)核都有自己的擴(kuò)張率.
        圖2.不同卷積方法的比較(a)是傳統(tǒng)的二維卷積,它在每個(gè)像素上使用一個(gè)卷積核來卷積整個(gè)圖像(b)對(duì)圖像的不同區(qū)域(切片)應(yīng)用多個(gè)固定卷積核.(c)使用深度圖為每個(gè)像素生成具有相同接收?qǐng)龅膭?dòng)態(tài)核(d)表示我們的方法,其中濾波器是動(dòng)態(tài)的,深度圖為每個(gè)像素和通道特性圖具有自適應(yīng)接收?qǐng)?它可以用比(C)更少的參數(shù)更有效地實(shí)現(xiàn).
        我們的貢獻(xiàn)(1)提出了一種新的三維目標(biāo)檢測(cè)組件D4LCN,其中深度圖指導(dǎo)了單目圖像的動(dòng)態(tài)深度擴(kuò)展局部卷積的學(xué)習(xí)(2)設(shè)計(jì)了一個(gè)基于D4LCN的單級(jí)三維物體檢測(cè)框架,以更好的學(xué)習(xí)三維特征,以縮小二維卷積和基于三維點(diǎn)云的運(yùn)算之間的差距(3)大量實(shí)驗(yàn)表明,D4LCN優(yōu)于最先進(jìn)的單眼3D檢測(cè)方法,并在KITTIbenchmark上取得第一名.

        網(wǎng)絡(luò)結(jié)構(gòu)

        我們的框架由三個(gè)關(guān)鍵組件組成:網(wǎng)絡(luò)主干、深度引導(dǎo)濾波模塊和2D-3D head
        圖3.單目三維物體檢測(cè)框架.首先從RGB圖像中估計(jì)出深度圖,并與RGB圖像一起作為輸出兩個(gè)分支網(wǎng)絡(luò)的輸入.然后利用深度引導(dǎo)濾波模塊對(duì)每個(gè)殘差塊的信息進(jìn)行融合.最后,采用一級(jí)非最大抑制探測(cè)頭(NMS)進(jìn)行預(yù)測(cè)
        損失函數(shù)

        比較結(jié)果

        我們?cè)趉itti數(shù)據(jù)集的官方測(cè)試集和兩組驗(yàn)證集上進(jìn)行了實(shí)驗(yàn).表一包括排名前14位的方法,其中我們的方法排名第一.可以觀察到:
        (1)我們的方法比第二個(gè)最好的競(jìng)爭(zhēng)對(duì)手三維汽車檢測(cè)的提高9.1%
        (2)大多數(shù)競(jìng)爭(zhēng)對(duì)手在COCO/KITTI上預(yù)先訓(xùn)練的檢測(cè)器(例如更快的rcnn)或采用多階段訓(xùn)練來獲得更好的2D檢測(cè)和穩(wěn)定的3D結(jié)果.而我們的模型是使用標(biāo)準(zhǔn)的ImageNet預(yù)訓(xùn)練模型進(jìn)行端到端訓(xùn)練的.然而,我們?nèi)匀蝗〉昧俗顑?yōu)異的三維檢測(cè)結(jié)果,驗(yàn)證了我們的D4LCN學(xué)習(xí)三維結(jié)構(gòu)的有效性.
        表1.KITTI 3D目標(biāo)檢測(cè)數(shù)據(jù)集的比較結(jié)果.
        因?yàn)槿耸欠莿傮w.其形狀多變,深度信息難以準(zhǔn)確估計(jì).因此,對(duì)行人和騎自行車的人進(jìn)行三維檢測(cè)變得尤為困難,所有基于偽激光雷達(dá)的方法都無法檢測(cè)到這兩種類型的傳感器,如表2所示.該方法在行人和騎車人的三維檢測(cè)中仍取得了令人滿意的效果.此外,我們還在圖4中顯示了與我們的D4LCN的不同濾波器相對(duì)應(yīng)的活動(dòng)映射.我們模型的同一層上的不同濾波器使用不同大小的感受野來處理不同規(guī)模的物體,包括行人(?。┖推嚕ù螅?以及遠(yuǎn)處的汽車(?。┖透浇钠嚕ù螅?
        表2.D4LCN在三個(gè)數(shù)據(jù)分割上的多類3D檢測(cè)結(jié)果.
        圖4.D4LCN的不同濾波器對(duì)應(yīng)的活動(dòng),分別表示1,2,3的擴(kuò)張率.不同的濾波器在模型中有不同的函數(shù)來自適應(yīng)地處理尺度問題.

        總結(jié)

        本文提出了一種用于單眼三維目標(biāo)檢測(cè)D4LCN,其卷積核和感受野(擴(kuò)張率)對(duì)于不同圖像的不同像素和通道是不同的.這些核是在深度映射的基礎(chǔ)上動(dòng)態(tài)生成的,以彌補(bǔ)二維卷積的局限性,縮小二維卷積與基于點(diǎn)云的三維算子之間的差距.結(jié)果表明,該算法不僅能解決二維卷積的尺度敏感和無意義的局部結(jié)構(gòu)問題,而且能充分利用RGB圖像的高級(jí)語義信息.而且D4LCN能更好地捕獲KITTI數(shù)據(jù)集上的三維信息,并能在KITTI數(shù)據(jù)集上進(jìn)行單目三維目標(biāo)檢測(cè).

        END



        雙一流大學(xué)研究生團(tuán)隊(duì)創(chuàng)建,專注于目標(biāo)檢測(cè)與深度學(xué)習(xí),希望可以將分享變成一種習(xí)慣!

        整理不易,點(diǎn)贊三連↓

        瀏覽 79
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        評(píng)論
        圖片
        表情
        推薦
        點(diǎn)贊
        評(píng)論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報(bào)
        1. <strong id="7actg"></strong>
        2. <table id="7actg"></table>

        3. <address id="7actg"></address>
          <address id="7actg"></address>
          1. <object id="7actg"><tt id="7actg"></tt></object>
            五级女淫片视频90分钟电影 | 国产淫色在线视频 | 四川女富婆又黄又爽 | 日韩一级电影在线 | 日韩欧美亚洲第一分区 | a√天堂资源中文8 | 69**夜色精品国产69乱 | 操操逼视频 | 舔到高潮视频 | 91色视频 |