1. 史上最全綜述 | 3D目標(biāo)檢測算法匯總?。▎文?雙目/LiDAR/多模態(tài)/時序/半弱自監(jiān)督)

        共 17900字,需瀏覽 36分鐘

         ·

        2022-08-25 10:54

        本文約15200,建議閱讀15+分鐘

        我們對3D目標(biāo)檢測方法進(jìn)行了性能分析,并總結(jié)了多年來的研究趨勢,展望了該領(lǐng)域的未來方向。


        1摘要


        近年來,自動駕駛因其減輕駕駛員負(fù)擔(dān)、提高行車安全的潛力而受到越來越多的關(guān)注。在現(xiàn)代自動駕駛系統(tǒng)中,感知系統(tǒng)是不可或缺的組成部分,旨在準(zhǔn)確估計周圍環(huán)境的狀態(tài),并為預(yù)測和規(guī)劃提供可靠的觀察結(jié)果。3D目標(biāo)檢測可以智能地預(yù)測自動駕駛車輛附近關(guān)鍵3D目標(biāo)的位置、大小和類別,是感知系統(tǒng)的重要組成部分。本文回顧了應(yīng)用于自動駕駛領(lǐng)域的3D目標(biāo)檢測的進(jìn)展。首先,我們介紹了3D目標(biāo)檢測的背景并討論了該任務(wù)中的一些挑戰(zhàn)。其次,我們從模型和傳感器輸入方面對3D目標(biāo)檢測的進(jìn)展進(jìn)行了全面調(diào)查,包括基于LiDAR、基于相機(jī)和多模態(tài)檢測方法。我們還對每一類方法的潛力和挑戰(zhàn)進(jìn)行了深入分析。此外,我們系統(tǒng)地研究了3D目標(biāo)檢測在駕駛系統(tǒng)中的應(yīng)用。最后,我們對3D目標(biāo)檢測方法進(jìn)行了性能分析,并進(jìn)一步總結(jié)了多年來的研究趨勢,展望了該領(lǐng)域的未來方向。

        2簡述


        自動駕駛,旨在使車輛智能地感知周圍環(huán)境,并在很少或無需人力的情況下安全行駛,近年來取得了快速發(fā)展。自動駕駛技術(shù)已廣泛應(yīng)用于自動駕駛卡車、無人駕駛出租車、送貨機(jī)器人等多種場景,能夠減少人為錯誤,提高道路安全。作為自動駕駛系統(tǒng)的核心組成部分,車輛感知通過各種傳感器輸入幫助自動駕駛汽車了解周圍環(huán)境。感知系統(tǒng)的輸入一般是多模態(tài)數(shù)據(jù)(來自攝像頭的圖像數(shù)據(jù)、來自LiDAR的點(diǎn)云、高精地圖等),并且會預(yù)測道路上關(guān)鍵要素的幾何和語義信息。高質(zhì)量的感知結(jié)果可作為軌跡預(yù)測和路徑規(guī)劃等后續(xù)步驟的可靠依據(jù)。

        為了全面了解駕駛環(huán)境,感知系統(tǒng)涉及到許多視覺任務(wù),例如目標(biāo)檢測和跟蹤、車道線檢測、語義和實例分割等。在這些感知任務(wù)中,3D目標(biāo)檢測是車輛感知系統(tǒng)中最不可或缺的任務(wù)之一。3D目標(biāo)檢測旨在預(yù)測3D空間中關(guān)鍵目標(biāo)的位置、大小和類別,例如機(jī)動車、行人、騎自行車的人等。與僅在圖像上生成2D邊界框并忽略目標(biāo)與本車的實際距離信息的2D目標(biāo)檢測相比,3D目標(biāo)檢測側(cè)重于對真實世界3D坐標(biāo)系中目標(biāo)的定位和識別。3D目標(biāo)檢測在現(xiàn)實世界坐標(biāo)中預(yù)測的幾何信息可以直接用于測量本車與關(guān)鍵目標(biāo)之間的距離,并進(jìn)一步幫助規(guī)劃行駛路線和避免碰撞。

        3D目標(biāo)檢測方法隨著深度學(xué)習(xí)技術(shù)在計算機(jī)視覺和機(jī)器人領(lǐng)域的發(fā)展而迅猛發(fā)展?,F(xiàn)有的3D目標(biāo)檢測方法都試圖從特定方面解決3D目標(biāo)檢測問題,例如從特定傳感器類型,數(shù)據(jù)表示等,與其他類別的方法缺乏系統(tǒng)的比較。因此綜合分析各種類型的3D目標(biāo)檢測方法的優(yōu)缺點(diǎn),可以為相關(guān)研究人員提供一些參考?;诖四康?,本文全面回顧了自動駕駛應(yīng)用中的3D目標(biāo)檢測方法,并對不同方法進(jìn)行深入分析和系統(tǒng)比較。與現(xiàn)有的綜述文章[5, 139, 215]相比,本文廣泛涵蓋了該領(lǐng)域的最新進(jìn)展,例如基于深度圖像的3D目標(biāo)檢測、自/半/弱監(jiān)督3D目標(biāo)檢測、端到端自動駕駛系統(tǒng)中的3D目標(biāo)檢測等。與之前僅關(guān)注點(diǎn)云[88、73、338]、單目圖像[297、165]和多模態(tài)輸入[ 284]相比,我們的論文系統(tǒng)地研究了來自所有傳感器類型和大多數(shù)應(yīng)用場景的3D目標(biāo)檢測方法。

        這項工作的主要貢獻(xiàn)可以總結(jié)如下:

        1. 我們從不同的角度全面回顧了3D目標(biāo)檢測方法,包括來自不同傳感器輸入的檢測(基于LiDAR、基于攝像頭和多模態(tài))、時間序列檢測、標(biāo)簽高效檢測、以及3D目標(biāo)檢測在駕駛系統(tǒng)中的應(yīng)用。
        2. 我們從結(jié)構(gòu)和層次上總結(jié)了3D目標(biāo)檢測方法,對這些方法進(jìn)行了系統(tǒng)分析,并為不同類別方法的潛力和挑戰(zhàn)提供了有價值的見解。
        3. 對3D目標(biāo)檢測方法的綜合性能和速度進(jìn)行分析,確定多年來的研究趨勢,并為3D目標(biāo)檢測的未來方向提供深刻的見解。

        本文的結(jié)構(gòu)安排如下:首先,第2節(jié)中介紹了3D目標(biāo)檢測問題的定義、數(shù)據(jù)集和評價指標(biāo)。然后,我們回顧和分析了基于LiDAR傳感器(第3節(jié))、相機(jī)(第4節(jié))和多模態(tài)數(shù)據(jù)輸入(第5節(jié))。接下來,我們在第6節(jié)中介紹利用時空數(shù)據(jù)的檢測方法,并在第7節(jié)中使用較少有標(biāo)簽數(shù)據(jù)的方法。我們隨后在第8節(jié)中討論3D目標(biāo)檢測在駕駛系統(tǒng)中的應(yīng)用。最后,我們進(jìn)行速度和性能分析,對研究趨勢進(jìn)行了探討,并在第9節(jié)中展望3D目標(biāo)檢測的未來方向。分層結(jié)構(gòu)的分類如下圖所示。


        3背景


        3D目標(biāo)檢測是什么?


        1、定義


        3D目標(biāo)檢測是通過輸入傳感器數(shù)據(jù),預(yù)測3D目標(biāo)的屬性信息的任務(wù)。如何表示3D目標(biāo)的屬性信息是關(guān)鍵,因為后續(xù)的預(yù)測和規(guī)劃需要這些信息。大部分情況下,3D目標(biāo)被定義為一個立方體,(x,y,z)是立方體的中心坐標(biāo),l,w,h是長寬高信息,delta是航向角,比如立方體在地平面的偏航角,class是3D目標(biāo)的類別。vx、vy描述3D目標(biāo)在地面上沿x軸和y軸方向的速度。在工業(yè)應(yīng)用中,一個3D目標(biāo)的參數(shù)可以進(jìn)一步簡化為鳥瞰圖上一個長方體的4個角位置。

        2、傳感器輸入


        許多類型的傳感器都可以為3D目標(biāo)檢測提供原始數(shù)據(jù),相機(jī)和LiDAR(激光雷達(dá))傳感器是兩種最常采用的傳感器類型。相機(jī)價格便宜且易于使用,并且可以從某個角度捕捉場景信息。相機(jī)產(chǎn)生圖像W×H×3用于3D目標(biāo)檢測,其中W和H是一幅圖像的寬高,每個像素有3個RGB通道。盡管價格便宜,但相機(jī)在用于3D目標(biāo)檢測方面存在內(nèi)在限制。首先,相機(jī)只捕捉外觀信息,不能直接獲取場景的3D結(jié)構(gòu)信息。另一方面,3D目標(biāo)檢測通常需要在3D空間中進(jìn)行準(zhǔn)確定位,而從圖像估計的3D信息(例如深度)通常具有較大的誤差。此外,基于圖像的檢測很容易受到極端天氣和時間條件的影響。在夜間或霧天從圖像中檢測目標(biāo)比在晴天檢測要困難得多,這樣的自動駕駛系統(tǒng)無法保證魯棒性。

        作為替代解決方案,LiDAR傳感器可以通過發(fā)射一束激光束,然后測量其反射信息來獲得場景的細(xì)粒度3D結(jié)構(gòu)信息。一個LiDAR傳感器在一個掃描周期內(nèi)發(fā)射光束并進(jìn)行多次測量可以產(chǎn)生一個深度圖像,每個深度圖的像素有3個通道,分別為球坐標(biāo)系中的深度r、方位角α和傾角φ。深度圖像是激光雷達(dá)傳感器獲取的原始數(shù)據(jù)格式,可以通過將球坐標(biāo)轉(zhuǎn)換為笛卡爾坐標(biāo)進(jìn)一步轉(zhuǎn)換為點(diǎn)云。一個點(diǎn)云可以表示為N×3,其中N表示一個場景中的點(diǎn)數(shù),每個點(diǎn)有3個xyz坐標(biāo)通道。附加功能,例如反射強(qiáng)度,可以附加到每個點(diǎn)或深度圖像素。深度圖像和點(diǎn)云都包含由LiDAR傳感器直接獲取的準(zhǔn)確3D信息。因此,與相機(jī)相比,LiDAR傳感器更適合檢測3D空間中的目標(biāo),并且LiDAR傳感器也更不易受時間和天氣變化的影響。然而,LiDAR傳感器比攝像頭貴得多,這限制了在駕駛場景中的大規(guī)模應(yīng)用。3D目標(biāo)檢測圖解,見下圖:


        3、與2D目標(biāo)檢測的比較


        旨在在圖像上生成2D邊界框的2D目標(biāo)檢測是計算機(jī)視覺中的一個基本問題。3D目標(biāo)檢測方法借鑒了2D目標(biāo)檢測方法的許多設(shè)計范式:proposal generation and refinement、anchors、NMS 等。然而,從多方面來看,3D目標(biāo)檢測方法并不是2D目標(biāo)檢測方法對3D空間的簡單適配。

        1. 3D目標(biāo)檢測方法必須處理多樣化的數(shù)據(jù)。點(diǎn)云檢測需要新的算子和網(wǎng)絡(luò)來處理不規(guī)則的點(diǎn)數(shù)據(jù),而點(diǎn)云和圖像的檢測需要特殊的融合機(jī)制。
        2. 3D目標(biāo)檢測方法通常利用不同的投影視圖來生成目標(biāo)預(yù)測結(jié)果。與從透視圖檢測目標(biāo)的2D目標(biāo)檢測方法相反,3D方法必須考慮不同的視圖來檢測3D目標(biāo),例如鳥瞰圖、點(diǎn)視圖、柱面視圖等。
        3. 3D目標(biāo)檢測對目標(biāo)在3D空間的準(zhǔn)確定位有很高的要求。分米級的定位誤差可能導(dǎo)致對行人和騎自行車的人等小目標(biāo)的檢測失敗,而在2D目標(biāo)檢測中,幾個像素的定位誤差可能仍然保持較高的IoU指標(biāo)(預(yù)測值和真值的IoU)。因此,不論是利用點(diǎn)云還是圖像進(jìn)行3D目標(biāo)檢測,準(zhǔn)確的3D幾何信息都是必不可少的。


        4、與室內(nèi)3D目標(biāo)檢測對比


        室內(nèi)3D目標(biāo)檢測也是3D目標(biāo)檢測的一個分支,室內(nèi)數(shù)據(jù)集比如SUN RGB-D [247],利用RGB-D和3D標(biāo)注信息重建房間結(jié)構(gòu),包括門、窗、床、椅子等。室內(nèi)場景中的3D目標(biāo)檢測也是基于點(diǎn)云或圖像。然而,與室內(nèi)3D目標(biāo)檢測相比,駕駛場景中存在獨(dú)特的挑戰(zhàn)。

        1. 自動駕駛場景的檢測范圍遠(yuǎn)大于室內(nèi)場景。駕駛場景中的3D目標(biāo)檢測通常需要預(yù)測很大范圍內(nèi)的3D目標(biāo),例如Waymo[250]中為150m×150m×6m,而室內(nèi)3D目標(biāo)檢測通常以房間為單位,而其中[54]大多數(shù)單人房間小于10m×10m×3m。那些在室內(nèi)場景中工作的時間復(fù)雜度高的方法在駕駛場景中可能無法表現(xiàn)出好的適應(yīng)能力。
        2. LiDAR和RGB-D傳感器的點(diǎn)云分布不同。在室內(nèi)場景中,點(diǎn)在掃描表面上分布相對均勻,大多數(shù)3D目標(biāo)在其表面上可以接收到足夠數(shù)量的點(diǎn)。而在駕駛場景中,大多數(shù)點(diǎn)落在LiDAR傳感器附近,而那些遠(yuǎn)離傳感器的3D目標(biāo)僅接收到少量點(diǎn)。因此,駕駛場景中的方法特別需要處理3D目標(biāo)的各種點(diǎn)云密度,并準(zhǔn)確檢測那些遙遠(yuǎn)和稀疏的目標(biāo)。
        3. 駕駛場景中的檢測對推理延遲有特殊要求。駕駛場景中的感知必須是實時的,以避免事故。因此,這些方法需要及時高效,否則它們將無法落地。


        數(shù)據(jù)集


        自動駕駛3D目標(biāo)檢測相關(guān)數(shù)據(jù)集較多,具體見下表。主要的數(shù)據(jù)集建立需要繼續(xù)干以下四件事:

        1. 增大數(shù)據(jù)規(guī)模。
        2. 增加數(shù)據(jù)多樣性,不只有白天夜晚,還要包括陰天、雨天、雪天、霧天等。
        3. 增加標(biāo)注類別,除了常用的機(jī)動車、行人、非機(jī)動車等,還應(yīng)包括動物,路上的障礙物等。
        4. 增加多模態(tài)數(shù)據(jù),不只有點(diǎn)云和圖像數(shù)據(jù),還有高精地圖、雷達(dá)數(shù)據(jù)、遠(yuǎn)程激光雷達(dá)、熱成像數(shù)據(jù)等。

        未來的數(shù)據(jù)集應(yīng)該包括感知、預(yù)測、規(guī)劃、建圖等一整套數(shù)據(jù),這樣可以為端到端的自動駕駛系統(tǒng)服務(wù),而不僅僅是考慮一個3D目標(biāo)檢測任務(wù)。


        評價標(biāo)準(zhǔn)


        針對3D目標(biāo)檢測的評價,一種是將2D任務(wù)的AP指標(biāo)擴(kuò)展到3D,比如KITTI就包括 AP-3D、AP-BEV指標(biāo),分別用到預(yù)測值與真值的3D-IoU、BEV-IoU來衡量。其它比如基于中心距離的匹配,或者匈牙利匹配等。另一種則通過下游任務(wù)來衡量,只有對下游任務(wù)(運(yùn)動規(guī)劃)有幫助的檢測方法,才能在實際應(yīng)用中確保駕駛安全。包括PKL[230]和SDE[56]等工作。

        不同評價指標(biāo)的利弊?;贏P的評價指標(biāo)[80,15,250]自然繼承了2D檢測的優(yōu)勢。然而,這些指標(biāo)忽略了檢測對駕駛安全的影響,而這在現(xiàn)實應(yīng)用中至關(guān)重要。例如,在AP計算中,本車附近的目標(biāo)漏檢和本車遠(yuǎn)一點(diǎn)的目標(biāo)漏檢可能都只是一個漏檢,但在實際應(yīng)用中,近處的目標(biāo)漏檢實質(zhì)上比遠(yuǎn)處的目標(biāo)漏檢更危險。

        因此,從安全駕駛的角度來看,基于AP的指標(biāo)可能不是最優(yōu)選擇。PKL[203]和SDE[56]通過考慮下游任務(wù)中檢測的影響,部分解決了這個問題,但在對這些影響建模時將引入額外的挑戰(zhàn)。PKL[203]需要一個預(yù)先訓(xùn)練的運(yùn)動規(guī)劃器來評估檢測性能,但預(yù)先訓(xùn)練的規(guī)劃器也有固有誤差,可能會使評估過程不準(zhǔn)確。SDE[56]需要重構(gòu)目標(biāo)邊界,這通常是復(fù)雜和具有挑戰(zhàn)性的。

        4基于LiDAR的3D目標(biāo)檢測


        激光雷達(dá)數(shù)據(jù)主要包括點(diǎn)云、深度圖數(shù)據(jù)等,以下時間軸將較為經(jīng)典的算法做了個列舉。


        3D目標(biāo)檢測的數(shù)據(jù)表示


        點(diǎn)云數(shù)據(jù)和深度圖數(shù)據(jù)與一般的圖像不同。點(diǎn)云是稀疏、不規(guī)則的,需要設(shè)計特殊模型提取特征。而深度圖是密集緊湊,深度像素存的是3D信息,而不是RGB值。這些都是需要打破原先的常規(guī)卷積網(wǎng)絡(luò)的固有思維,而且自動駕駛需要檢測目標(biāo)的實時性,推理要快,如何設(shè)計一個在點(diǎn)云和深度圖上推理更快的模型也是一個挑戰(zhàn)。

        1、基于點(diǎn)的3D目標(biāo)檢測


        基于點(diǎn)的目標(biāo)檢測成功在點(diǎn)云上應(yīng)用深度學(xué)習(xí)方法,提出了一系列框架,可以直接從原始點(diǎn)數(shù)據(jù)來預(yù)測3D目標(biāo)。將點(diǎn)云通過基于點(diǎn)的主干網(wǎng)絡(luò),通過點(diǎn)云算子來提取點(diǎn)云特征,基于下采樣的點(diǎn)和特征預(yù)測3D框。基于點(diǎn)的3D目標(biāo)檢測器主要組成部分為:點(diǎn)云采樣和特征學(xué)習(xí)。整體流程示意圖和代表性工作見下圖和表。

        點(diǎn)云采樣。PointNet++[208]的FPS在基于點(diǎn)的檢測器中被廣泛采用,這種檢測器從原始點(diǎn)集中依次選擇最遠(yuǎn)處的點(diǎn)。PointRCNN[234]是一項開創(chuàng)性的工作,它采用FPS逐步下采樣輸入的點(diǎn)云,并從下采樣點(diǎn)中生成3D候選。類似的設(shè)計范式在隨后的許多工作中也被采用,并進(jìn)行了分割引導(dǎo)濾波[318]、特征空間抽樣[321]、隨機(jī)抽樣[189]等改進(jìn)。

        特征學(xué)習(xí)。上下文點(diǎn)首先用一個預(yù)定義的查詢球半徑進(jìn)行選擇,然后上下文點(diǎn)和特征經(jīng)過多層感知機(jī)和max-pooling,得到新的特征。其它點(diǎn)云操作,包括圖操作、注意力操作、Transformer等。

        基于點(diǎn)的3D目標(biāo)檢測器受制于特征學(xué)習(xí)中采用的上下文點(diǎn)數(shù)量和上下文半徑。增加上下文點(diǎn)數(shù)量可以獲得更強(qiáng)的表達(dá)能力,但會增加內(nèi)存,在球查詢中,上下文半徑太小,會造成上下文信息不足,半徑太大,造成3D細(xì)粒度信息丟失。

        對于大部分的基于點(diǎn)的3D目標(biāo)檢測器,推理時間上的瓶頸是點(diǎn)云采樣。隨機(jī)均勻采樣因為可以并行,效率最高,但激光雷達(dá)掃描點(diǎn)分布不均勻,隨機(jī)均勻采樣會對點(diǎn)云密度高的地方過采樣,而稀疏的地方欠采樣。最遠(yuǎn)點(diǎn)采樣及其變體通過從已有的點(diǎn)集中依次選擇最遠(yuǎn)點(diǎn)獲得更加均勻的采樣結(jié)果,但其不能并行,耗時較大,較難做到實時。

        2、基于網(wǎng)格的3D目標(biāo)檢測


        基于網(wǎng)格的3D目標(biāo)檢測器首先將點(diǎn)云柵格化為離散的網(wǎng)格表示,即體素、柱體和鳥瞰視圖(BEV)特征圖。然后應(yīng)用傳統(tǒng)的2D卷積神經(jīng)網(wǎng)絡(luò)或3D稀疏神經(jīng)網(wǎng)絡(luò)提取特征。最后,可以從BEV網(wǎng)格中檢測出3D目標(biāo)。下圖展示了基于網(wǎng)格的3D目標(biāo)檢測的示例,下表給出了基于網(wǎng)格的檢測器的分類。網(wǎng)格檢測有兩個基本組成部分:基于網(wǎng)格的表示和基于網(wǎng)格的神經(jīng)網(wǎng)絡(luò)。


        基于網(wǎng)格的表示。目前有3種主要的網(wǎng)格表示類型:體素、柱體和BEV特征圖。

        體素。體素是3D立方體,體素細(xì)胞內(nèi)包含點(diǎn)。點(diǎn)云可以很容易地通過體素化轉(zhuǎn)化為體素。由于點(diǎn)云分布稀疏,3D空間中的大部分體素細(xì)胞都是空的,不包含點(diǎn)。在實際應(yīng)用中,只有那些非空體素被存儲并用于特征提取。VoxelNet[359]是一項利用稀疏體素網(wǎng)格的開創(chuàng)性工作,提出了一種新的體素特征編碼(VFE)層,從體素細(xì)胞內(nèi)的點(diǎn)提取特征。
        此外,還有兩類方法試圖改進(jìn)用于3D目標(biāo)檢測的體素表示:

        1. 多視圖體素。一些方法從不同的視角提出了一種動態(tài)體素化和融合方案,例如從鳥瞰圖和透視圖[360],從圓柱形和球形視圖[34],從深度視圖[59]等。
        2. 多尺度體素。一些論文生成不同尺度的體素[323]或使用可重構(gòu)體素。

        柱體。柱體可以被視為特殊的體素,其中體素的大小在垂直方向上是無限的。通過PointNet將點(diǎn)聚集成柱狀特征[207],再將其分散回去,構(gòu)建二維BEV圖像進(jìn)行特征提取。PointPillars[117]是一個開創(chuàng)性的工作,介紹了柱體表示,隨后的是[283,68]。

        BEV特征圖。鳥瞰特征圖是一種密集的二維表示,其中每個像素對應(yīng)一個特定的區(qū)域,并對該區(qū)域內(nèi)的點(diǎn)信息進(jìn)行編碼。BEV特征圖可以由體素和柱體投影到鳥瞰圖中獲得,也可以通過匯總像素區(qū)域內(nèi)的點(diǎn)統(tǒng)計數(shù)據(jù),直接從原始點(diǎn)云中獲得。常用的統(tǒng)計數(shù)據(jù)包括二進(jìn)制占用率[314,313,2]和局部點(diǎn)云高度和密度[40,10,342,3,245,346,8,119]。

        基于網(wǎng)格的神經(jīng)網(wǎng)絡(luò)。目前主要有兩種基于網(wǎng)格的網(wǎng)絡(luò):用于BEV特征圖和柱體的2D卷積神經(jīng)網(wǎng)絡(luò),以及用于體素的3D稀疏神經(jīng)網(wǎng)絡(luò)。

        與BEV特征圖和柱體2D表示相比,體素包含更多結(jié)構(gòu)化的3D信息。此外,可以通過3D稀疏網(wǎng)絡(luò)學(xué)習(xí)深度體素特征。但是,3D神經(jīng)網(wǎng)絡(luò)會帶來額外的時間和內(nèi)存成本。BEV特征圖是最有效的網(wǎng)格表示,它直接將點(diǎn)云投影到2D偽圖像中,而無需專門的3D算子,如稀疏卷積或柱體編碼。2D檢測方法也可以在BEV特征圖上無縫應(yīng)用,無需太多修改。

        基于BEV的檢測方法通??梢垣@得高效率和實時推理速度。然而,簡單地匯總像素區(qū)域內(nèi)的點(diǎn)統(tǒng)計信息會丟失太多的3D信息,與基于體素的檢測相比,這會導(dǎo)致檢測結(jié)果不太準(zhǔn)確。

        基于柱體的檢測方法利用PointNet對柱體單元內(nèi)的3D點(diǎn)信息進(jìn)行編碼,然后將特征分散回2D偽圖像中進(jìn)行有效檢測,從而平衡3D目標(biāo)檢測的效果和效率。

        選擇合適大小的網(wǎng)格單元是所有基于網(wǎng)格的方法都必須面對的關(guān)鍵問題。通過將連續(xù)點(diǎn)坐標(biāo)轉(zhuǎn)換為離散網(wǎng)格索引,網(wǎng)格表示本質(zhì)上是點(diǎn)云的離散形式。在轉(zhuǎn)換過程中不可避免地會丟失一些3D信息,其效果很大程度上取決于網(wǎng)格單元的大?。壕W(wǎng)格小,分辨率高,可以保持更細(xì)粒度的細(xì)節(jié),對于準(zhǔn)確檢測3D目標(biāo)至關(guān)重要。然而,減小網(wǎng)格單元又會導(dǎo)致2D網(wǎng)格表示(如BEV特征圖或柱體)的內(nèi)存消耗呈二次方增長。至于像體素這樣的3D網(wǎng)格表示,問題可能會變得更加嚴(yán)重。因此,如何平衡更小網(wǎng)格尺寸帶來的效果和內(nèi)存增加影響效率,仍然是所有基于網(wǎng)格的3D目標(biāo)檢測方法的一個挑戰(zhàn)。

        3、基于Point-Voxel的3D目標(biāo)檢測方法


        基于點(diǎn)-體素的方法采用了一種混合架構(gòu),利用點(diǎn)和體素進(jìn)行3D目標(biāo)檢測。主要分為兩類:單階段檢測框架和兩階段檢測框架。下圖顯示了這兩個類別的示例及分類:

        單階段基于點(diǎn)-體素的3D目標(biāo)檢測器通過骨干網(wǎng)絡(luò)中的點(diǎn)-體素和體素-點(diǎn)的變換來連接點(diǎn)和體素的特征。點(diǎn)包含細(xì)粒度的幾何信息,體素計算效率高,在特征提取階段將它們結(jié)合在一起更加有利。代表性工作包括:PVCNN、SPVNAS、SA-SSD、PVGNet等。

        兩階段的基于點(diǎn)-體素的3D目標(biāo)檢測器,在第一階段,使用基于體素的檢測器來生成一組3D候選目標(biāo)。在第二階段,首先從輸入點(diǎn)云中采樣關(guān)鍵點(diǎn),然后通過新的點(diǎn)算子對關(guān)鍵點(diǎn)進(jìn)行進(jìn)一步細(xì)化。代表工作包括:PV-RCNN、LiDAR R-CNN、Pyramid R-CNN、CT3D等等。

        與純體素檢測方法相比,基于點(diǎn)-體素的3D目標(biāo)檢測方法在增加推理時間的同時,可以獲得更好的檢測精度。

        4、基于Range的3D目標(biāo)檢測


        Range圖像是一種密集而緊湊的2D表示,其中每個像素包含3D深度信息,而不是RGB值。需要針對Range圖設(shè)計模型和算子,并要選擇合適的視圖。


        Range圖是2D的,可以借鑒2D目標(biāo)檢測方法,比如LaserNet,還有一些借鑒了U-Net、RPN、R-CNN、FCN、FPN等。

        Range圖的像素包含的是距離信息,而非顏色值,因此傳統(tǒng)的2D標(biāo)準(zhǔn)卷積算子無法完全適用,滑動窗口中的像素在3D空間中可能會相距很遠(yuǎn)。一些工作采用了新算子來有效地從Range像素中提取特征,包括深度擴(kuò)張卷積[11]、圖算子[26]和元核卷積[67]等。

        Range圖是從Range視圖(Range View)中獲取的,RangeView是點(diǎn)云的球面投影。

        對于許多基于深度的方法[178,11,67,26]來說,直接從Range視圖檢測3D目標(biāo)是很自然的。然而,從Range視圖進(jìn)行檢測不可避免地會遇到球面投影所帶來的遮擋和尺度變化問題。為了規(guī)避這些問題,許多方法嘗試?yán)闷渌晥D來預(yù)測3D目標(biāo),例如[219]中利用的圓柱形視圖(CYV),其它方案嘗試Range視圖和鳥瞰視圖(BEV)、點(diǎn)視圖(PV)的組合。

        Range視圖由于可以借鑒2D卷積的優(yōu)點(diǎn),做特征提取比較好,但由于遮擋和尺度問題,直接在上面做檢測效果不好,需要結(jié)合BEV來做檢測,所以現(xiàn)在一般是Range圖做特征提取,BEV上做檢測。

        3D目標(biāo)檢測的學(xué)習(xí)目標(biāo)


        3D目標(biāo)檢測的學(xué)習(xí)目標(biāo)主要是針對小目標(biāo)(相比檢測范圍,目標(biāo)太?。?,另一方面是由于點(diǎn)云的稀疏性,如何準(zhǔn)確估計其目標(biāo)的中心和尺寸也是一個長期挑戰(zhàn)。

        1、Anchor-based方法


        anchor是預(yù)定義的長方體,具有固定的形狀,可以放置在3D空間中。3D目標(biāo)可以基于正anchor進(jìn)行預(yù)測,這些正anchor與GT的IoU最大。anchor-based的3D目標(biāo)檢測方法一般是從鳥瞰圖上檢測3D目標(biāo),將3D anchor放置在BEV特征圖的每個網(wǎng)格單元上進(jìn)行。3D anchor通常對于每個類別都有一個固定的尺寸,因為同一類別的目標(biāo)有相似的大小。

        anchor-based的損失函數(shù)包括了分類損失、回歸損失、偏航角損失等。分類損失常用的是二值交叉熵、Focal loss,回歸則是SmoothL1,航向角需要注意使用bin-based航向估計較好。除了這些單獨(dú)的損失函數(shù)外,將整個3D目標(biāo)作為整體去考慮,也有使用IoU loss的,再輔以corner loss,讓3D目標(biāo)的檢測更加穩(wěn)定。

        下面是anchor-based方法的示意圖和主要目標(biāo)損失函數(shù):


        2、Anchor-free方法


        anchor-free方法去掉了復(fù)雜的anchor設(shè)計階段,可靈活應(yīng)用于BEV、點(diǎn)視圖和Range視圖等。沒有了anchor,就需要找其它正負(fù)樣本分配方法。比如基于一些網(wǎng)格(BEV網(wǎng)格單元、體素、柱體)進(jìn)行分配正負(fù)樣本,比如PIXOR、CenterPoint等。還有基于點(diǎn)的分配策略,大部分都是先將前景點(diǎn)分割出來,在3D目標(biāo)內(nèi)或附近的作為正樣本,并學(xué)習(xí)這些前景點(diǎn)。基于Range的分配主要是將Range像素在3D目標(biāo)內(nèi)的作為正樣本,并且回歸的時候不是以整個3D坐標(biāo)系統(tǒng)為基礎(chǔ),而是以目標(biāo)為中心的回歸坐標(biāo)系。DETR提出了一種集合到集合的分配方式,利用匈牙利算法預(yù)測結(jié)果自動分配到對應(yīng)的GT。

        anchor-free方法設(shè)計靈活,不引入其它先驗,學(xué)習(xí)過程簡化了很多,其中基于中心的方法[329]對小目標(biāo)檢測有較大潛力可挖。雖然優(yōu)點(diǎn)不少,但不可否認(rèn),anchor-free方法如何選擇合適的正樣本來生成預(yù)測結(jié)果是個問題,相比于anchor-based中使用高IoU正樣本,anchor-free可能會選到一些不好的正樣本,造成預(yù)測結(jié)果出現(xiàn)偏差。

        下面顯示了anchor-free方法和一些里程碑方法。


        3、利用輔助任務(wù)的3D目標(biāo)檢測


        利用輔助任務(wù)來增強(qiáng)3D目標(biāo)的空間特征,并能對3D目標(biāo)檢測提供一些隱性的指導(dǎo)。常用的輔助任務(wù)包括:語義分割、IoU分支預(yù)測、目標(biāo)形狀補(bǔ)全、部件識別。


        語義分割。前景分割可以提供目標(biāo)的位置隱含信息;利用語義上下文知識可以增強(qiáng)空間特征;語義分割可以作為預(yù)處理方法,過濾背景樣本,提升3D檢測效率。

        IoU預(yù)測分支可以輔助校正目標(biāo)的置信度,比如預(yù)測置信度可以用分類置信度和IoU值的乘積來表示。經(jīng)過IoU分支的校正,更容易選擇高質(zhì)量的3D目標(biāo)作為最終預(yù)測結(jié)果。

        形狀補(bǔ)全,因為點(diǎn)云具有稀疏性,遠(yuǎn)處的目標(biāo)只能接收幾個點(diǎn),因此從稀疏點(diǎn)云中補(bǔ)全目標(biāo)形狀可以為后面的檢測提供幫助。

        識別目標(biāo)內(nèi)部的零部件有助于3D目標(biāo)檢測,部件可以揭示細(xì)粒度3D信息。

        除此之外,還有一些比如場景流估計可以識別靜態(tài)和動態(tài)目標(biāo),可以在點(diǎn)云序列中跟蹤同一個3D目標(biāo),可以得到該目標(biāo)更準(zhǔn)確的估計。

        5基于相機(jī)的3D目標(biāo)檢測


        主要的基于相機(jī)的3D目標(biāo)檢測方案分為:單目3D、雙目、多相機(jī)3D等,具體看下圖的分類:


        單目3D目標(biāo)檢測


        本身從單目圖像中檢測3D空間的目標(biāo)是一個病態(tài)問題,因為單目無法提供足夠的3D信息,很難預(yù)測3D目標(biāo)準(zhǔn)確的位置信息。很多方法利用幾何約束和形狀先驗從圖像中推斷深度信息,也是一種優(yōu)化單目3D目標(biāo)定位問題的思路。但是和激光雷達(dá)比,還是相差較遠(yuǎn)。

        1、純圖像單目3D檢測


        受到2D檢測方法的啟發(fā),單目3D目標(biāo)檢測最直接的解決方案是通過卷積神經(jīng)網(wǎng)絡(luò)從圖像中直接回歸3D框參數(shù)。直接回歸的方法借鑒了2D檢測網(wǎng)絡(luò)架構(gòu)的設(shè)計,可以端到端訓(xùn)練。這些方法可以分為單階段、兩階段,或anchor-based/anchor-free方法。

        基于anchor的方法主要預(yù)先設(shè)置好3D-anchor、2D-anchor、深度anchor,然后圖像經(jīng)過卷積網(wǎng)絡(luò)后得到2D和3D的預(yù)測偏置,最終解碼及轉(zhuǎn)換過程如下所示:


        anchor-free的方法也是通過2D卷積對圖像進(jìn)行處理,利用多個頭去預(yù)測3D目標(biāo)。具體包括一個分類頭、一個關(guān)鍵點(diǎn)頭預(yù)測粗粒度中心點(diǎn)、一個預(yù)測基于粗粒度中心點(diǎn)的偏置的頭、預(yù)測深度的頭、預(yù)測目標(biāo)尺寸的頭以及預(yù)測觀測角的頭。


        兩階段單目檢測方法通常將傳統(tǒng)的兩階段2D檢測體系擴(kuò)展到3D目標(biāo)檢測。具體來說,在第一階段利用2D檢測器從輸入圖像生成2D目標(biāo)框。然后在第二階段,通過從2D ROI中預(yù)測3D目標(biāo)參數(shù),將2D框提升到3D空間。ROI-10D[168]擴(kuò)展了傳統(tǒng)的Faster RCNN[222],在第二階段用一種新穎的頭來預(yù)測3D目標(biāo)參數(shù)。

        基于純圖像的方法可以直接使用2D目標(biāo)檢測的最新進(jìn)展,而且價格便宜,可以端到端訓(xùn)練,效率也很高。只是從單張圖像預(yù)測深度比較困難。

        下圖及表展示了相關(guān)方法:


        2、深度輔助的單目3D檢測


        深度估計是單目3D目標(biāo)檢測的關(guān)鍵。為了獲得更準(zhǔn)確的單目檢測結(jié)果,許多論文采用預(yù)訓(xùn)練輔助深度估計網(wǎng)絡(luò)的方法。具體來說,單目圖像首先通過預(yù)訓(xùn)練的深度估計器,如MonoDepth[83]或DORN[76],生成深度圖像。然后,主要有兩類方法處理深度圖像和單目圖像?;谏疃葓D像的方法將圖像和深度映射與專門的神經(jīng)網(wǎng)絡(luò)融合,生成深度感知特征,可以提高檢測性能。基于偽激光雷達(dá)的方法將深度圖像轉(zhuǎn)換為偽激光雷達(dá)點(diǎn)云,然后在點(diǎn)云上應(yīng)用基于激光雷達(dá)的3D檢測器來檢測3D目標(biāo)。具體如下表及圖所示。


        3、先驗引導(dǎo)的單目3D檢測


        許多方法利用圖像中目標(biāo)的形狀和場景幾何等先驗知識,解決病態(tài)的單目3D目標(biāo)檢測問題。通過引入預(yù)訓(xùn)練的子網(wǎng)絡(luò)或輔助任務(wù)來學(xué)習(xí)先驗知識,這些子網(wǎng)絡(luò)或輔助任務(wù)可以提供額外的信息或約束來幫助精確定位3D目標(biāo)。廣泛采用的先驗知識包括目標(biāo)形狀、幾何一致性、時間約束和分割信息。如下表所示。


        通過重建目標(biāo)形狀,可以從圖像中獲得更詳細(xì)的目標(biāo)形狀信息,有利于3D目標(biāo)檢測。但形狀重建通常需要增加重建網(wǎng)絡(luò)預(yù)訓(xùn)練模型,單目檢測流程無法做到端到端訓(xùn)練。而且目標(biāo)的形狀通常是從CAD模型而不是現(xiàn)實世界的實例中學(xué)習(xí)的,重建的目標(biāo)形狀和真實場景有較大差異。

        采用幾何一致性,有助于提高檢測精度。然而,一些方法將幾何一致性表示為一個優(yōu)化問題,在后處理中優(yōu)化目標(biāo)參數(shù)會比較耗時,阻礙了端到端訓(xùn)練。

        圖像分割是單目3D檢測中的重要信息。然而,訓(xùn)練分割網(wǎng)絡(luò)需要的標(biāo)注樣本比較貴。用外部數(shù)據(jù)集預(yù)訓(xùn)練的分割模型存在泛化問題。


        4、基于雙目的3D目標(biāo)檢測


        基于雙目的3D目標(biāo)檢測是指從一對圖像中檢測出3D物體。與單目圖像相比,雙目提供了額外的幾何約束,可用于推斷更準(zhǔn)確的深度信息。基于雙目方法通常比基于單目的方法獲得更好的檢測性能。當(dāng)然,基于雙目的方法與基于激光雷達(dá)的方法在性能上仍有很大的差距。

        雙目方法與單目檢測方法相比,可以通過立體匹配技術(shù)獲得更精確的深度和視差估計,從而帶來更強(qiáng)的目標(biāo)定位能力,顯著提高了3D目標(biāo)檢測能力。具體方法見下圖及表。


        5、基于多相機(jī)的3D目標(biāo)檢測


        自動駕駛汽車通常會配備多個攝像頭,從多個視角獲取完整的周邊環(huán)境信息。然而,如何利用多視圖圖像進(jìn)行3D目標(biāo)檢測還沒有得到廣泛的研究。多攝像頭3D目標(biāo)測的一個關(guān)鍵問題是如何識別不同圖像中的同一目標(biāo),并從多視角輸入中聚合目標(biāo)特征。

        一些論文通過利用跨視圖幾何約束[227]或目標(biāo)重識別[52]來解決多視圖目標(biāo)定位問題。其他工作通過引入3D目標(biāo)查詢從不同視圖裁剪圖像特征[286]或轉(zhuǎn)換不同視圖的特征來處理多視圖特征聚合問題。

        6基于多模態(tài)的3D目標(biāo)檢測


        主要介紹LiDAR-相機(jī)、雷達(dá)、地圖融合等方法。主要方法及融合策略見下圖及表。


        基于LiDAR-相機(jī)融合的多模態(tài)檢測


        相機(jī)可以提供顏色信息,從中提取豐富的語義特征,而LiDAR傳感器擅長3D定位,提供豐富的3D結(jié)構(gòu)信息。很多工作已經(jīng)能夠?qū)⑾鄼C(jī)和激光雷達(dá)信息進(jìn)行融合來提升3D目標(biāo)檢測精度。由于基于LiDAR的檢測方法比基于相機(jī)的檢測方法性能要好得多,目前SOTA方法主要是基于激光雷達(dá)的檢測方法,并嘗試將圖像信息融入到不同階段的激光雷達(dá)檢測流程中。鑒于基于LiDAR和基于相機(jī)的檢測系統(tǒng)的復(fù)雜性,將兩種模式結(jié)合在一起不可避免地會帶來額外的計算開銷和推斷時間延遲。因此,如何有效地融合多模態(tài)信息仍然是具有挑戰(zhàn)性的。

        1、前融合方法


        前融合指的是在點(diǎn)云還沒有進(jìn)入基于LiDAR的檢測器前,將圖像的知識整合到點(diǎn)云中。因此,前融合框架一般采用順序構(gòu)建的方式:首先利用2D檢測或分割網(wǎng)絡(luò)從圖像中提取知識,然后將圖像知識傳遞給點(diǎn)云,最后將增強(qiáng)后的點(diǎn)云反饋給基于LiDAR的點(diǎn)云3D目標(biāo)檢測器。根據(jù)融合類型的不同,前融合方法可分為區(qū)域級知識融合和點(diǎn)級知識融合兩類,具體見下圖。


        前融合主要是通過圖像知識來增強(qiáng)點(diǎn)云,大多數(shù)方法都兼容大部分的LiDAR 3D目標(biāo)檢測器,并可以作為一種相當(dāng)有效的預(yù)處理步驟,以提高檢測性能。然而,前融合方法通常是順序進(jìn)行多模態(tài)融合和3D目標(biāo)檢測的,這帶來了額外的推理延遲。考慮到融合步驟通常需要復(fù)雜的2D目標(biāo)檢測或語義分割網(wǎng)絡(luò),多模態(tài)融合帶來的時間成本通常很高。因此,如何在前期有效地進(jìn)行多模態(tài)融合成為關(guān)鍵。

        2、中融合方法


        中融合方法試圖在基于LiDAR的3D目標(biāo)檢測器的中間階段,例如在骨干網(wǎng)絡(luò)中,在proposal生成階段,或在RoI細(xì)化階段,融合圖像和激光雷達(dá)特征。具體分類見下圖。


        中融合方法建議對多模態(tài)表示進(jìn)行更深入的融合,并產(chǎn)生更高質(zhì)量的3D框。然而,相機(jī)和激光雷達(dá)的特征本質(zhì)上是異構(gòu)的,來自不同的視角,因此在融合機(jī)制和視角對齊方面還存在一些問題。因此,如何有效地融合異構(gòu)數(shù)據(jù),以及如何處理來自多個視角的特征聚合,仍然是研究領(lǐng)域面臨的挑戰(zhàn)。

        3、后融合方法


        后融合就是將圖像得到的2D結(jié)果和LiDAR得到的3D結(jié)果進(jìn)行融合的方法。該方法采用相機(jī)與激光雷達(dá)并行進(jìn)行目標(biāo)檢測,并將輸出的2D和3D框進(jìn)行融合,得到更精確的3D檢測結(jié)果。CLOCs[194]引入了一個包含成對的2D-3D框的稀疏張量,并從這個稀疏張量學(xué)習(xí)最終的目標(biāo)置信度。[195]改進(jìn)了[194],引入了一種輕量級的3D檢測器提示圖像檢測器。下圖為后融合示意圖。


        后融合方法以實例級融合為核心,僅對不同模態(tài)的輸出進(jìn)行多模態(tài)融合,避免了中間特征或輸入點(diǎn)云上復(fù)雜的交互。因此,這些方法比其他方法更有效。然而,由于不依賴于相機(jī)和激光雷達(dá)傳感器的深度特征,這些方法無法整合不同模式的豐富語義信息,限制了這類方法的潛力。

        基于雷達(dá)信號的多模態(tài)檢測


        在自動駕駛系統(tǒng)中,雷達(dá)不可缺少,相比LiDAR,在實際應(yīng)用中主要有四點(diǎn)優(yōu)勢:便宜、不太容易受到極端天氣影響、探測距離較大、提供額外的速度測量。然而,與產(chǎn)生密集點(diǎn)云的激光雷達(dá)相比,雷達(dá)只提供稀疏和有噪聲的測量。主要的融合方式包括雷達(dá)-LiDAR融合、雷達(dá)-相機(jī)融合。

        結(jié)合高精地圖的多模態(tài)檢測


        高精地圖(HD maps)包含道路形狀、道路標(biāo)記、交通標(biāo)志、障礙物等詳細(xì)的道路信息。高精地圖提供了豐富的周圍環(huán)境語義信息,可以作為輔助3D目標(biāo)檢測的有力手段。如何將地圖信息整合到3D目標(biāo)檢測器中呢?高精地圖可以很容易地轉(zhuǎn)換為鳥瞰視圖,并與柵格化BEV點(diǎn)云或特征圖融合。融合可以通過簡單地將鳥瞰圖上的柵格化點(diǎn)云和高精地圖的通道連接起來進(jìn)行[313],或者將LiDAR點(diǎn)云和高精地圖分成單獨(dú)的主干,融合兩種模式的輸出特征圖[70]。還有其他地圖類型,如可見性地圖[100]等。

        7時序3D目標(biāo)檢測


        基于時序的3D目標(biāo)檢測主要分為三種:激光雷達(dá)序列檢測,流輸入檢測,從視頻中檢測。下圖為主要方法。


        激光雷達(dá)序列


        大多數(shù)方法專注于從單幀點(diǎn)云中檢測,也有許多方法利用多幀點(diǎn)云來實現(xiàn)更準(zhǔn)確的3D目標(biāo)檢測。它們通過各種時間建模工具融合多幀特征來解決時序檢測問題,也有通過將多幀目標(biāo)點(diǎn)合并到單一幀中來獲得更完整的3D形狀。時序3D目標(biāo)檢測在離線3D自動打標(biāo)簽流程中取得了巨大的成功,但在實時應(yīng)用中,這些方法仍然存在延遲問題,合并多幀不可避免地會帶來額外的時間和內(nèi)存成本。具體方法見下圖示意。


        利用流數(shù)據(jù)進(jìn)行3D目標(biāo)檢測


        激光雷達(dá)點(diǎn)云本質(zhì)上是一個流式數(shù)據(jù)源,其中激光雷達(dá)數(shù)據(jù)包在掃描中順序記錄。激光雷達(dá)傳感器完整掃描360度,大約需要50-100毫秒,這意味著當(dāng)點(diǎn)云產(chǎn)生時,已經(jīng)不能精確的反應(yīng)實時的場景信息了。而自動駕駛通常需要最少的反應(yīng)時間來保證駕駛安全。利用流數(shù)據(jù)的方法通常在動態(tài)LiDAR數(shù)據(jù)中檢測3D目標(biāo),而不用等完整掃描完成。與完整激光雷達(dá)掃描檢測相比,基于流式的3D目標(biāo)檢測是一種更準(zhǔn)確、低延遲的車輛感知解決方案。具體過程如下圖所示。


        利用視頻進(jìn)行3D目標(biāo)檢測


        自動駕駛應(yīng)用中很容易獲取視頻數(shù)據(jù)。相比基于單圖像的3D目標(biāo)檢測,基于視頻的3D檢測得益于序列圖像間的時間關(guān)系。大量的研究工作集中在基于單幅圖像的3D目標(biāo)檢測,研究視頻中的3D目標(biāo)檢測問題的較少,主要也是通過跟蹤和融合相同目標(biāo)來進(jìn)行3D目標(biāo)的檢測。

        8標(biāo)簽高效的3D目標(biāo)檢測


        前面的一些3D目標(biāo)檢測方法主要默認(rèn)都是全監(jiān)督學(xué)習(xí),并且是在某個特定的域內(nèi)進(jìn)行。實際情況則不可避免的遇到跨域和標(biāo)注數(shù)據(jù)缺少的問題。針對這些問題,主要從這方面去優(yōu)化:域自適應(yīng)、弱監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)。

        3D目標(biāo)檢測中的域自適應(yīng)


        在數(shù)據(jù)收集過程中,某些域空白現(xiàn)象是普遍存在的。不同傳感器的設(shè)置和安裝、不同的地理位置和不同的天氣將導(dǎo)致完全不同的數(shù)據(jù)域。在大多數(shù)情況下, 在某一域內(nèi)訓(xùn)練的3D目標(biāo)檢測器在其他域表現(xiàn)不佳。研究人員提出了許多技術(shù)來解決3D目標(biāo)檢測的域適配問題,例如利用源域和目標(biāo)域的一致性,目標(biāo)域的自訓(xùn)練等。然而,大多數(shù)方法只關(guān)注于解決一個特定的領(lǐng)域轉(zhuǎn)移問題。設(shè)計一種能夠普遍應(yīng)用于3D目標(biāo)檢測中任何領(lǐng)域轉(zhuǎn)移任務(wù)的域自適應(yīng)方法將是一個有前途的研究方向。域自適應(yīng)包括跨數(shù)據(jù)集的、跨天氣的、跨傳感器的、以及仿真到現(xiàn)實的域適應(yīng),具體參考下圖及表。


        弱監(jiān)督3D目標(biāo)檢測


        現(xiàn)有的3D目標(biāo)檢測方法依賴大量人工標(biāo)記的3D目標(biāo)框,但這些3D框的標(biāo)注相當(dāng)昂貴。弱監(jiān)督學(xué)習(xí)是解決這一問題的一個很有前途的方案,其中弱監(jiān)督信號,如更容易標(biāo)的2D標(biāo)注,被用來訓(xùn)練3D目標(biāo)檢測模型。弱監(jiān)督的3D目標(biāo)檢測在數(shù)據(jù)標(biāo)注方面需要的人力較少,但弱監(jiān)督方法與全監(jiān)督方法之間仍存在不可忽視的性能差距。

        弱監(jiān)督3D目標(biāo)檢測方法利用弱監(jiān)督,而不是完全的標(biāo)注3D框數(shù)據(jù)訓(xùn)練3D目標(biāo)檢測器。弱監(jiān)督包括圖像2D框[291,199]、預(yù)訓(xùn)練圖像檢測器[218]、BEV目標(biāo)中心和車輛實例[175, 176]。這些方法通常會設(shè)計新穎的學(xué)習(xí)機(jī)制來跳過3D框的監(jiān)督,學(xué)習(xí)從弱信號中挖掘有用信息來實現(xiàn)3D目標(biāo)檢測。詳見下圖示意。


        半監(jiān)督3D目標(biāo)檢測


        在現(xiàn)實應(yīng)用中,數(shù)據(jù)標(biāo)注比數(shù)據(jù)收集需要更多的人力。通常情況下,一輛數(shù)據(jù)采集車一天可以收集超過200k幀的點(diǎn)云,而熟練的人類每天只能標(biāo)注100-200幀,大量未標(biāo)注數(shù)據(jù)沒有很好的利用。半監(jiān)督學(xué)習(xí)利用少量標(biāo)注數(shù)據(jù)和大量無標(biāo)注數(shù)據(jù),共同訓(xùn)練出更強(qiáng)的模型,這是一個很有前途的方向。將3D目標(biāo)檢測與半監(jiān)督學(xué)習(xí)相結(jié)合可以提高檢測性能。

        半監(jiān)督3D目標(biāo)檢測主要有兩類方法:偽標(biāo)簽和教師-學(xué)生方法。偽標(biāo)簽方法[17,265]首先用有標(biāo)簽的數(shù)據(jù)訓(xùn)練一個3D目標(biāo)檢測器,然后用這個3D檢測器對未標(biāo)注域的數(shù)據(jù)打上偽標(biāo)簽。最后,用未標(biāo)注域上的偽標(biāo)簽重新訓(xùn)練3D目標(biāo)檢測器。教師-學(xué)生方法[354]將Mean Teacher[255]范式應(yīng)用于3D目標(biāo)檢測。首先在標(biāo)注域上訓(xùn)練教師檢測器,然后教師檢測器通過約束兩種檢測模型輸出的一致性來指導(dǎo)學(xué)生檢測器在未標(biāo)記域上的訓(xùn)練。具體示意見下圖。


        自監(jiān)督3D目標(biāo)檢測


        自監(jiān)督預(yù)訓(xùn)練(Self-supervised pre-training)被廣泛應(yīng)用于許多計算機(jī)視覺任務(wù)中,首先以自監(jiān)督的方式在大規(guī)模的無標(biāo)注數(shù)據(jù)上對模型進(jìn)行預(yù)訓(xùn)練,然后在有標(biāo)注的數(shù)據(jù)集上進(jìn)行微調(diào),以獲得更好的性能。在自動駕駛場景中,用于3D目標(biāo)檢測的自監(jiān)督預(yù)訓(xùn)練還沒有得到廣泛的探索。已有的方法試圖將對比學(xué)習(xí)等自監(jiān)督方法應(yīng)用于3D目標(biāo)檢測問題,但多模態(tài)數(shù)據(jù)中豐富的語義信息沒有得到很好的利用。如何有效地處理原始點(diǎn)云和圖像,以預(yù)訓(xùn)練出高性能3D目標(biāo)檢測器仍是一個挑戰(zhàn)。自監(jiān)督方法通常將對比學(xué)習(xí)技術(shù)[94,41]應(yīng)用到3D目標(biāo)檢測。具體來說,首先通過數(shù)據(jù)增強(qiáng)將輸入點(diǎn)云轉(zhuǎn)化為兩個視圖,然后使用對比學(xué)習(xí)來約束兩個點(diǎn)云視圖中相同3D位置的特征一致性,最后將這個預(yù)訓(xùn)練模型在有標(biāo)簽數(shù)據(jù)集上進(jìn)行微調(diào),得到更好性能。下圖為示意圖。


        9自動駕駛系統(tǒng)中的3D目標(biāo)檢測


        自動駕駛中的端到端學(xué)習(xí)


        3D目標(biāo)檢測是感知系統(tǒng)的關(guān)鍵組成部分,3D目標(biāo)檢測器的性能將對跟蹤、預(yù)測和規(guī)劃等下游任務(wù)產(chǎn)生深遠(yuǎn)影響。因此,從系統(tǒng)的角度來看,3D目標(biāo)檢測模型與其他感知任務(wù)以及下游任務(wù)聯(lián)合訓(xùn)練,將是更好的自動駕駛解決方案。一個挑戰(zhàn)是如何將所有駕駛?cè)蝿?wù)包含在一個統(tǒng)一框架中,并以端到端的方式聯(lián)合訓(xùn)練這些任務(wù)。

        聯(lián)合感知和預(yù)測。很多方法通過感知和跟蹤3D目標(biāo),然后以端到端的方式預(yù)測它們的未來軌跡。FaF[160]是一項開創(chuàng)性工作,它提出使用單個3D卷積聯(lián)合預(yù)測3D目標(biāo)檢測、跟蹤和軌跡預(yù)測。這種設(shè)計范式被許多論文改進(jìn),例如[21]利用地圖信息,[125]引入交互式 Transformer,[350]設(shè)計時空交互式網(wǎng)絡(luò),[298]提出時空金字塔網(wǎng)絡(luò),[138]循環(huán)執(zhí)行所有任務(wù),[204]涉及將定位任務(wù)引入系統(tǒng)。

        聯(lián)合感知、預(yù)測和規(guī)劃。很多工作努力將感知、預(yù)測和規(guī)劃納入一個統(tǒng)一的框架。與聯(lián)合感知和預(yù)測方法相比,整個系統(tǒng)可以通過將運(yùn)動規(guī)劃添加到端到端流程中,并從規(guī)劃反饋信息中得到收益。很多方法提出來改善這個框架,例如[229]引入語義占用圖以產(chǎn)生可解釋的中間表示,[290]將空間注意力納入框架,[341]提出深度結(jié)構(gòu)化網(wǎng)絡(luò),[22]提出無地圖方法,[53] 產(chǎn)生一組不同的未來軌跡。

        一個完整的端到端自動駕駛系統(tǒng)應(yīng)該是這樣子的:自動駕駛車輛接受傳感器輸入,在一個循環(huán)中依次執(zhí)行感知、預(yù)測、規(guī)劃和運(yùn)動控制,最終給駕駛系統(tǒng)提供轉(zhuǎn)向和速度信號。[12]首先介紹了這個想法,并用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了基于圖像的端到端驅(qū)動系統(tǒng)。[302]提出了一種具有多模式輸入的端到端架構(gòu)。[51]和[106]提出分別通過條件模仿學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)來學(xué)習(xí)端到端自動駕駛系統(tǒng)。具體的端到端的自動駕駛示意如下圖所示。


        3D目標(biāo)檢測仿真


        3D目標(biāo)檢測模型通常需要大量數(shù)據(jù)進(jìn)行訓(xùn)練。雖然可以在現(xiàn)實世界場景中收集數(shù)據(jù),但現(xiàn)實世界的數(shù)據(jù)通常會受到長尾分布的影響。例如,交通事故或極端天氣的場景很少被采集到,但對于訓(xùn)練強(qiáng)大的3D目標(biāo)檢測器非常重要。模擬仿真是解決長尾數(shù)據(jù)分布問題的一種很有前途的方案,因為我們可以為那些罕見但關(guān)鍵的場景創(chuàng)建人造數(shù)據(jù)。模擬的一個公開挑戰(zhàn)是如何創(chuàng)建更真實的人造數(shù)據(jù)。

        視覺模擬。很多方法在駕駛場景中生成逼真的合成圖像。這些方法的想法包括利用圖形引擎[1, 226]、利用紋理映射面元[320]、利用真實世界數(shù)據(jù)[47]和學(xué)習(xí)可控神經(jīng)模擬器[108]。

        激光雷達(dá)模擬。除了生成合成圖像,許多方法試圖通過模擬生成LiDAR點(diǎn)云。一些方法[69, 188, 71]通過模擬現(xiàn)實世界的效果提出了新穎的點(diǎn)云渲染機(jī)制。一些方法[169]利用真實世界的實例來重建3D場景。其他論文側(cè)重于安全關(guān)鍵場景[267]或惡劣天氣條件下[89]的模擬。

        駕駛模擬。許多論文試圖建立一個交互式駕駛模擬平臺,虛擬車輛可以在其中感知虛擬環(huán)境并與虛擬環(huán)境交互,最終規(guī)劃車輛路徑。CARLA[61]是一個開創(chuàng)性的自動駕駛開源模擬器。其他論文利用圖形引擎[232]或開發(fā)數(shù)據(jù)驅(qū)動方法[4]進(jìn)行駕駛模擬。還有一些工作模擬交通流[253、252]或通過模擬測試車輛的安全性[296]。

        3D目標(biāo)檢測的魯棒性


        基于學(xué)習(xí)的3D的目標(biāo)檢測方法容易受到攻擊,比如給傳感器輸入中添加一些噪聲或目標(biāo),就可能造成3D目標(biāo)檢測器失效,造成漏檢,如何更好的防御攻擊是個問題。

        許多論文提出通過對抗性機(jī)器學(xué)習(xí)攻擊傳感器并欺騙目標(biāo)檢測器。這些方法針對不同的目標(biāo),例如LiDAR檢測器[18, 294, 257, 248, 366],多模態(tài)檢測器[19, 259],協(xié)作感知模型[258],車輛軌跡[130] 等。他們提出了不同的技術(shù)來欺騙檢測器,包括在道路上添加對抗性障礙物[18]、在車輛上放置真實的樣本[294]、在對抗性位置放置任意目標(biāo)[366]、利用對抗性紋理網(wǎng)格[259]、放棄臨界值[294],和利用被遮擋的點(diǎn)云模式[248]等。

        協(xié)同3D目標(biāo)檢測


        現(xiàn)有的3D目標(biāo)檢測方法主要基于本車單車,但是只用單車會造成無法解決目標(biāo)遮擋和遠(yuǎn)處目標(biāo)的稀疏性問題。于是很多研究提出,利用多車協(xié)同方案。本車與其它車或基礎(chǔ)設(shè)施進(jìn)行通信,根據(jù)其它代理(車或基礎(chǔ)設(shè)施)反饋的信息提高感知精度。協(xié)同感知的一個挑戰(zhàn)是如何適當(dāng)?shù)仄胶饩忍岣吆屯ㄐ艓捯?。協(xié)同3D目標(biāo)檢測方法融合來自多個代理的信息以提高3D目標(biāo)檢測器的性能。融合的信息可以是來自其他代理的原始輸入[33, 345],其通信帶寬消耗很小,并且對于檢測非常有效,也可以是壓縮的特征圖 [32, 276, 260, 129],其通信帶寬成本不可忽略,但檢測效果通常會更好。還有一些論文研究何時與其他代理通信[150]以及與哪個代理通信[151]。

        10分析和展望


        研究趨勢


        3D目標(biāo)檢測的評價指標(biāo)從原來的2D的AP已經(jīng)逐漸變?yōu)锳P-3D和AP-BEV,更好的衡量3D檢測效果?;贚iDAR的方法在數(shù)據(jù)集的選擇上也從KITTI逐漸變?yōu)楦蠛透鄻拥膎uScenes和WaymoOpen數(shù)據(jù)集。部署依然很難,因為很多方法為了提高性能,并沒有太在乎推理時間,造成實時性較差。

        目前來看,基于LiDAR的方法中,基于體素和點(diǎn)體素的方法性能有較大提升。基于柱體的方法運(yùn)行快,效率高,但性能比基于體素的差?;赗ange和BEV的方法不錯,推理時間也可以接受?;邳c(diǎn)的檢測器效果好,但是推理速度受采樣和處理算子的影響較大。

        基于相機(jī)的3D目標(biāo)檢測方法中,雙目比單目好,多相機(jī)的研究也是前景廣泛。多模態(tài)比單模態(tài)效果好,但引入了額外的計算開銷,前融合方法更嚴(yán)重?,F(xiàn)在很多方法只用了前視圖和對應(yīng)點(diǎn)云進(jìn)行融合,而在nuScenes上提供了多視圖圖像、點(diǎn)云和高精地圖,模型可以得到更好的結(jié)果。

        從系統(tǒng)級別來看,以速度和精度為主導(dǎo)因素,則基于LiDAR和多模態(tài)的方法是最佳解決方案;如果以成本為最重要因素,那么基于相機(jī)的方法可能是最佳選擇。

        未來展望


        數(shù)據(jù)集不能只用閉集,類別只有那些常見的目標(biāo)(機(jī)非人等),后續(xù)也應(yīng)該關(guān)注一些現(xiàn)實世界中稀有類及未標(biāo)注的類別,開放世界目標(biāo)檢測值得關(guān)注。

        3D目標(biāo)檢測的可解釋性研究。深度學(xué)習(xí)作為黑盒,可解釋性較差,但為了更加穩(wěn)健的使用3D目標(biāo)檢測器,并知道如何避免一些意外情況,需要理解和解釋現(xiàn)有3D目標(biāo)檢測器的一些行為。

        硬件系統(tǒng)的優(yōu)化設(shè)計同樣重要,如何讓基于LiDAR和多模態(tài)的檢測器高效的在移動端硬件上跑起來,需要設(shè)計新的硬件架構(gòu)來方便模型部署。

        端到端的3D目標(biāo)檢測算法未來是個趨勢,畢竟單獨(dú)去優(yōu)化3D目標(biāo)檢測器,對下游任務(wù)(預(yù)測和規(guī)劃)不一定是最優(yōu)的。

        下面的表是一個匯總。


        11總結(jié)


        本文全面回顧和分析了自動駕駛3D目標(biāo)檢測的各個方面。從3D目標(biāo)檢測的問題定義、數(shù)據(jù)集和評估指標(biāo)開始,然后介紹了基于各種傳感器的3D目標(biāo)檢測方法,包括基于LiDAR、基于相機(jī)和多模態(tài)3D目標(biāo)檢測方法。進(jìn)一步研究了利用時態(tài)數(shù)據(jù)的3D目標(biāo)檢測,具有標(biāo)簽高效的學(xué)習(xí),以及它在自動駕駛系統(tǒng)中的應(yīng)用。最后,總結(jié)了近年來的研究趨勢,展望了未來3D目標(biāo)檢測的研究方向。

        12參考文獻(xiàn)


        [1] Mao, J., Shi, S., Wang, X., & Li, H. (2022). 3D Object Detection for Autonomous Driving: A Review and New Outlooks.ArXiv, abs/2206.09474.

                                                                      

        編輯:于騰凱

        校對:林亦霖


        瀏覽 42
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
        評論
        圖片
        表情
        推薦
        點(diǎn)贊
        評論
        收藏
        分享

        手機(jī)掃一掃分享

        分享
        舉報
          
          

            1. 人人摸人人操人人摸 | 亚洲精品国产精品国自产观看浪潮 | 国产乱╳╳aⅴ毛片 | 亭亭五月与丁香花 | 色色V|