登頂KITTI和NuScenes | 2DPASS:2D先驗(yàn)輔助的激光雷達(dá)點(diǎn)云語義分割!ECCV2022
點(diǎn)擊下方卡片,關(guān)注“新機(jī)器視覺”公眾號(hào)
重磅干貨,第一時(shí)間送達(dá)
論文鏈接:https://arxiv.org/pdf/2207.04397.pdf
代碼鏈接:https://github.com/yanx27/2DPASS
1提出背景
由于camera和激光雷達(dá)在自動(dòng)駕駛中能夠捕獲一些互補(bǔ)信息,許多方法通過多模態(tài)數(shù)據(jù)融合方式進(jìn)行語義分割。然而,基于融合的方法需要成對(duì)數(shù)據(jù),即具有嚴(yán)格點(diǎn)到像素映射的激光雷達(dá)點(diǎn)云和2D圖像,作為訓(xùn)練和推理階段的輸入,這嚴(yán)重阻礙了它們?cè)趯?shí)際場(chǎng)景中的應(yīng)用。因此,論文提出了基于2D先驗(yàn)輔助語義分割(2DPASS)方法,這是一種通用的訓(xùn)練方案,用于促進(jìn)點(diǎn)云上的表示學(xué)習(xí)。2DPASS充分利用了訓(xùn)練過程中有著豐富語義信息的2D圖像,然后在沒有嚴(yán)格paired數(shù)據(jù)約束的情況下進(jìn)行語義分割。實(shí)踐中,通過利用輔助模態(tài)融合和多尺度融合進(jìn)行單知識(shí)提?。∕SFSKD),2DPASS從多模態(tài)數(shù)據(jù)中獲取更豐富的語義和結(jié)構(gòu)信息,然后將這些信息提取到純3D網(wǎng)絡(luò)?;€模型顯示,在配備2DPASS后,僅使用點(diǎn)云輸入即可顯著改善,在兩個(gè)大規(guī)模公認(rèn)基準(zhǔn)(即SemanticKITTI和NuScenes)上達(dá)到了SOTA。
2應(yīng)用需求
語義分割在大規(guī)模室外場(chǎng)景理解中起著至關(guān)重要的作用,在自動(dòng)駕駛和機(jī)器人技術(shù)中有著廣泛的應(yīng)用[1-3]。在過去幾年中,研究界投入了大量精力,使用相機(jī)圖像[4-7]或激光雷達(dá)點(diǎn)云[2,8-12]作為輸入來理解自然場(chǎng)景。然而,由于輸入傳感器的固有局限性,這些單模態(tài)方法在復(fù)雜環(huán)境中會(huì)遇到較多挑戰(zhàn)。圖像數(shù)據(jù)提供密集的顏色信息和細(xì)粒度紋理,但它們?cè)谏疃葌鞲蟹矫娌幻鞔_,在弱光條件下不可靠。相比之下,無論光照變化如何,激光雷達(dá)都能提供準(zhǔn)確和廣泛的深度信息,但只能捕獲稀疏和無紋理的數(shù)據(jù)。由于攝像機(jī)和激光雷達(dá)能夠相輔相成,因此最好使用兩個(gè)傳感器感知周圍環(huán)境。

目前基于融合的方法仍存在以下不可避免的局限性:
1)由于攝像機(jī)和激光雷達(dá)之間的FOV(視野)不同,無法為圖像平面外的點(diǎn)建立點(diǎn)到像素的映射,通常,激光雷達(dá)和攝像機(jī)的視場(chǎng)僅在一小部分重疊(如上圖所示),這大大限制了基于融合的方法的應(yīng)用;
2) 基于融合的方法在運(yùn)行時(shí)同時(shí)處理圖像和點(diǎn)云(通過多任務(wù)或級(jí)聯(lián)方式),因此消耗了更多的計(jì)算資源,這給實(shí)時(shí)應(yīng)用帶來了很大負(fù)擔(dān);
為了解決上述兩個(gè)問題,論文重點(diǎn)通過有效的設(shè)計(jì),利用圖像和點(diǎn)云來改進(jìn)語義分割??紤]到傳感器在場(chǎng)景中移動(dòng),與相同時(shí)間戳中的圖像相對(duì)應(yīng)的360度激光雷達(dá)點(diǎn)云的非重疊部分(參見圖1中右側(cè)部分的灰色區(qū)域)可以被來自其他時(shí)間戳的圖像覆蓋。此外,圖像的密集和結(jié)構(gòu)信息為可見和不可見的點(diǎn)云區(qū)域提供了有用的正則化?;谶@些觀察結(jié)果,我們提出了一種“與模型無關(guān)”的訓(xùn)練方案,即2D先驗(yàn)輔助語義分割(2DPASS),以增強(qiáng)任何3D語義分割網(wǎng)絡(luò)的表示學(xué)習(xí);
一方面,對(duì)于上述非重疊區(qū)域,2DPASS將純點(diǎn)云作為輸入來訓(xùn)練分割模型;另一方面,對(duì)于具有良好對(duì)齊點(diǎn)到像素映射的子區(qū)域,2DPASS采用輔助多模式融合來聚合每個(gè)尺度中的圖像和點(diǎn)特征,然后將三維預(yù)測(cè)與融合預(yù)測(cè)對(duì)齊。與以前的跨模態(tài)對(duì)齊[17]容易污染模態(tài)特定信息不同,論文設(shè)計(jì)了一種多尺度融合到單知識(shí)提取(MSFSKD)策略,將額外知識(shí)轉(zhuǎn)移到三維模型,并保留其模態(tài)特定能力。與基于融合的方法相比,論文的解決方案具有以下更好的特性:
1)通用性:它可以輕松地與任何三維分割模型集成,只需少量的結(jié)構(gòu)修改;
2) 靈活性:融合模塊僅在訓(xùn)練期間用于增強(qiáng)3D網(wǎng)絡(luò),訓(xùn)練后,增強(qiáng)的三維模型可以在沒有圖像輸入的情況下部署;
3) 有效性:即使只有一小部分重疊的多模態(tài)數(shù)據(jù),論文的方法也可以顯著提高性能;
3網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)
單模態(tài)方法
基于圖像
基于圖像的語義分割旨在預(yù)測(cè)輸入2D圖像的像素級(jí)標(biāo)簽。FCN[19]是語義分割領(lǐng)域的先驅(qū),它提出了一種基于圖像分類網(wǎng)絡(luò)的端到端全卷積結(jié)構(gòu)。最近的工作通過探索多尺度特征學(xué)習(xí)[4,20,21]、擴(kuò)展卷積[5,22]和注意力機(jī)制[7,23]取得了顯著的改進(jìn)。然而,僅使圖像的方法在深度傳感方面不明確,在弱光條件下不穩(wěn)定。
基于Lidar
激光雷達(dá)數(shù)據(jù)通常表示為點(diǎn)云。處理具有不同表示的點(diǎn)云有幾種主流。
1) 基于點(diǎn)的方法使用逐點(diǎn)多層感知器(MLP)近似置換不變集函數(shù)。PointNet[24]是這一領(lǐng)域的先驅(qū)。后來,許多研究設(shè)計(jì)了基于點(diǎn)的MLP[25,26]、自適應(yīng)權(quán)重[27,28]和偽網(wǎng)格[29,30]的方法來提取點(diǎn)云的局部特征,或利用非局部算子[31-33]來學(xué)習(xí)長(zhǎng)距離依賴性。然而,基于點(diǎn)的方法在激光雷達(dá)場(chǎng)景中并不有效,因?yàn)樗鼈兊牟蓸雍头纸M算法通常很耗時(shí)。
2) 基于投影的方法是非常有效的激光雷達(dá)點(diǎn)云方法。一般將點(diǎn)云投影到2D像素上,使傳統(tǒng)的CNN可以發(fā)揮正常作用。之前的工作通過平面投影[34-36]、球面投影[37、38]或兩者[39]將旋轉(zhuǎn)激光雷達(dá)掃描的所有點(diǎn)投影到2D圖像上。然而,投影不可避免地會(huì)導(dǎo)致信息丟失。目前,基于投影的分割方法遇到了分割精度的瓶頸。
3) 最新的工作采用了基于體素的框架,因?yàn)樗鼈兤胶饬诵屎陀行?,其中最常用的是稀疏卷積(SparseConv)[3]。與傳統(tǒng)的基于體素的方法(即3DCNN)直接將所有點(diǎn)轉(zhuǎn)換為三維體素網(wǎng)格相比,SparseConv僅將非空體素存儲(chǔ)在哈希表中,并以更高效的方式僅對(duì)這些非空體素執(zhí)行卷積運(yùn)算。最近,許多研究使用SparseConv來設(shè)計(jì)更強(qiáng)大的網(wǎng)絡(luò)架構(gòu)。Cylinder3D[40]將原始網(wǎng)格體素更改為圓柱體體素,并設(shè)計(jì)非對(duì)稱網(wǎng)絡(luò)以提高性能。AF2-S3Net[41]應(yīng)用具有不同內(nèi)核大小的多個(gè)分支,通過注意力機(jī)制聚合多尺度特征。
4) 最近,出現(xiàn)了一種利用多表示融合方法的趨勢(shì)。這些方法結(jié)合了上述多種表示(即點(diǎn)、投影圖像和體素)和不同分支之間的設(shè)計(jì)特征融合。Tang等人[10]在每個(gè)稀疏卷積塊中結(jié)合逐點(diǎn)MLP來學(xué)習(xí)點(diǎn)體素表示,并使用NAS搜索更高效的架構(gòu)。RPVNet[42]提出了距離點(diǎn)體素融合網(wǎng)絡(luò),以利用來自三種表示的信息。然而,這些方法僅將稀疏和無紋理的激光雷達(dá)點(diǎn)云作為輸入,因此未充分利用相機(jī)圖像中的外觀和紋理。
基于多模態(tài)方法
多傳感器方法試圖融合來自兩個(gè)互補(bǔ)傳感器的信息,并利用攝像機(jī)和激光雷達(dá)的優(yōu)勢(shì)[14、15、43、44]。RGBAL[14]將RGB圖像轉(zhuǎn)換為極坐標(biāo)網(wǎng)格映射表示,并設(shè)計(jì)早期和中期融合策略。PointPainting[15]利用圖像的分割邏輯,并通過鳥瞰圖投影[23]或球面投影[45]將其投影到激光雷達(dá)空間,以提高激光雷達(dá)網(wǎng)絡(luò)性能。最近,PMF[13]利用攝像機(jī)坐標(biāo)系中兩種模式的協(xié)作融合。然而,這些方法在訓(xùn)練和推理階段都需要多傳感器輸入。此外,成對(duì)的多模態(tài)數(shù)據(jù)通常計(jì)算密集,在實(shí)際應(yīng)用中不可用。
2DPASS

如上圖所示,2DPASS首先從原始圖像中裁剪出一小塊patch作為2D輸入。然后,裁剪后的圖像面片和激光雷達(dá)點(diǎn)云分別通過2D和3D編碼器,并行生成多尺度特征。然后,對(duì)于每個(gè)尺度,互補(bǔ)的二維知識(shí)通過多尺度融合到單知識(shí)蒸餾(MSFSKD)從而有效地轉(zhuǎn)移到三維網(wǎng)絡(luò)中(即充分利用紋理和顏色感知的二維先驗(yàn)知識(shí),并保留原始的三維特定知識(shí)),最后3D任務(wù)通過解碼器生成最終標(biāo)簽;
如上圖所示,通過投影,2D和3D分支的預(yù)測(cè)由純3D標(biāo)簽監(jiān)督。在推理過程中,可以丟棄與2D相關(guān)的分支,與基于融合的方法相比,這在實(shí)際應(yīng)用中有效地避免了額外的計(jì)算負(fù)擔(dān);

2Dencoder和3Dencoder結(jié)構(gòu)如上圖所示,(a)部分演示了2D特征生成,其中點(diǎn)云將首先投影到圖像面片上,并生成點(diǎn)到像素(P2P)映射。然后,根據(jù)P2P映射將二維特征映射轉(zhuǎn)換為逐點(diǎn)二維特征。(b)部分顯示了三維特征生成。點(diǎn)到體素(P2V)映射很容易獲得,體素特征將插值到點(diǎn)云上。點(diǎn)云在圖像上的映射如下,其中K代表camera的內(nèi)參,T代表外參:

MSFSKD
如下圖所示,MSFSKD的內(nèi)部結(jié)構(gòu)包括模態(tài)融合和模態(tài)保持。其中2D特征和3D特征(通過2D Learner)進(jìn)行融合,并通過兩個(gè)MLP以及非線性映射對(duì)特征做點(diǎn)加,然后將輸出特征和原2D特征進(jìn)行融合,結(jié)合classifier,輸出融合特征,3D部分則通過特征增強(qiáng),結(jié)合classifier,輸出3D預(yù)測(cè)結(jié)果,并在結(jié)果層面上做蒸餾;

2D和3D結(jié)果融合的表達(dá)方式如下:

蒸餾表達(dá)如下:

4實(shí)驗(yàn)結(jié)果
KITTI數(shù)據(jù)集上,語義分割結(jié)果,相同速度下,2DPASS大幅度超越PolarNet,相近性能下,2DPASS速度相比RPVNet和S3Net提升明顯;


Nuscenes數(shù)據(jù)集上,性能優(yōu)勢(shì)明顯:

5參考文獻(xiàn)
[1] 2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds.ECCV2022.
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
