自動(dòng)駕駛中的3D物體狀態(tài)檢測(cè)
點(diǎn)擊上方“小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
3D物體檢測(cè)是自動(dòng)駕駛的一項(xiàng)重要技術(shù),KITTI提供了一種用于訓(xùn)練和評(píng)估不同的3D對(duì)象檢測(cè)器的性能的標(biāo)準(zhǔn)化數(shù)據(jù)集。在這里,我們使用來(lái)自KITTI的數(shù)據(jù)來(lái)總結(jié)和突出3D對(duì)象檢測(cè)方案中的優(yōu)劣,這些方案通??梢苑譃槭褂肔IDAR和使用LIDAR + Image(RGB)。
CNN用于2D對(duì)象檢測(cè)和分類的機(jī)器已經(jīng)成熟。但是,用于自動(dòng)駕駛的3D對(duì)象檢測(cè)帶來(lái)至少兩個(gè)獨(dú)特的挑戰(zhàn):
與RGB圖像不同,LIDAR點(diǎn)云是3D的并且是非結(jié)構(gòu)化的。
自動(dòng)駕駛的3D檢測(cè)必須快速(<?100ms)。
幾個(gè)3 d的檢測(cè)方法已通過(guò)離散化LIDAR點(diǎn)云成3D體素網(wǎng)格和解決的第一個(gè)問(wèn)題中應(yīng)用3D卷積。但是,與2D卷積相比,3D卷積具有更大的計(jì)算成本并因此具有更高的延遲?;蛘?,可以在自頂向下的鳥(niǎo)瞰圖(BEV)或激光雷達(dá)的本機(jī)范圍視圖(RV)中將點(diǎn)云投影到2D圖像。優(yōu)點(diǎn)是可以通過(guò)更快的2D卷積有效地處理投影圖像,從而降低延遲。
我們從KITTI BEV中選擇了一些方法,以突出顯示RV,BEV和在體素功能上運(yùn)行的方法之間的一些優(yōu)劣。該圖顯示了檢測(cè)器延遲(ms)與車輛AP的關(guān)系:

檢測(cè)器(僅LIDAR)延遲與車輛AP
可得到如下結(jié)果:
BEV投影保留了物體的大小和距離,為學(xué)習(xí)提供了強(qiáng)大的先決條件。
Z軸被視為2D卷積的特征通道。
地面高度可用于展平Z軸上的點(diǎn)(例如HDNet),從而減輕由于道路坡度而引起的平移差異的影響。
具有學(xué)習(xí)功能(PointNet)的BEV可以整合Z軸,從而獲得強(qiáng)大的性能。
SECOND通過(guò)體素特征編碼層和稀疏卷積來(lái)實(shí)現(xiàn)此目的;
SECOND(v1.5)的新版本報(bào)告了更好的AP(86.6%)和低延遲(40ms)。
PointPillars在Z軸支柱上應(yīng)用了簡(jiǎn)化的PointNet,從而產(chǎn)生了2D BEV圖像,該圖像被饋送到2D CNN中。
RV投影會(huì)因距離而發(fā)生遮擋和物體大小變化。
在KITTI的7.5k幀序列數(shù)據(jù)集上, RV檢測(cè)器(例如LaserNet)的性能落后于BEV檢測(cè)器。
但是, LaserNet在1.2M幀ATG4D數(shù)據(jù)集上的性能與BEV檢測(cè)器 (例如HDNet)相當(dāng)。
RV投影具有低延遲(例如LaserNet),這可能是由于相對(duì)于稀疏BEV的RV表示密集。
VoxelNet率先使用了體素功能,但由于3D卷積而遭受高延遲。
較新的方法(例如SECOND)可以使用相同的體素特征編碼層,但是避免使用稀疏卷積來(lái)減少延遲的3D卷積。
LIDAR + RGB融合改善了3D檢測(cè)性能,特別是對(duì)于LIDAR數(shù)據(jù)經(jīng)常稀疏的較小物體(例如行人)或遠(yuǎn)距離(>50m-70m)而言。下面總結(jié)了一些融合方法?;谔嶙h的方法以RGB(例如F-Pointnet)或BEV(例如MV3D)生成對(duì)象提議。密集融合方法將LIDAR和RGB特征直接融合到一個(gè)普通的投影中,并且通常以各種分辨率進(jìn)行融合。

LIDAR + RGB融合的一般方法。圖像改編自MV3D(Chen等人,2016),F(xiàn)-Pointnet(Qi等人,2017),ContFuse(Liang等人,2018)和LaserNet(Meyer等人,2018)。
該圖顯示了相對(duì)于車輛AP的延遲(ms):

檢測(cè)器(帶有LIDAR + RGB融合標(biāo)記)的延遲與車輛AP的關(guān)系
得到如下結(jié)果:
RV密集融合具有所有方法中最低的延遲,并且基于提議的方法通常比密集融合具有更高的延遲。由于RGB和LIDAR功能都在RV中,因此RV密集融合(例如LaserNet ++)速度很快。LIDAR特征可以直接投影到圖像中進(jìn)行融合。相比之下, ContFuse確實(shí)BEV密集的融合。它從RGB特征生成BEV特征圖,并與LIDAR BEV特征圖融合。這具有挑戰(zhàn)性,因?yàn)椴⒎荁EV中的所有像素都能在RV中觀察到 RGB圖像。幾個(gè)步驟可以解決這個(gè)問(wèn)題。例如,一個(gè)未觀察到的BEV像素,將提取附近的K個(gè)LIDAR點(diǎn)。計(jì)算每個(gè)點(diǎn)與目標(biāo)BEV像素之間的偏移。將這些點(diǎn)投影到RV以檢索相應(yīng)的RGB特征。偏移量和RGB特征被饋送給連續(xù)卷積,該連續(xù)卷積在RGB特征之間進(jìn)行插值以在目標(biāo)BEV像素處生成未觀察到的特征。對(duì)所有BEV像素完成此操作,生成RGB特征的密集插值BEV貼圖。
通常,在LIDAR稀疏的情況下以及在小物體上,融合方法的性能增益最高。相對(duì)于LIDAR(LaserNet),LIDAR + RGB特征融合(LaserNet ++)的AP改進(jìn)在車輛上是適度的(0-70m時(shí)為+1%AP),但在較小的類別上尤其是較大范圍時(shí)。LaserNet ++在ATG4D上具有很強(qiáng)的性能,但未體現(xiàn)其KITTI性能。

RV和BEV預(yù)測(cè)之間的對(duì)比
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~

