(附論文&代碼)PanoNet3D:一種3D目標檢測方法
點擊左上方藍字關注我們

作者 | 黃浴@知乎
鏈接 | https://zhuanlan.zhihu.com/p/344409383
論文:https://arxiv.org/pdf/2012.09418.pdf
代碼:https://github.com/poodarchu/Det3D

作者覺得大多數激光雷達檢測方法只是利用目標幾何結構,所以提出在一個多視角框架下學習目標的語義和結構特征,其利用激光雷達的特性,2D距離圖像,以此提取語義特征。
該方法PanoNet3D結構如圖:

上面分支,LiDAR點云作為輸入,用幾個簡單的局部幾何特征修飾原始點特征,包括全局位置、局部相對所在體素中心的位移。
體素化有兩種:1)3D正常體素化;2)pillarization,類似PointPillars。
下面分支,點云轉換為偽距圖像,類似LaserNet,得到結果如下圖:5個通道,range r, height h, elevation angle theta, reflectance i, occupancy mask m。

饋入2D Semantic FPN (SFPN),獲取每個像素的深度語義特征。將兩個分支輸出特征匯總并傳遞到主檢測器。最終的框頭部在BEV平面生成檢測建議。單步檢測器,基于anchor,預測朝向框以及置信度得分。
文中提出了時域多幀融合和空域多幀融合,前者簡單,后者需要選擇關鍵幀,如圖是一個例子

這里取兩幀n=2做實驗。
檢測頭設計如圖:初始特征128維,整個場景大小限制為[-51.2, 51.2] [-51.2, 51.2] [-3, 3]米,分別在x-y-z方向。網絡由ResNet基本塊幾層組成。S表示每層步幅,N表示塊數。生成的SFPN特征圖具有和該層同樣分辨率的,標記為紅色??梢允?,3D voxelize輸入或者pillarize再輸入。

數據增強類似SECOND,cropped線下存儲,做隨機全局變換,如translation、scaling、rotation等。
該文實現是基于Det3D:CBGS開源庫
結果:


END
整理不易,點贊三連↓
