用于道路場景實時準確語義分割的深度雙分辨率網(wǎng)絡
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達

語義分割是自動駕駛汽車了解周圍場景的關鍵技術。對于實際的自動駕駛汽車來說,為了獲得高精度的分割結(jié)果而花費大量的推理時間是不可取的。最近的方法使用輕量級架構(gòu)(編碼器、解碼器或雙通道)或?qū)Φ头直媛蕡D像進行推理,實現(xiàn)了非??斓膱鼍敖馕觯踔猎趩蝹€1080Ti GPU上運行超過100 FPS。然而,這些實時方法和基于膨脹骨架的模型在性能上仍然存在明顯的差距。為了解決這一問題,作者提出了一種新型的深度雙分辨率網(wǎng)絡(DDRNets)用于道路場景的實時語義分割。此外,作者還設計了一種新的上下文信息提取器——深度聚合金字塔池模塊(Deep Aggregation Pyramid Pooling Module, DAPPM),以擴大有效的接受域,融合多尺度上下文。作者的方法在城市景觀和CamVid數(shù)據(jù)集的準確性和速度之間實現(xiàn)了最新的最先進的平衡。特別,在2080Ti GPU,DDRNet-23-slim收益率77.4% mIoU 109 FPS城市測試集和74.4%在230 FPS mIoU CamVid測試集,沒有利用注意力機制,pretraining更大的語義分割數(shù)據(jù)集或推理加速度,DDRNet-39達到80.4%的測試mIoU在城市23 FPS。由于廣泛使用的測試增強,作者的方法仍然優(yōu)于大多數(shù)最先進的模型,需要更少的計算。守則和訓練過的模型將向公眾開放。
本文受HRNet的啟發(fā),提出了一種具有深度高分辨率表示能力的深度雙分辨率網(wǎng)絡,用于高分辨率圖像的實時語義分割,特別是針對道路駕駛圖像。作者的DDRNet從一個主干開始,然后分成兩個不同分辨率的平行深分支。一個深度分支生成相對高分辨率的特征圖,另一個通過多次下采樣操作提取豐富的上下文信息。為了實現(xiàn)有效的信息融合,在兩個分支之間建立了多個雙邊連接。此外,作者還提出了一種新的模塊DAPPM,該模塊比普通的PPM模塊能更充分地增加接收域,提取上下文信息。在對語義分割數(shù)據(jù)集進行訓練之前,首先在ImageNet上按照常見的范式對雙分辨率網(wǎng)絡進行訓練。
根據(jù)在兩個流行基準上的大量實驗結(jié)果,DDRNet在分割精度和推理速度之間取得了很好的平衡,并且在訓練過程中比HRNet占用更少的GPU內(nèi)存。與其他實時算法相比,作者的方法在城市景觀和CamVid上實現(xiàn)了新的最先進的mIoU,沒有注意機制和任何額外的鈴聲或口哨。使用標準的測試增強技術,DDRNet可以與最先進的模型相媲美,但需要的計算資源要少得多。
其主要貢獻總結(jié)如下:
提出了一種新的深度雙分辨率雙邊網(wǎng)絡用于實時語義分割。作者的網(wǎng)絡獲得新的最先進的性能考慮推理速度沒有任何額外的鈴聲或哨子。
設計了一個新的模塊,通過將特征聚合與金字塔池相結(jié)合來獲取豐富的上下文信息。當它與低分辨率的特征映射集成時,推理時間幾乎沒有增加。
通過簡單的增加網(wǎng)絡的寬度和深度,DDRNet在現(xiàn)有的方法中實現(xiàn)了mIoU和FPS之間的最大權(quán)衡,在cityscape測試集上,從77.4%的mIoU在109 FPS到80.4%的mIoU在23 FPS。


雙側(cè)融合細節(jié)在DDRNet中。在ReLU之前實現(xiàn)了求和融合。

語義分割的DDRNets綜述。RB表示順序剩余基本塊。RBB表示單個剩余瓶頸塊。DAPPM表示深度聚合金字塔池化模塊。賽格。Head表示分割頭。黑色實線表示有數(shù)據(jù)處理的信息路徑(包括上采樣和下采樣),黑色虛線表示沒有數(shù)據(jù)處理的信息路徑。sum表示逐點連接。虛線框表示在推理階段被忽略的組件。

cityscape val set上的可視化分割結(jié)果。從左到右的四列分別為輸入圖像、ground truth、DDRNet-23-slim的輸出、DDRNet-23的輸出。前四行顯示了兩種模型的性能,后兩行表示了一些分割失敗。
本文提出了一種新的用于道路場景實時語義分割的深度雙分辨率體系結(jié)構(gòu),并提出了一種新的多尺度上下文信息提取模塊。據(jù)作者所知,作者是第一個將深度高分辨率表示引入實時語義分割的公司,作者的簡單策略在兩種流行基準上優(yōu)于所有以前的模型,而不需要任何額外的附加功能?,F(xiàn)有的實時網(wǎng)絡大多是為ImageNet精心設計的或?qū)iT為ImageNet設計的高級骨干,這與廣泛用于高精度方法的擴張骨干有很大不同。相比之下,DDRNet只利用了基本的殘余模塊和瓶頸模塊,通過縮放模型的寬度和深度,可以提供更大范圍的速度和精度權(quán)衡。由于作者的方法簡單和高效,它可以被視為統(tǒng)一實時和高精度的語義分割的強大基線。
論文鏈接:https://arxiv.org/pdf/2101.06085.pdf
每日堅持論文分享不易,如果喜歡我們的內(nèi)容,希望可以推薦或者轉(zhuǎn)發(fā)給周圍的同學。
- END -
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

