基于三維卷積神經(jīng)網(wǎng)絡(luò)的RGB-D顯著目標(biāo)檢測(cè)
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
摘要RGB-D顯著目標(biāo)檢測(cè)(SOD)近年來引起了越來越多的研究興趣,并出現(xiàn)了許多基于編碼器-解碼器架構(gòu)的深度學(xué)習(xí)方法。然而,現(xiàn)有的RGB-D SOD模型大多是在單編碼器或解碼器階段進(jìn)行特征融合,難以保證足夠的跨模態(tài)融合能力。在本文中,作者首次嘗試通過三維卷積神經(jīng)網(wǎng)絡(luò)對(duì)RGB-D SOD進(jìn)行尋優(yōu)。該模型名為RD3D,其目標(biāo)是在編碼器階段進(jìn)行預(yù)融合,在解碼器階段進(jìn)行深度融合,以有效促進(jìn)RGB流和深度流的充分融合。具體來說,RD3D首先通過一個(gè)膨脹的3D編碼器對(duì)RGB和depth模態(tài)進(jìn)行預(yù)融合,然后通過設(shè)計(jì)一個(gè)具有豐富的背投影路徑(RBPP)的3D解碼器,利用3D卷積的廣泛聚合能力,進(jìn)行深度特征融合。采用這種編碼器和解碼器的漸進(jìn)融合策略,可以有效地利用兩種模式之間的充分互動(dòng),提高檢測(cè)精度。在6個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,在4個(gè)關(guān)鍵評(píng)價(jià)指標(biāo)上,RD3D優(yōu)于14種最先進(jìn)的RGB-D SOD方法。
代碼鏈接:https://github.com/PPOLYpubki/RD3D
作者的工作有三個(gè)主要貢獻(xiàn):
作者在編碼器階段提出了預(yù)融合的思想,并說明了它對(duì)最終性能的影響。作者建議通過3D cnn來解決這個(gè)問題,它可以有效地融合交叉模態(tài)特征,而不需要專門的或復(fù)雜的模塊。
為了更好地利用3D卷積的廣泛聚合能力,作者設(shè)計(jì)了一個(gè)包含豐富反投影路徑(RBPP)的3D解碼器。這樣的3D解碼器使得作者提出的RD3D成為一個(gè)完全3D的基于cnn的模型,也是第一個(gè)用于RGB-D SOD任務(wù)的3D基于cnn的模型。
作者表明,RD3D是第一個(gè)基于3D cnn的RGB-D SOD模型,在6個(gè)廣泛使用的基準(zhǔn)數(shù)據(jù)集上顯著超過了14種最先進(jìn)的(SOTA)方法。
提出的RD3D總體架構(gòu)如下圖所示。它遵循典型的編譯碼架構(gòu),由一個(gè)3D編碼器和一個(gè)3D解碼器組成。3D編碼器基本上是一個(gè)由3D卷積擴(kuò)展的類似ResNet/ vg的骨干。它的目標(biāo)是跨模態(tài)特征的預(yù)融合,其輸出是模態(tài)感知的多層次特征。另一方面,3D解碼器通過3D卷積來解碼特征。它遵循典型的UNet-like由上而下的時(shí)尚,但包含了豐富的投影路徑(RBPP,藍(lán)線箭頭在下圖)以及channelmodality關(guān)注模塊(CMA,橙色模塊在下圖),最后解碼后3 d曲線玲瓏,譯碼器輸出預(yù)測(cè)地圖高亮突出對(duì)象(s)。注意到,由于三維卷積具有廣泛的聚合能力,下圖中沒有使用任何顯式的跨模態(tài)融合模塊。

RGB-D SOD的RD3D方案框圖。H為輸出的各層次特征圖的空間分辨率,T為時(shí)間維數(shù)。

提出三D通道-模態(tài)注意模塊,可同時(shí)參與通道和時(shí)間維度。

RD3D與最先進(jìn)的SOTA方法的定性比較。GT表示地面真實(shí)值。

其他建筑和消融研究的視覺結(jié)果。一般來說,RD3D提供了最接近GT的結(jié)果。
作者提出了一種新的RGB-D SOD框架,稱為RD3D,它基于3D cnn,以漸進(jìn)的方式進(jìn)行跨模態(tài)特征融合。RD3D首先利用3D卷積對(duì)RGB和depth進(jìn)行預(yù)融合,然后通過增加豐富的背投影路徑和通道模態(tài)注意模塊的3D解碼器對(duì)模態(tài)感知特征進(jìn)行顯式融合。在六個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,RD3D是第一個(gè)完全3D的基于cnn的RGB-D SOD模型,與現(xiàn)有的SOTA方法相比表現(xiàn)良好。詳細(xì)的消融研究和討論驗(yàn)證了RD3D的關(guān)鍵成分。在未來,作者希望RD3D能夠鼓勵(lì)更多基于3D cnn的RGB-D SOD設(shè)計(jì)。
論文鏈接:https://arxiv.org/pdf/2101.10241.pdf
每日?qǐng)?jiān)持論文分享不易,如果喜歡我們的內(nèi)容,希望可以推薦或者轉(zhuǎn)發(fā)給周圍的同學(xué)。
- END?-
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請(qǐng)按照格式備注,否則不予通過。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~


