用于RGB-D顯著目標(biāo)檢測的自監(jiān)督表示學(xué)習(xí)
點擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達

現(xiàn)有的基于CNN的RGB-D顯著目標(biāo)檢測(SOD)網(wǎng)絡(luò)都需要在ImageNet上進行預(yù)先訓(xùn)練,學(xué)習(xí)層次特征,這有助于提供良好的初始化。然而,大規(guī)模數(shù)據(jù)集的收集和注釋是耗時和昂貴的。在本文中,我們利用自監(jiān)督表示學(xué)習(xí)(SSL)設(shè)計了兩個借口任務(wù):跨模態(tài)自動編碼器和深度輪廓估計。我們的借口任務(wù)只需要少量的和未標(biāo)記的RGB-D數(shù)據(jù)集來執(zhí)行預(yù)訓(xùn)練,這使網(wǎng)絡(luò)捕獲豐富的語義上下文,并減少兩種模式之間的差距,從而為下游任務(wù)提供一個有效的初始化。此外,針對RGB-D SOD中固有的跨模態(tài)融合問題,我們提出了一種多路徑融合(MPF)模塊,該模塊將單一特征融合分解為多路徑融合,以實現(xiàn)對一致和差異信息的充分感知。強積金模塊具有通用性,適用于跨模態(tài)和跨層次的特征融合。在6個基準(zhǔn)的RGB-D SOD數(shù)據(jù)集上進行了大量的實驗,我們的模型在RGB-D數(shù)據(jù)集上進行了預(yù)處理(6;335不帶任何注釋)可以優(yōu)于大多數(shù)在ImageNet上預(yù)先訓(xùn)練的最先進的RGB-D方法(1;280;000,帶有圖像級注釋)。
對于網(wǎng)絡(luò)架構(gòu),我們提出了一個通用模塊,稱為多路徑融合(MPF),以實現(xiàn)跨模態(tài)和跨級融合。具體來說,對于兩種具有互補關(guān)系的特征,我們計算它們的共同一致(JC)特征和共同差異(JD)特征。JC特征更注重其一致性,并能有效防止非顯著信息的干擾。JD的功能描述了它們的差異,并可以補充微妙的信息。
我們的主要貢獻總結(jié)如下:
我們提出了一種與RGB- d SOD任務(wù)密切相關(guān)的自監(jiān)督網(wǎng)絡(luò),該網(wǎng)絡(luò)由跨模態(tài)的RGB深度顯著性分類、RGB深度深度輪廓深度、RGB基于cnn的RGB- d SOD網(wǎng)絡(luò)(Others)、SSL網(wǎng)絡(luò)(Ours)自動編碼器和深度輪廓估計譯碼器組成。這是第一個對RGB-D SOD進行自監(jiān)督表示學(xué)習(xí)的方法。
我們設(shè)計了一種簡單有效的多路徑融合結(jié)構(gòu),適用于跨層次和跨模態(tài)的特征融合。
我們使用6;335對沒有任何相互標(biāo)簽的rgb深度圖像。與預(yù)先訓(xùn)練的ImageNet相比(1;280;在6個RGB-D數(shù)據(jù)集上,我們的方法仍然比大多數(shù)競爭對手表現(xiàn)得更好。此外,本文提出的具有ImageNet預(yù)訓(xùn)練的網(wǎng)絡(luò)在RGB SOD任務(wù)上也取得了良好的性能。
我們的網(wǎng)絡(luò)架構(gòu)如下圖所示,遵循由一個編碼器、一個多路徑融合模塊和一個解碼器組成的雙流模型。編碼器-解碼器體系結(jié)構(gòu)是基于FPN[28]。編碼器基于一個共同的骨干網(wǎng),例如VGG-16[42],分別對RGB和深度進行特征提取。我們拋棄了VGG-16的所有全連接層,去掉最后的池化層,將VGG-16網(wǎng)絡(luò)修改為全卷積網(wǎng)絡(luò)。我們將兩模編碼塊的輸出特征傳遞到多路徑融合模塊中,實現(xiàn)各層次的跨模態(tài)融合。強積金也嵌入在解碼器中。一旦我們得到這些跨模態(tài)融合的特征,它們就會參與到解碼器中,從高階到低階的細節(jié)逐步融合,從而不斷恢復(fù)全分辨率顯著圖。

網(wǎng)絡(luò)管道的下游任務(wù)。它由兩個VGG-16編碼器、五個跨模態(tài)層和四個解碼器塊組成。多路徑融合模塊(MPF)實現(xiàn)了跨模態(tài)和跨層次的融合。我們采用交叉熵損失作為監(jiān)督,生成多分辨率的地面真值。

多路徑融合模塊示意圖

第一階段:跨模態(tài)自動編碼器。第二階段:深度輪廓估計。

不同RGB-D SOD方法的目視比較

在這項工作中,我們提出了一種新的自監(jiān)督學(xué)習(xí)(SSL)方案來完成有效的RGB-D SOD任務(wù)的前訓(xùn)練,而不需要人工標(biāo)注。SSL借口任務(wù)包括跨模態(tài)自動編碼和深度輪廓估計,通過這些任務(wù)網(wǎng)絡(luò)可以捕獲豐富的上下文,減少模態(tài)之間的差距。此外,我們還設(shè)計了一個多路徑融合模塊,實現(xiàn)了跨通道、跨層次的信息融合。大量的實驗表明,我們的模型在RGB- d和RGB SOD數(shù)據(jù)集上都有很好的表現(xiàn)。作為SSL在RGB-D SOD中的第一種方法,可以作為未來研究的新基線。
論文鏈接:https://arxiv.org/pdf/2101.12482.pdf
每日堅持論文分享不易,如果喜歡我們的內(nèi)容,希望可以推薦或者轉(zhuǎn)發(fā)給周圍的同學(xué)。
- END -
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

