ECCV2020 商湯提出語(yǔ)義分割模型新框架
轉(zhuǎn)自:學(xué)術(shù)頭條
【導(dǎo)讀】在ECCV 2020 上,商湯自動(dòng)駕駛團(tuán)隊(duì)提出了一種新型基于解耦優(yōu)化思路的語(yǔ)義分割模型?,F(xiàn)有的語(yǔ)義分割方法要么通過對(duì)全局上下文信息建模來(lái)提高目標(biāo)對(duì)象的內(nèi)部一致性,要么通過多尺度特征融合來(lái)對(duì)目標(biāo)對(duì)象的邊界細(xì)節(jié)進(jìn)行優(yōu)化。我們提出了一種新的語(yǔ)義分割方法,本文認(rèn)為性能強(qiáng)的語(yǔ)義分割方法需要明確地建模目標(biāo)對(duì)象的主體(body)和邊緣(edge),這對(duì)應(yīng)于圖像的高頻和低頻信息。為此,本文首先通過warp圖像特征來(lái)學(xué)習(xí) flow field 使目標(biāo)對(duì)象主體部分更加一致。在解耦監(jiān)督下,通過對(duì)不同部分(主體或邊緣)像素進(jìn)行顯式采樣,進(jìn)一步優(yōu)化產(chǎn)生的主體特征和殘余邊緣特征。我們的實(shí)驗(yàn)表明,所提出的具有各種基準(zhǔn)或主干網(wǎng)絡(luò)的框架可有更好的目標(biāo)對(duì)象內(nèi)部一致性和邊緣部分。我們提出的方法在包括 Cityscapes、CamVid、KITTI 和 BDD 在內(nèi)的四個(gè)主要道路場(chǎng)景語(yǔ)義分割數(shù)據(jù)集上實(shí)現(xiàn)了 SOTA 的結(jié)果,同時(shí)保持了較高的推理效率。我們的方法僅使用精細(xì)標(biāo)注的數(shù)據(jù)就可以在 Cityscapes 數(shù)據(jù)集上達(dá)到 83.7 mIoU。
挑戰(zhàn)和動(dòng)機(jī)


圖2?較底層信息融合

?圖3 動(dòng)機(jī)示意圖
方法介紹

圖4方法示意圖
?
給定一個(gè)特征圖 H×W×C,其中 C 表示通道尺寸,H×W 表示空間分辨率,所提出的模塊輸出具有相同大小的細(xì)化特征圖。特征圖可以分解為 body 主體部分和 edge 邊緣部分。在本文中,假設(shè)它們滿足加法規(guī)則,這意味著特征圖 F:F = F_body + F_edge。本文模型目標(biāo)是設(shè)計(jì)具有特定監(jiān)督權(quán)的組件,分別處理每個(gè)部分。因此,首先通過執(zhí)行 body 部分,然后通過顯式減法獲得邊緣部分。主體生成模塊旨在聚集對(duì)象內(nèi)部的上下文信息并為每個(gè)對(duì)象形成清晰的主體對(duì)象。邊緣保留模塊用來(lái)保留更多的邊緣信息,學(xué)習(xí)到更好的邊緣特征。這兩個(gè)模塊采用不同的損失函數(shù)進(jìn)行監(jiān)督訓(xùn)練。
?
2,主體生成模塊
?
主體生成模塊負(fù)責(zé)為同一對(duì)象內(nèi)的像素生成更一致的特征表示。因?yàn)槲矬w內(nèi)部的像素彼此相似,而沿邊界的像素則顯示出差異,因此可以顯式地學(xué)習(xí)主體和邊緣特征表示,為此,我們采用學(xué)習(xí)流場(chǎng)的方式(flow field),并使用 flow field 對(duì)原始特征圖進(jìn)行 warp 以獲得顯式的主體特征表示。該模塊包含兩個(gè)部分:flow field 生成和特征差值。
?
2.1,F(xiàn)low field?generation 流場(chǎng)生成
?
為了生成主要指向?qū)ο髢?nèi)部的流場(chǎng),突出對(duì)象中心部分的特征作為顯性引導(dǎo)是一種合理的方法。一般來(lái)說,低分辨率的特征圖(或粗表示)往往包含低頻項(xiàng)。低空間頻率項(xiàng)捕捉了圖像的總和,低分辨率特征圖代表了最突出的部分,在這里我們將其視為偽中心位置或種子點(diǎn)的集合。如圖 4(a)所示,我們采用了編碼器-解碼器的設(shè)計(jì),編碼器將特征圖下采樣為低分辨率表示,并有較低的空間頻率部分,這里我們采用三次連續(xù)的 3×3 深度卷積來(lái)實(shí)現(xiàn)。對(duì)于 flow field 的生成,與 FlowNet-S 中做法一樣。我們首先將低頻特征圖上采樣插值到與原始特征圖相同的大小,然后將它們連在一起,并應(yīng)用 3×3 卷積層來(lái)預(yù)測(cè)流場(chǎng)。由于我們得模型都是基于帶孔型的主干網(wǎng)絡(luò),因此這里 3×3 的卷積核足夠大,在大多數(shù)情況下可以獲取到像素之間的長(zhǎng)距離依賴關(guān)系。
2.2,F(xiàn)eature warping 特征差值
?
我們使用可微分的雙線性采樣機(jī)制進(jìn)行插值生成主體部分的每個(gè)點(diǎn), 其過程如下面公式所示:

?
3,Edge preservation module邊緣保留模塊

邊緣保留模塊旨在處理高頻項(xiàng)。它還包括兩個(gè)步驟:1)從原始特征圖F中減去主體特征圖;2)添加更精細(xì)的細(xì)節(jié)信息的低級(jí)特征作為補(bǔ)充。首先,從原始輸入特征圖F中減去主體特征,添加了額外的低級(jí)特征輸入,以補(bǔ)充缺少的細(xì)節(jié)信息,以增強(qiáng)主體特征中的高頻項(xiàng)。最后,將兩者連接起來(lái),并采用 1×1 卷積層進(jìn)行融合。該模塊可以用下面等式表示,其中 γ 是卷積層并且表示級(jí)聯(lián)運(yùn)算。
?
4,Decoupled body and edge supervision解耦的損失函數(shù)


?
實(shí)驗(yàn)部分





Fig3 中展示了我們分割結(jié)果的在邊緣的評(píng)測(cè)指標(biāo)中也比之前最好的 G-SCNN 的結(jié)果要好。Fig5 展示了我們學(xué)習(xí)到解耦的特征表示,F(xiàn)ig6 給出了學(xué)習(xí)到的流場(chǎng)的可視化圖像,其中可以看到對(duì)于 FCN 的結(jié)構(gòu),流場(chǎng)是指向物體的內(nèi)部,對(duì)于目前的 state-of-the-art 的 deeplabv3+ 模型,流場(chǎng)是均勻地分布在邊緣點(diǎn)上,原因是大部分內(nèi)部區(qū)域 deeplabv3+ 已經(jīng)很一致了。
結(jié)論
在這項(xiàng)研究中,我們提出一個(gè)新穎的語(yǔ)義分割框架。我們通過把語(yǔ)義分割的特征進(jìn)行解耦操作,進(jìn)而讓每個(gè)部分單獨(dú)由不同的監(jiān)督信號(hào)進(jìn)行監(jiān)督,因此我們實(shí)現(xiàn)同時(shí)提升分割物體的內(nèi)部一致性和邊緣部分。并且我們的模塊十分輕量級(jí),可以做到即插即用,可以用于優(yōu)化任何基于 FCN 的語(yǔ)義分割模型。我們的方法在 4 個(gè)主流的道路場(chǎng)景的語(yǔ)義分割數(shù)據(jù)集上面取得領(lǐng)先的效果。
往期精彩:
【原創(chuàng)首發(fā)】機(jī)器學(xué)習(xí)公式推導(dǎo)與代碼實(shí)現(xiàn)30講.pdf
【原創(chuàng)首發(fā)】深度學(xué)習(xí)語(yǔ)義分割理論與實(shí)戰(zhàn)指南.pdf

喜歡您就點(diǎn)個(gè)在看!

